Trabajo en el campo de la minería de datos y he tenido muy poca educación formal en estadística. Últimamente he estado leyendo mucho trabajo que se centra en los paradigmas bayesianos para el aprendizaje y la minería, lo que me parece muy interesante.
Mi pregunta es (en varias partes), dado un problema, ¿existe un marco general por el cual es posible construir un modelo estadístico? ¿Cuáles son las primeras cosas que haces cuando te dan un conjunto de datos del cual te gustaría modelar el proceso subyacente? ¿Existen buenos libros / tutoriales que expliquen este proceso o es una cuestión de experiencia? ¿Está la inferencia en la vanguardia de su mente cuando construye su modelo o su objetivo es describir los datos antes de preocuparse por cómo usarlos para calcular?
¡Cualquier idea sería muy apreciada! Gracias.
fuente
Respuestas:
En Estadísticas, como en Minería de datos, comienzas con datos y un objetivo. En estadística hay mucho enfoque en la inferencia, es decir, responder preguntas a nivel de población usando una muestra. En la minería de datos, el enfoque suele ser la predicción: crea un modelo a partir de su muestra (datos de entrenamiento) para predecir los datos de la prueba.
El proceso en estadísticas es entonces:
Explore los datos usando resúmenes y gráficos: dependiendo de cómo los estadísticos manejen los datos, algunos serán más abiertos de mente, verán los datos desde todos los ángulos, mientras que otros (especialmente los científicos sociales) verán los datos a través de la lente del pregunta de interés (por ejemplo, trazar especialmente las variables de interés y no otras)
Elija una familia de modelos estadísticos apropiados (p. Ej., Regresión lineal para una Y continua, regresión logística para una Y binaria o Poisson para datos de conteo) y realice la selección del modelo
Estima el modelo final
Pruebe los supuestos del modelo para asegurarse de que se cumplan razonablemente (diferente de las pruebas de precisión predictiva en la minería de datos)
Use el modelo para inferencia: este es el paso principal que difiere de la minería de datos. La palabra "valor p" llega aquí ...
Eche un vistazo a cualquier libro de texto de estadísticas básicas y encontrará un capítulo sobre Análisis de datos exploratorios seguido de algunas distribuciones (que ayudarán a elegir modelos de aproximación razonables), luego inferencia (intervalos de confianza y pruebas de hipótesis) y modelos de regresión.
Te describí el clásico proceso estadístico. Sin embargo, tengo muchos problemas con eso. El enfoque en la inferencia ha dominado completamente los campos, mientras que la predicción (que es extremadamente importante y útil) ha sido casi descuidada. Además, si observa cómo los científicos sociales usan las estadísticas para inferencia, ¡encontrará que lo usan de manera muy diferente! Puedes ver más sobre esto aquí
fuente
En cuanto a los libros, "Los elementos del aprendizaje estadístico" de Hastie, Tibshirani y Friedman es muy bueno.
El libro completo está disponible en el sitio web de los autores ; Es posible que desee echar un vistazo para ver si es adecuado para sus necesidades.
fuente
En cuanto a las referencias (en línea), recomendaría mirar las diapositivas del tutorial de Andrew Moore sobre Minería de datos estadísticos .
Hay muchos libros de texto sobre minería de datos y aprendizaje automático; quizás un buen punto de partida sea Principios de minería de datos , de Hand et al., e Introducción al aprendizaje automático , de Alpaydin.
fuente
El mejor libro introductorio bayesiano que he encontrado es Análisis de datos: un tutorial bayesiano . Es bastante practico.
fuente