¿Consejos y trucos para comenzar con el modelado estadístico?

10

Trabajo en el campo de la minería de datos y he tenido muy poca educación formal en estadística. Últimamente he estado leyendo mucho trabajo que se centra en los paradigmas bayesianos para el aprendizaje y la minería, lo que me parece muy interesante.

Mi pregunta es (en varias partes), dado un problema, ¿existe un marco general por el cual es posible construir un modelo estadístico? ¿Cuáles son las primeras cosas que haces cuando te dan un conjunto de datos del cual te gustaría modelar el proceso subyacente? ¿Existen buenos libros / tutoriales que expliquen este proceso o es una cuestión de experiencia? ¿Está la inferencia en la vanguardia de su mente cuando construye su modelo o su objetivo es describir los datos antes de preocuparse por cómo usarlos para calcular?

¡Cualquier idea sería muy apreciada! Gracias.

bayesian modeling references eda Nick
fuente

44

Hola Nick, bienvenido a CV. Tu pregunta es muy amplia; es posible que tenga mejor suerte al obtener buenas respuestas si lo divide en preguntas más pequeñas (y una vez que lo haga, es posible que algunas de ellas ya hayan sido respondidas aquí). Sin embargo, como mínimo, debe marcar su pregunta como "wiki de la comunidad". Básicamente, eso significa que, en lugar del formato habitual de respuestas competitivas aquí, todas las respuestas en su conjunto se considerarán La Respuesta.

Matt Parker el

1

@Matt La casilla de verificación CW ya no aparece para una pregunta. Un mod deberá marcar una pregunta como CW según sea necesario.

@ Nick ... Soy nuevo también. Creo que una cosa general y lo más importante que uno debe tener en cuenta es cómo desea describir su variable de salida ... ¿es continua, es binaria? Porque al final del día desea observar / modelar una variable de salida. Lo siguiente que pensaría es cuáles son las formas posibles de modelar la variable requerida ... lo que vendría entonces es que si la variable es dicotómica, el procedimiento es el modelo logit ... La siguiente consideración sería entonces los datos, su contenido esencial y el varios problemas que uno encuentra ... Espero que esto tenga sentido.

ayush biyani

6

En Estadísticas, como en Minería de datos, comienzas con datos y un objetivo. En estadística hay mucho enfoque en la inferencia, es decir, responder preguntas a nivel de población usando una muestra. En la minería de datos, el enfoque suele ser la predicción: crea un modelo a partir de su muestra (datos de entrenamiento) para predecir los datos de la prueba.

El proceso en estadísticas es entonces:

Explore los datos usando resúmenes y gráficos: dependiendo de cómo los estadísticos manejen los datos, algunos serán más abiertos de mente, verán los datos desde todos los ángulos, mientras que otros (especialmente los científicos sociales) verán los datos a través de la lente del pregunta de interés (por ejemplo, trazar especialmente las variables de interés y no otras)
1. Elija una familia de modelos estadísticos apropiados (p. Ej., Regresión lineal para una Y continua, regresión logística para una Y binaria o Poisson para datos de conteo) y realice la selección del modelo
2. Estima el modelo final
3. Pruebe los supuestos del modelo para asegurarse de que se cumplan razonablemente (diferente de las pruebas de precisión predictiva en la minería de datos)
4. Use el modelo para inferencia: este es el paso principal que difiere de la minería de datos. La palabra "valor p" llega aquí ...

Eche un vistazo a cualquier libro de texto de estadísticas básicas y encontrará un capítulo sobre Análisis de datos exploratorios seguido de algunas distribuciones (que ayudarán a elegir modelos de aproximación razonables), luego inferencia (intervalos de confianza y pruebas de hipótesis) y modelos de regresión.

Te describí el clásico proceso estadístico. Sin embargo, tengo muchos problemas con eso. El enfoque en la inferencia ha dominado completamente los campos, mientras que la predicción (que es extremadamente importante y útil) ha sido casi descuidada. Además, si observa cómo los científicos sociales usan las estadísticas para inferencia, ¡encontrará que lo usan de manera muy diferente! Puedes ver más sobre esto aquí

Galit Shmueli
fuente

2

En cuanto a los libros, "Los elementos del aprendizaje estadístico" de Hastie, Tibshirani y Friedman es muy bueno.

El libro completo está disponible en el sitio web de los autores ; Es posible que desee echar un vistazo para ver si es adecuado para sus necesidades.

NPE
fuente

2

En cuanto a las referencias (en línea), recomendaría mirar las diapositivas del tutorial de Andrew Moore sobre Minería de datos estadísticos .

Hay muchos libros de texto sobre minería de datos y aprendizaje automático; quizás un buen punto de partida sea Principios de minería de datos , de Hand et al., e Introducción al aprendizaje automático , de Alpaydin.

chl
fuente

1

El mejor libro introductorio bayesiano que he encontrado es Análisis de datos: un tutorial bayesiano . Es bastante practico.

John Salvatier
fuente

¿Consejos y trucos para comenzar con el modelado estadístico?

Respuestas: