¿Qué teorías debería saber todo estadístico?

30

Estoy pensando en esto desde una perspectiva de requisitos muy básicos y mínimos. ¿Cuáles son las teorías clave que un estadístico de la industria (no académico) debe conocer, comprender y utilizar de manera regular?

Una de las grandes que viene a la mente es la Ley de los grandes números . ¿Cuáles son los más esenciales para aplicar la teoría estadística al análisis de datos?

bnjmn
fuente

Respuestas:

41

Francamente, no creo que la ley de los grandes números tenga un papel importante en la industria. Es útil comprender las justificaciones asintóticas de los procedimientos comunes, como las estimaciones y pruebas de máxima verosimilitud (incluidos los GLM omnipresentes y la regresión logística, en particular), el bootstrap, pero estos son problemas de distribución en lugar de la probabilidad de llegar a problemas de muestra incorrecta. .

Más allá de los temas ya mencionados (GLM, inferencia, bootstrap), el modelo estadístico más común es la regresión lineal, por lo que es imprescindible una comprensión profunda del modelo lineal. Es posible que nunca ejecute ANOVA en la vida de su industria, pero si no lo comprende, no debería ser llamado estadístico.

Hay diferentes tipos de industrias. En la industria farmacéutica, no puede ganarse la vida sin ensayos aleatorios y regresión logística. En las estadísticas de la encuesta, no puede ganarse la vida sin el estimador Horvitz-Thompson y los ajustes de no respuesta. En las estadísticas relacionadas con la informática, no puede ganarse la vida sin aprendizaje estadístico y minería de datos. En los think tanks de políticas públicas (y, cada vez más, en estadísticas educativas), no se puede ganarse la vida sin estimadores de causalidad y efecto del tratamiento (que, cada vez más, implican ensayos aleatorios). En la investigación de mercado, debe tener una combinación de antecedentes económicos con la teoría de medición psicométrica (y no puede aprender ninguno de ellos en las ofertas típicas de un departamento de estadística). La estadística industrial opera con sus propios paradigmas peculiares de seis sigmas que están conectados remotamente a las estadísticas principales; Se puede encontrar un vínculo más fuerte en el diseño del material de experimentos. El material de Wall Street sería la econometría financiera, hasta el cálculo estocástico. Estas son habilidades MUY dispares, y el término "industria" está aún peor definido que "academia". No creo que nadie pueda afirmar que sabe más de dos o tres de los anteriores al mismo tiempo.

Sin embargo, las principales habilidades que se requerirían universalmente en la "industria" (lo que sea que eso signifique para usted) serían la gestión del tiempo, la gestión de proyectos y la comunicación con clientes menos expertos en estadística. Entonces, si desea prepararse para la colocación en la industria, tome clases en la escuela de negocios sobre estos temas.

ACTUALIZACIÓN: La publicación original fue escrita en febrero de 2012; En estos días (marzo de 2014), probablemente debería llamarse a sí mismo "un científico de datos" en lugar de "un estadístico" para encontrar un trabajo excelente en la industria ... y aprender mejor algo de Hadoop para seguir con esa autoproclamación.

StasK
fuente
1
Gran respuesta. Gracias por destacar algunas de las grandes diferencias entre los estadísticos dentro de la industria. Esto ayuda a motivar mi pregunta porque creo que muchas personas tienen una idea diferente de lo que es / hace un estadístico. Supongo que estaba tratando de averiguar dónde se cruzan todos estos elementos desde una comprensión básica. Además, realmente aprecio tu último párrafo sobre temas de negocios y cuán esenciales son. Grandes puntos, pero todavía me gustaría ver si alguien puede agregar a la conversación antes de aceptar.
bnjmn
Estoy desconcertado por estos "paradigmas peculiares de Six Sigma", "conectados remotamente a las estadísticas convencionales" con las que usted dice que opera la estadística industrial. Me parece completamente ortodoxo, dejando de lado las diferencias en la terminología encontrada entre todos estos subcampos.
Scortchi - Restablece a Monica
44
10-9 9
Bastante justo: habría dicho análisis de sistemas de medición (acuerdo entre evaluadores, estudios de reproducibilidad y repetibilidad de indicadores), control estadístico de procesos, análisis de confiabilidad (también conocido como análisis de supervivencia) y diseño experimental (diseños fraccionales) factoriales, metodología de superficie de respuesta ) eran características de las estadísticas industriales.
Scortchi - Restablece a Monica
12

Creo que una buena comprensión de los problemas relacionados con el equilibrio de sesgo-varianza . La mayoría de los estadísticos terminarán, en algún momento, analizando un conjunto de datos que sea lo suficientemente pequeño como para que la varianza de un estimador o los parámetros del modelo sean lo suficientemente altos como para que el sesgo sea una consideración secundaria.

Dikran Marsupial
fuente
11

Para señalar el súper obvio:

Teorema del límite central

pagspags

Bootstrapping

Macro
fuente
8

No diría que esto es muy similar a algo como la ley de los grandes números o el teorema del límite central, pero debido a que hacer inferencias sobre la causalidad es a menudo central, entender el trabajo de Judea Pearl sobre el uso de gráficos estructurados para modelar la causalidad es algo que la gente debería conocer. con. Proporciona una manera de entender por qué los estudios experimentales y de observación difieren con respecto a las inferencias causales que ofrecen, y ofrece formas de tratar con los datos de observación. Para una buena visión general, su libro está aquí .

gung - Restablece a Monica
fuente
2
También está el marco contrafactual de Rubin; también existen técnicas de modelado de ecuaciones estructurales y variables instrumentales econométricas ... algunas de las cuales se describen en la Econometría en su mayoría inofensiva, que es uno de los mejores libros de estadísticas escritos por no estadísticos.
StasK
7

Una comprensión sólida del problema sustantivo a abordar es tan importante como cualquier enfoque estadístico particular. Un buen científico en la industria es más probable que un estadístico sin tal conocimiento para llegar a una solución razonable a su problema. Un estadístico con conocimientos sustantivos puede ayudar.

Brett
fuente
6

El método Delta, cómo calcular la varianza de estadísticas extrañas y encontrar su eficiencia relativa asintótica, para recomendar cambios de variables y explicar los aumentos de eficiencia "estimando lo correcto". Junto con eso, la desigualdad de Jensen para comprender los GLM y los extraños tipos de sesgos que surgen en transformaciones como las anteriores. Y, ahora que se mencionan el sesgo y la varianza, el concepto de compensación de sesgo-varianza y MSE como una medida objetiva de precisión predictiva.

AdamO
fuente
6

En mi opinión, la inferencia estadística es más importante para un profesional. La inferencia tiene dos partes: 1) Estimación y 2) Prueba de hipótesis. La prueba de hipótesis es importante. Dado que en la estimación es principalmente un procedimiento único, se sigue la estimación de máxima verosimilitud y está disponible en la mayoría de los paquetes estadísticos (por lo que no hay confusión).

Las preguntas frecuentes de los profesionales están relacionadas con pruebas significativas de diferencia o análisis de causalidad. Se pueden encontrar pruebas de hipótesis importantes en este enlace .

Para la interpretación de la causalidad se requiere conocer los modelos lineales, GLM o en general el modelado estadístico. Supongo que el futuro del análisis de datos incluye la inferencia bayesiana.

vinux
fuente
0

La inferencia casual es imprescindible. Y cómo abordar su problema fundamental, no puedes retroceder en el tiempo y no darle a alguien un tratamiento. Lea artículos sobre Rubin, pescador, fundador del estudiante de estadística moderna.) .... Qué aprender a abordar este problema, la asignación al azar adecuada y cómo la Ley de grandes números dice que las cosas están correctamente aleatorizadas, Pruebas de hipótesis, Resultados potenciales (se sostiene contra el supuesto de hetroscastistía y es excelente para la falta), coincidencia (ideal para la falta pero los resultados potenciales son mejores porque es más generalizado, quiero decir, ¿por qué aprender un montón de cosas complicadas cuando solo se puede aprender una cosa complicada?), Bootstrap, estadísticas bayesianas, por supuesto (regresión bayesiana , regresión bayesiana ingenua, factores bayesianos) y alternativas no papétricas.

Normalmente en la práctica solo siga estos pasos generales,

Con respecto a un comentario anterior, generalmente debe comenzar primero con un ANOVA (efectos aleatorios o efectos fijos, y transformar los tipos continuos en contenedores) y luego usar una regresión (que si transforma y altera a veces puede ser tan bueno como un ANOVA pero nunca superarlo) para ver qué tratamientos específicos son significativos (a diferencia de hacer una prueba t múltiple y usar alguna corrección como Holm methid) use una regresión.

En los casos en los que tiene que predecir cosas, use la regresión bayasiana.

Falta en más del 5% usa resultados potenciales

Otra rama del análisis de datos es el aprendizaje automático supervisado, que debe mencionarse.

Kheagan Eckley
fuente