Reglas prácticas para las estadísticas "modernas"

85

Me gusta el libro de G van Belle sobre Reglas prácticas estadísticas y, en menor medida, Errores comunes en estadística (y cómo evitarlos) de Phillip I Good y James W. Hardin. Abordan las dificultades comunes al interpretar los resultados de los estudios experimentales y de observación y proporcionan recomendaciones prácticas para la inferencia estadística o el análisis exploratorio de datos. Pero creo que faltan algunas pautas "modernas", especialmente con el uso cada vez mayor de estadísticas computacionales y sólidas en diversos campos, o la introducción de técnicas de la comunidad de aprendizaje automático en, por ejemplo, bioestadística clínica o epidemiología genética.

Además de los trucos computacionales o las trampas comunes en la visualización de datos que podrían abordarse en otro lugar, me gustaría preguntar: ¿Cuáles son las principales reglas generales que recomendaría para un análisis de datos eficiente? ( una regla por respuesta, por favor ).

Estoy pensando en las pautas que podría proporcionar a un colega, un investigador sin una sólida formación en modelado estadístico o un estudiante en un curso intermedio o avanzado. Esto podría pertenecer a varias etapas del análisis de datos, por ejemplo, estrategias de muestreo, selección de características o construcción de modelos, comparación de modelos, estimación posterior, etc.

modeling eda rule-of-thumb chl
fuente

62

No olvide hacer una comprobación básica de datos antes de comenzar el análisis. En particular, observe un diagrama de dispersión de cada variable que desee analizar con el número de identificación, la fecha / hora de la recopilación de datos o similar. El ojo a menudo puede detectar patrones que revelan problemas cuando las estadísticas de resumen no muestran nada inusual. Y si va a usar un registro u otra transformación para el análisis, también úselo para el diagrama.

una parada
fuente

66

Aprendí este de la manera difícil. Dos veces.

parada el

2

¡Si! Mira antes de saltar. Por favor, mira los datos.

vqv

77

La inspección visual de los datos puede inflar el error tipo I si las decisiones se toman post hoc. Tiendo a realizar análisis confirmatorios ya que fueron especificados previamente e incluyo resultados que fueron impactados por la inspección como análisis exploratorios o de sensibilidad.

AdamO

51

Mantenga su análisis reproducible. Un revisor o su jefe u otra persona eventualmente le preguntarán cómo llegó exactamente a su resultado, probablemente seis meses o más después de haber realizado el análisis. Usted no recuerda cómo se limpió los datos, lo que el análisis que hizo, por qué eligió el modelo específico que usó ... Y la reconstrucción de todo esto es un dolor.

Corolario: use un lenguaje de script de algún tipo, ponga comentarios en sus scripts de análisis y guárdelos. Lo que usa (R, SAS, Stata, lo que sea) es menos importante que tener un script completamente reproducible. Rechace los entornos en los que esto es imposible o incómodo.

Stephan Kolassa
fuente

24

Si va a usar R, le recomiendo incrustar su código R en un documento de Sweave que produce su informe. De esa manera, el código R permanece con el informe.

John D. Cook, el

36

No hay almuerzo gratis

Una gran parte de las fallas estadísticas se crea haciendo clic en un botón grande y brillante llamado "Calcular importancia" sin tener en cuenta su carga de supuestos ocultos.

Repetir

Incluso si se trata de una sola llamada a un generador aleatorio, uno puede tener suerte o mala suerte y llegar a conclusiones erróneas.

usuario88
fuente

29

Una regla por respuesta ;-)

Hable con el estadístico antes de realizar el estudio. Si es posible, antes de solicitar la subvención. Ayúdelo a comprender el problema que está estudiando, obtenga su opinión sobre cómo analizar los datos que está a punto de recopilar y piense qué significa eso para el diseño de su estudio y los requisitos de datos. Tal vez las estadísticas chico / gal sugieran hacer un modelo jerárquico para dar cuenta de quién diagnosticó a los pacientes, entonces debes rastrear quién diagnosticó a quién. Suena trivial, pero es mucho mejor pensar en esto antes de recopilar datos (y no recopilar algo crucial) que después.

En una nota relacionada: haga un análisis de poder antes de comenzar. Nada es tan frustrante como no haber presupuestado un tamaño de muestra suficientemente grande. Al pensar en el tamaño del efecto que espera, recuerde el sesgo de publicación: el tamaño del efecto que encontrará probablemente será más pequeño de lo que esperaba dada la literatura (sesgada).

S. Kolassa - Restablece a Monica
fuente

28

Una cosa que les digo a mis alumnos es que produzcan un gráfico apropiado para cada valor p. por ejemplo, un diagrama de dispersión si prueban la correlación, diagramas de caja uno al lado del otro si hacen un ANOVA unidireccional, etc.

Rob Hyndman
fuente

28

Si está decidiendo entre dos formas de analizar sus datos, pruébelo en ambos sentidos y vea si hay alguna diferencia.

Esto es útil en muchos contextos:

Transformar o no transformar
Prueba no paramétrica o paramétrica
La correlación de Spearman o Pearson
PCA o análisis factorial
Ya sea para usar la media aritmética o una estimación robusta de la media
Si se incluye una covariable o no
Ya sea para usar la eliminación por lista, la eliminación por pares, la imputación o algún otro método de reemplazo de valores perdidos

Esto no debería absolver a uno de pensar en el tema, pero al menos da una idea del grado en que los resultados sustantivos son sólidos para la elección.

Jeromy Anglim
fuente

44

¿Es una cita? Me pregunto cómo probar procedimientos de prueba alternativos (¡no estrategias de análisis!) Puede no romper el control del error Tipo I o el cálculo inicial de Potencia. Sé que SAS devuelve sistemáticamente resultados de pruebas paramétricas y no paramétricas (al menos en una comparación de medias de dos muestras y ANOVA), pero siempre encuentro esto intrigante: ¿No deberíamos decidir antes de ver los resultados qué prueba debería aplicarse?

chl

44

@chl buen punto. Estoy de acuerdo en que la regla general anterior se puede usar por razones equivocadas. Es decir, probar cosas de varias maneras y solo informar el resultado que da la respuesta más agradable. Veo la regla general tan útil como una herramienta de capacitación de analistas de datos para aprender el efecto de las decisiones de análisis en conclusiones sustantivas. He visto a muchos estudiantes perderse con decisiones, particularmente cuando hay consejos competitivos en la literatura (por ejemplo, para transformar o no transformar) que a menudo tienen una influencia mínima en las conclusiones sustantivas.

Jeromy Anglim

1

@chl no, no es una cita. Pero pensé que era bueno demarcar la regla general de su lógica y advertencias. Lo cambié a negrita para que quede claro.

Jeromy Anglim

1

Ok, tiene sentido para mí intentar diferentes transformaciones y ver si proporciona una mejor manera de explicar las relaciones estudiadas; lo que no entiendo es probar diferentes estrategias de análisis, aunque es una práctica actual (pero no se informa en los artículos publicados :-), esp. cuando se basan en supuestos diferentes (en EFA vs. PCA, usted asume un término de error adicional; en pruebas no paramétricas vs. paramétricas, descarta parte de los supuestos, etc.). Sin embargo, estoy de acuerdo la demarcación entre el análisis exploratorios y confirmatorios no está tan claro ...

CHL

2

Esto me parece útil solo para el análisis exploratorio o durante los pasos de capacitación y validación. Siempre necesitará un paso final de prueba de verificación o, de lo contrario, podría engañarse con ciertos resultados significativos que funcionan bien una vez que obtenga la diferencia deseada de acuerdo con sus creencias "subjetivas" . ¿Quién debe juzgar qué método funciona mejor? Personalmente, si dudo de los diferentes métodos, lo pruebo con datos simulados, para probar cosas como la varianza de los estimadores o la robustez, etc.

Sextus Empiricus

22

Cuestiona tus datos. En la era moderna de la RAM barata, a menudo trabajamos en grandes cantidades de datos. Un error de "dedo gordo" o "lugar decimal perdido" puede dominar fácilmente un análisis. Sin alguna comprobación básica de la cordura (o trazar los datos, como lo sugieren otros aquí), uno puede perder mucho tiempo. Esto también sugiere utilizar algunas técnicas básicas para 'robustez' a los valores atípicos.

shabbychef
fuente

2

Corolario: mire si alguien codificó un valor faltante como "9999" en lugar de "NA". Si su software utiliza este valor al pie de la letra, arruinará su análisis.

S. Kolassa - Restablece a Mónica el

21

Utilice un software que muestre la cadena de lógica de programación desde los datos sin procesar hasta los análisis / resultados finales. Evite software como Excel en el que un usuario puede cometer un error indetectable en una celda, de modo que solo se verifique la comprobación manual.

fuente

1

VisTrails es un sistema que ayuda a este proceso. (Solo he usado sistemas homebrew; los objetivos comunes del grupo son más importantes que una herramienta en particular).

Denis

18

Siempre pregúntese "¿qué significan estos resultados y cómo se utilizarán?"

Por lo general, el propósito de usar estadísticas es ayudar a tomar decisiones bajo incertidumbre. Por lo tanto, es importante tener en mente "¿Qué decisiones se tomarán como resultado de este análisis y cómo influirá este análisis en estas decisiones?" (por ejemplo, publicar un artículo, recomendar que se utilice un nuevo método, proporcionar $ X en fondos a Y, obtener más datos, informar una cantidad estimada como E, etc.etc .....)

Si no cree que se deba tomar una decisión, uno se pregunta por qué está haciendo el análisis en primer lugar (ya que es bastante costoso hacer el análisis). Pienso en las estadísticas como una "molestia" en el sentido de que es un medio para un fin, más que un fin en sí mismo. En mi opinión, solo cuantificamos la incertidumbre para poder usarla para tomar decisiones que expliquen esta incertidumbre de manera precisa.

Creo que esta es una de las razones por las que mantener las cosas simples es una buena política en general, porque generalmente es mucho más fácil relacionar una solución simple con el mundo real (y, por lo tanto, con el entorno en el que se toma la decisión) que la solución compleja . También suele ser más fácil comprender las limitaciones de la respuesta simple. Luego pasa a las soluciones más complejas cuando comprende las limitaciones de la solución simple y cómo la solución compleja las aborda.

probabilidadislogica
fuente

3

Estoy de acuerdo con todo, excepto en la noción de mantener las cosas simples. Para mí, la simplicidad o la complejidad deberían ser una función del costo de la decisión incorrecta que usted explicó elocuentemente. La simplicidad puede tener costos insignificantes en un área (por ejemplo, publicar el anuncio incorrecto para un cliente) y un costo muy diferente en otra (administrar el tratamiento incorrecto a un paciente).

Thomas Speidel

18

Puede haber una lista larga, pero por mencionar algunas: (sin un orden específico)

El valor P NO es probabilidad. Específicamente, no es la probabilidad de cometer un error de Tipo I. Del mismo modo, los IC no tienen interpretación probabilística para los datos dados. Son aplicables para experimentos repetidos.
El problema relacionado con la varianza domina el sesgo la mayor parte del tiempo en la práctica, por lo que una estimación sesgada con una pequeña varianza es mejor que una estimación imparcial con una gran varianza (la mayoría de las veces).
La adaptación del modelo es un proceso iterativo. Antes de analizar los datos, comprenda la fuente de datos y los posibles modelos que se ajustan o no a la descripción. Además, intente modelar cualquier problema de diseño en su modelo.
Utilice las herramientas de visualización, observe los datos (para detectar posibles anomalías, tendencias obvias, etc., para comprender los datos) antes de analizarlos. Use los métodos de visualización (si es posible) para ver cómo el modelo se ajusta a esos datos.
Por último, pero no menos importante, use software estadístico para lo que están hechos (para facilitar su tarea de cálculo), no son un sustituto del pensamiento humano.

suncoolsu
fuente

14

Su elemento 1 es incorrecto: el valor P es la probabilidad de obtener datos como extremos, o más extremos, dada la hipótesis nula. Hasta donde yo sé, eso significa que P es una probabilidad, condicional pero no obstante una probabilidad. Su afirmación es correcta en las circunstancias en que se está trabajando dentro del paradigma de errores de Neyman-Pearson, pero no se está trabajando dentro del paradigma de Fisherian, donde los valores de P son índices de evidencia contra la hipótesis nula. Es cierto que los paradigmas se mezclan regularmente en una mezcla incoherente, pero ambos son "correctos" cuando se usan solos e intactos.

Michael Lew

2

Para los intervalos de confianza, una vez más, es correcto solo dentro de los límites de los intervalos de confianza de Neyman. Fisher (y otros antes que él) también idearon y usaron cosas que uno interpretaría como intervalos de confianza, y existe una interpretación perfectamente válida de tales intervalos que se refiere al experimento particular que produce el intervalo. En mi opinión, son mucho más preferibles que los de Neyman. Vea mi respuesta a la pregunta Funciones discretas: ¿Cobertura de intervalo de confianza? para más detalles: stats.stackexchange.com/questions/8844/…

Michael Lew

@Michael tienes razón, pero veamos: ¿Cuántas veces es correcto el Nulo? O mejor: ¿Alguien puede probar si el nulo es correcto? También podemos tener debates filosóficos profundos sobre esto, pero ese no es el punto. En el control de calidad, las repeticiones tienen sentido, pero en ciencia cualquier buena regla de decisión debe condicionar los datos.

suncoolsu

1

Fisher lo sabía (el condicionamiento de los datos observados y la observación sobre el control de calidad se basa en eso). Produjo muchos contraejemplos basados en esto. Los bayesianos han estado luchando por esto, digamos, durante más de medio siglo.

suncoolsu

1

μ = 0

$\mu=0$

13

Para la organización / gestión de datos, asegúrese de que cuando genere nuevas variables en el conjunto de datos (por ejemplo, calculando el índice de masa corporal a partir de la altura y el peso), las variables originales nunca se eliminen. Un enfoque no destructivo es mejor desde una perspectiva de reproducibilidad. Nunca se sabe cuándo puede ingresar incorrectamente un comando y, posteriormente, debe rehacer su generación de variables. ¡Sin las variables originales, perderá mucho tiempo!

pmgjones
fuente

11

Piense detenidamente sobre el proceso subyacente de generación de datos (DGP). Si el modelo que desea usar no refleja el DGP, necesita encontrar un nuevo modelo.

Jason Morgan
fuente

¿Cómo sabes, cómo puedes saber, qué es el DGP? Por ejemplo, ejecuto series de tiempo en un área donde todavía tengo que ver una teoría bien desarrollada (por qué ocurren ciertos tipos de gasto público). No creo que sea posible conocer el verdadero proceso en este caso.

user54285

8

Para histogramas, una buena regla general para el número de contenedores en un histograma :

raíz cuadrada del número de puntos de datos

Doug
fuente

6

A pesar de los conjuntos de datos cada vez más grandes y el software más potente, los modelos de ajuste excesivo son un peligro importante para los investigadores, especialmente aquellos que aún no se han quemado por el ajuste excesivo. El ajuste excesivo significa que ha ajustado algo más complicado que sus datos y el estado del arte. Al igual que el amor o la belleza, es difícil de definir, y mucho menos definir formalmente, pero más fácil de reconocer.

Una regla general mínima es 10 puntos de datos para cada parámetro estimado para cualquier cosa como regresión clásica, y tenga cuidado con las consecuencias si lo ignora. Para otros análisis, generalmente necesita mucho más para hacer un buen trabajo, especialmente si hay categorías raras en los datos.

Incluso si puede ajustar un modelo fácilmente, debe preocuparse constantemente por lo que significa y hasta qué punto es reproducible incluso con un conjunto de datos muy similar.

Nick Cox
fuente

Eso generalmente se ve como una regla general para los modelos donde la respuesta es condicionalmente normal. En otros casos, es demasiado liberal. Por ejemplo, para la clasificación binaria, la regla general correspondiente sería 15 observaciones en la categoría menos común para cada variable; & para el análisis de supervivencia, serían 10 eventos (es decir, datos no censurados) para cada variable.

gung - Restablece a Monica

Estoy de acuerdo. Lo editaré, pero ¿por qué no publicar su propia regla general junto con comentarios extendidos?

Nick Cox

1

Debe resaltar la última oración "Incluso si puede ajustar un modelo fácilmente, debe preocuparse constantemente por lo que significa y hasta qué punto es reproducible incluso con un conjunto de datos muy similar".

Sextus Empiricus

6

$Y_{t+h}$ $(Y_t,X_t)$ $t>T$ $(Y_1,X_1),\dots, (Y_T,X_T)$

$Y_{t+h}$
$Y_{t+h}$ $Y_t$

$Y_{t+h}$ $Y_t+X_t$

robin girard
fuente

5

Si el modelo no converge fácil y rápidamente, podría ser culpa del software. Sin embargo, es mucho más común que sus datos no sean adecuados para el modelo o que el modelo no sea adecuado para los datos. Podría ser difícil saber cuál, y los empiristas y teóricos pueden tener puntos de vista diferentes. Pero el pensamiento temático, realmente mirar los datos y pensar constantemente en la interpretación del modelo ayuda tanto como cualquier cosa. Por encima de todo, pruebe con un modelo más simple si uno complicado no converge.

No hay ganancia en forzar la convergencia o en declarar la victoria y obtener resultados después de muchas iteraciones, pero antes de que su modelo realmente haya convergido. En el mejor de los casos, te engañas si haces eso.

Nick Cox
fuente

"realmente mirar los datos" sería muy bueno cuando obtuviéramos un NN que haga esto por nosotros.

Sextus Empiricus

Se llamaba JWT.

Nick Cox

5

En las variables instrumentales, la regresión siempre verifica la importancia conjunta de sus instrumentos. La regla general de Staiger-Stock dice que un estadístico F de menos de 10 es preocupante e indica que sus instrumentos pueden ser débiles, es decir, no están suficientemente correlacionados con la variable endógena. Sin embargo, esto no implica automáticamente que una F superior a 10 garantice instrumentos fuertes. Staiger y Stock (1997) han demostrado que las técnicas de variables instrumentales como 2SLS pueden estar muy sesgadas en muestras "pequeñas" si los instrumentos solo tienen una correlación débil con la variable endógena. Su ejemplo fue el estudio de Angrist y Krueger (1991) que tuvo más de 300,000 observaciones, un hecho inquietante sobre la noción de muestras "pequeñas".

Martijn Weterings
fuente

He agregado el enlace al artículo, pero creo que esta respuesta necesita un formato adicional, me resultó demasiado difícil enfatizar la 'regla general' basada en escanear el artículo muy rápidamente, y esta respuesta no es muy intuitiva.

Sextus Empiricus

3

No hay criterios para elegir criterios de información.

Una vez que alguien dice algo como "El? IC indica esto, pero a menudo se sabe que da resultados incorrectos" (¿dónde? ¿Hay alguna letra que le guste?), Sabe que también tendrá que pensar en el modelo y en particular si sentido científico o práctico

Ningún álgebra puede decirte eso.

Nick Cox
fuente

2

Leí esto en alguna parte (probablemente con validación cruzada) y no he podido encontrarlo en ningún lado, así que aquí va ...

Si ha descubierto un resultado interesante, probablemente sea incorrecto.

Es muy fácil emocionarse ante la perspectiva de un asombroso valor p o un error de validación cruzada casi perfecto. Personalmente, he presentado resultados asombrosos (falsos) a colegas solo para tener que retractarlos. Muy a menudo, si parece demasiado bueno para ser verdad ...

'mancha cierto. 'Mancha cierto en absoluto.

timwiz
fuente

2

Trate de ser valiente en lugar de virtuoso Es decir, no permita que pequeñas señales de no normalidad, independencia o no linealidad, etc. bloqueen su camino si tales indicaciones deben ser ignoradas para que los datos hablen alto y claro . - En danés, 'dristig' vs. 'dydig' son los adjetivos.

Jørgen Hilden
fuente

1

Al analizar datos longitudinales, asegúrese de verificar que las variables se codifiquen de la misma manera en cada período de tiempo.

Mientras escribía mi disertación, que implicaba el análisis de datos secundarios, hubo una semana de desconcierto total de un cambio de 1 unidad en los puntajes de depresión promedio en un promedio estable por año: resultó ser uno de los años en mi conjunto de datos, elementos de escala para un instrumento validado se habían codificado 1–4 en lugar de 0–3.

Alexis
fuente

1

Su hipótesis debe conducir su elección de modelo, no al revés.

Parafraseando a Maslow, si eres un martillo, todo parece un clavo. Los modelos específicos vienen con anteojeras y suposiciones sobre el mundo incorporadas: por ejemplo, los modelos no dinámicos ahogan la retroalimentación del resultado del tratamiento.

Alexis
fuente

1

Use la simulación para verificar dónde la estructura de su modelo puede estar creando "resultados" que son simplemente artefactos matemáticos de los supuestos de su modelo

Realice su análisis en variables aleatorizadas o en variables simuladas que se sabe que no están correlacionadas entre sí. Haga esto muchas veces y contraste las estimaciones puntuales promediadas (y los intervalos de confianza o creíbles) con los resultados que obtiene en los datos reales: ¿son tan diferentes?

Alexis
fuente

0

Soy un analista de datos en lugar de un estadístico, pero estas son mis sugerencias.

1) Antes de analizar los datos, asegúrese de que las suposiciones de su método sean correctas. Una vez que vea los resultados, puede ser difícil olvidarlos incluso después de que solucione los problemas y los resultados cambien.

2) Ayuda a conocer sus datos. Ejecuté series temporales y obtuve un resultado que tenía poco sentido dados los datos de los últimos años. Revisé los métodos a la luz de eso y descubrí que el promedio de los modelos en el método estaba distorsionando los resultados durante un período (y se había producido una ruptura estructural).

3) Tenga cuidado con las reglas generales. Reflejan las experiencias de investigadores individuales a partir de sus propios datos y si su campo es muy diferente al suyo, sus conclusiones pueden no ser correctas para sus datos. Además, y esto fue un shock para mí, los estadísticos a menudo no están de acuerdo en los puntos clave.

4) Intente analizar los datos con diferentes métodos y ver si los resultados son similares. Comprenda que ningún método es perfecto y tenga cuidado de verificar cuando pueda por violaciones de los supuestos.

usuario54285
fuente

Reglas prácticas para las estadísticas "modernas"

Respuestas:

No hay almuerzo gratis

Repetir

Si ha descubierto un resultado interesante, probablemente sea incorrecto.