Soy un estudiante graduado en psicología y, a medida que realizo más y más estudios independientes en estadística, me sorprende cada vez más la insuficiencia de mi entrenamiento formal. La experiencia tanto personal como de segunda mano sugiere que la escasez de rigor estadístico en la formación de pregrado y posgrado es bastante ubicua dentro de la psicología. Como tal, pensé que sería útil para los estudiantes independientes como yo crear una lista de "Pecados estadísticos", tabulando las prácticas estadísticas que se enseñan a los estudiantes de posgrado como una práctica estándar que de hecho son reemplazadas por superiores (más poderosas o flexibles, o robusto, etc.) métodos modernos o francamente inválidos. Anticipando que otros campos también podrían experimentar un estado de cosas similar, propongo un wiki de la comunidad donde podamos recopilar una lista de pecados estadísticos en todas las disciplinas.
227
Respuestas:
No observar (trazar) los datos.
fuente
¡La mayoría de las interpretaciones de los valores p son pecaminosas! El uso convencional de los valores p es muy defectuoso; Un hecho que, en mi opinión, pone en tela de juicio los enfoques estándar para la enseñanza de las pruebas de hipótesis y las pruebas de significación.
Haller y Krause han descubierto que los instructores de estadística son casi tan propensos como los estudiantes a malinterpretar los valores p. (Realice la prueba en su trabajo y vea cómo le va). Steve Goodman es un buen argumento para descartar el uso convencional (incorrecto) del valor p en favor de las probabilidades. El papel de Hubbard también merece un vistazo.
Haller y Krauss. Interpretaciones erróneas de importancia: un problema que los estudiantes comparten con sus maestros . Métodos de investigación psicológica (2002) vol. 7 (1) págs. 1-20 ( PDF )
Hubbard y Bayarri. Confusión sobre las medidas de evidencia (p) versus errores (α) en las pruebas estadísticas clásicas . El estadístico estadounidense (2003) vol. 57 (3)
Buen hombre. Hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P Ann Intern Med (1999) vol. 130 (12) págs. 995-1004 ( PDF )
Ver también:
Wagenmakers, EJ. Una solución práctica a los problemas generalizados de los valores de p. Psychonomic Bulletin & Review, 14 (5), 779-804.
para algunos casos claros donde incluso la interpretación nominalmente "correcta" de un valor p se ha hecho incorrecta debido a las elecciones realizadas por el experimentador.
Actualización (2016) : en 2016, la Asociación Americana de Estadística emitió una declaración sobre los valores p, ver aquí . Esto fue, en cierto modo, una respuesta a la "prohibición de los valores p" emitida por una revista de psicología aproximadamente un año antes.
fuente
La trampa más peligrosa que encontré al trabajar en un modelo predictivo es no reservar un conjunto de datos de prueba desde el principio para dedicarlo a la evaluación de rendimiento "final".
Es realmente fácil sobreestimar la precisión predictiva de su modelo si tiene la oportunidad de utilizar de alguna manera los datos de prueba al ajustar los parámetros, seleccionar el criterio de detención del algoritmo de aprendizaje anterior ...
Para evitar este problema, antes de comenzar a trabajar en un nuevo conjunto de datos, debe dividir sus datos como:
Luego, divida su conjunto de desarrollo como un "conjunto de desarrollo de entrenamiento" y un "conjunto de desarrollo de prueba" en el que utilice el conjunto de desarrollo de entrenamiento para entrenar varios modelos con diferentes parámetros y seleccione los mejores según el rendimiento en el conjunto de desarrollo de prueba. También puede hacer una búsqueda de cuadrícula con validación cruzada, pero solo en el conjunto de desarrollo. Nunca use el conjunto de evaluación mientras la selección del modelo no esté hecha al 100%.
Una vez que esté seguro de la selección y los parámetros del modelo, realice una validación cruzada de 10 veces en el conjunto de evaluación para tener una idea de la precisión predictiva "real" del modelo seleccionado.
Además, si sus datos son temporales, es mejor elegir la división de desarrollo / evaluación en un código de tiempo: "Es difícil hacer predicciones, especialmente sobre el futuro".
fuente
Informe de valores p cuando realizó minería de datos (descubrimiento de hipótesis) en lugar de estadísticas (prueba de hipótesis).
fuente
Prueba de las hipótesis versus H 1 : μ ≠ 0 (por ejemplo, en un entorno gaussiano)H0 0: μ = 0 H1: μ ≠ 0
para justificar que en un modelo (es decir, mezclar " H 0 no es rechazado" y " H 0 es verdadero").μ=0 H0 H0
Un muy buen ejemplo de ese tipo de razonamiento (muy malo) es cuando prueba si las varianzas de dos gaussianos son iguales (o no) antes de probar si su media es igual o no con el supuesto de la misma varianza.
Otro ejemplo ocurre cuando prueba la normalidad (versus no normalidad) para justificar la normalidad. ¿Todo estadístico ha hecho eso en la vida? es baaad :) (y debería empujar a las personas a verificar la solidez a la no gaussianidad)
fuente
Algunos errores que me molestan:
Suponiendo que los estimadores imparciales son siempre mejores que los estimadores sesgados.
Suponiendo que un alto implica un buen modelo, un R 2 bajo implica un modelo malo.R2 R2
Interpretación / aplicación incorrecta de la correlación.
Estimaciones de puntos de informe sin error estándar.
Usar métodos que supongan algún tipo de normalidad multivariada (como el análisis discriminante lineal) cuando hay disponibles métodos no / semiparamétricos más robustos, de mejor rendimiento.
Usar el valor p como una medida de fuerza entre un predictor y la respuesta, en lugar de como una medida de cuánta evidencia hay de alguna relación.
fuente
Dicotomización de una variable predictiva continua para "simplificar" el análisis o para resolver el "problema" de la no linealidad en el efecto del predictor continuo.
fuente
Realmente no respondo la pregunta, pero hay un libro completo sobre este tema:
Phillip I.Bueno, James William Hardin (2003). Errores comunes en las estadísticas (y cómo evitarlos). Wiley ISBN 9780471460688
fuente
interpretando
Probability(data | hypothesis)
comoProbability(hypothesis | data)
sin la aplicación del teorema de Bayes.fuente
Estadísticas ritualizadas.
Este "pecado" es cuando aplicas cualquier cosa que te enseñaron, independientemente de su idoneidad, porque así es como se hacen las cosas. Son estadísticas de memoria, un nivel superior que permite que la máquina elija sus estadísticas por usted.
Los ejemplos son Introducción a los estudiantes de nivel de Estadística que intentan que todo encaje en su modesta prueba t y el kit de herramientas ANOVA, o cada vez que uno se encuentra diciendo "Oh, tengo datos categóricos, debería usar X" sin parar para mirar el datos, o considere la pregunta que se hace.
Una variación de este pecado implica el uso de código que no entiendes para producir resultados que solo entiendes, pero conoces "la quinta columna, aproximadamente 8 filas hacia abajo" o la respuesta que se supone que debes estar buscando.
fuente
Tal vez la regresión gradual y otras formas de prueba después de la selección del modelo.
Seleccionar variables independientes para modelar sin tener una hipótesis a priori detrás de las relaciones existentes puede conducir a falacias lógicas o correlaciones espurias, entre otros errores.
Referencias útiles (desde una perspectiva biológica / bioestadística):
Kozak, M. y Azevedo, R. (2011). ¿Tiene sentido usar la selección de variables por pasos para construir modelos de análisis de ruta secuenciales? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? The Journal of animal ecology, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Estrategias de modelado de regresión , Springer 2001.
fuente
Algo que veo una cantidad sorprendente en los documentos de la conferencia e incluso en las revistas es hacer comparaciones múltiples (por ejemplo, correlaciones bivariadas) y luego informar que todos los p <.05s son "significativos" (ignorando lo correcto o incorrecto de eso por el momento).
También sé lo que quieres decir con los graduados en psicología: he terminado un doctorado en psicología y todavía solo estoy aprendiendo realmente. Es bastante malo, creo que la psicología necesita tomar el análisis cuantitativo de datos más en serio si vamos a usarlo (lo cual, claramente, deberíamos)
fuente
Siendo exploratorio pero pretendiendo ser confirmatorio. Esto puede suceder cuando uno está modificando la estrategia de análisis (es decir, ajuste del modelo, selección de variables, etc.) impulsada por datos o por resultados, pero no declara esto abiertamente y luego solo informa los resultados "mejores" (es decir, con valores p más pequeños) como si había sido el único análisis. Esto también pertenece al punto si las pruebas múltiples que hizo Chris Beeley y resultan en una alta tasa de falsos positivos en los informes científicos.
fuente
Lo que veo con bastante frecuencia y siempre muele mis engranajes es la suposición de que un efecto principal estadísticamente significativo en un grupo y un efecto principal no estadísticamente significativo en otro grupo implica un efecto significativo x interacción del grupo.
fuente
Especialmente en epidemiología y salud pública: usar la aritmética en lugar de la escala logarítmica al informar gráficos de medidas relativas de asociación (razón de riesgo, razón de probabilidades o razón de riesgo).
Más información aquí .
fuente
La correlación implica causalidad, que no es tan mala como aceptar la hipótesis nula.
fuente
A and B are correlated
generalmente solo se veA causes B
pero noB causes A
... (y olvidarse deC
las causasA
yB
)Análisis de datos de velocidad (precisión, etc.) utilizando ANOVA, asumiendo que los datos de velocidad tienen un error distribuido gaussiano cuando en realidad se distribuyen binomialmente. Dixon (2008) ofrece una discusión sobre las consecuencias de este pecado y la exploración de enfoques de análisis más apropiados.
fuente
Un popular actual está trazando intervalos de confianza del 95% alrededor de los valores de rendimiento sin procesar en diseños de medidas repetidas cuando solo se relacionan con la varianza de un efecto. Por ejemplo, una gráfica de tiempos de reacción en un diseño de medidas repetidas con intervalos de confianza donde el término de error se deriva del MSE de un ANOVA de medidas repetidas. Estos intervalos de confianza no representan nada sensato. Ciertamente no representan nada sobre el tiempo de reacción absoluto. Podría usar el término de error para generar intervalos de confianza alrededor del efecto, pero eso rara vez se hace.
fuente
Si bien puedo relacionarme con gran parte de lo que dice Michael Lew, abandonar los valores p en favor de las razones de probabilidad todavía pasa por alto un problema más general: enfatizar demasiado los resultados probabilísticos sobre los tamaños de los efectos, que son necesarios para dar un resultado de significado sustancial. Este tipo de error se presenta en todas las formas y tamaños y creo que es el error estadístico más insidioso. Sobre la base de J. Cohen y M. Oakes y otros, he escrito un artículo sobre esto en http://integrativestatistics.com/insidious.htm .
fuente
No probar el supuesto de que el error se distribuye normalmente y tiene una variación constante entre tratamientos. Estas suposiciones no siempre se prueban, por lo que el ajuste del modelo de mínimos cuadrados probablemente se usa a menudo cuando en realidad no es apropiado.
fuente
Mi curso de introducción a la psicometría en pregrado pasó al menos dos semanas enseñando cómo realizar una regresión gradual. ¿Hay alguna situación en la que la regresión gradual sea una buena idea?
fuente
Mi antiguo profesor de estadísticas tenía una "regla general" para tratar los valores atípicos: si ve un valor atípico en su diagrama de dispersión, cúbralo con su dedo pulgar :)
fuente
Esto puede ser más una respuesta de estadísticas pop que lo que está buscando, pero:
Usar la media como indicador de ubicación cuando los datos están muy sesgados .
Esto no es necesariamente un problema, si usted y su audiencia saben de lo que están hablando, pero generalmente este no es el caso, y es probable que la mediana dé una mejor idea de lo que está sucediendo.
Mi ejemplo favorito es el salario medio, que generalmente se informa como "salario promedio". Dependiendo de la desigualdad de ingresos / riqueza en un país, esto puede ser muy diferente del salario medio, lo que proporciona un indicador mucho mejor de dónde se encuentran las personas en la vida real. Por ejemplo, en Australia, donde tenemos una desigualdad relativamente baja, la mediana es 10-15% más baja que la media . En los Estados Unidos la diferencia es mucho más marcada. , la mediana es inferior al 70% de la media y la brecha está aumentando.
Informar sobre el salario "promedio" (promedio) da como resultado una imagen más atractiva de lo que se garantiza, y también podría dar a un gran número de personas la falsa impresión de que no están ganando tanto como las personas "normales".
fuente
Que el valor p es la probabilidad de que la hipótesis nula sea verdadera y (1-p) es la probabilidad de que la hipótesis alternativa sea verdadera, de que el hecho de no rechazar la hipótesis nula significa que la hipótesis alternativa es falsa, etc.
fuente
De manera similar a @dirkan: el uso de valores p como una medida formal de evidencia de que la hipótesis nula es verdadera. Tiene algunas buenas características heurísticas e intuitivamente buenas, pero es esencialmente una medida de evidencia incompleta porque no hace referencia a la hipótesis alternativa. Si bien los datos pueden ser poco probables bajo nulo (lo que lleva a un pequeño valor p), los datos pueden ser aún más improbables bajo la hipótesis alternativa.
fuente
Usar gráficos circulares para ilustrar frecuencias relativas. Más aquí .
fuente
Uso de estadísticas / probabilidad en pruebas de hipótesis para medir la "verdad absoluta". Las estadísticas simplemente no pueden hacer esto, solo pueden ser útiles para decidir entre alternativas , que deben especificarse desde "fuera" del paradigma estadístico. Las afirmaciones tales como "la hipótesis nula es comprobada por las estadísticas" son simplemente incorrectas; las estadísticas solo pueden decirle "la hipótesis nula es favorecida por los datos, en comparación con la hipótesis alternativa". Si luego asume que la hipótesis nula o la alternativa deben ser verdaderas, puede decir "lo nulo demostró ser cierto", pero esto es solo una consecuencia trivial de su suposición, no nada demostrado por los datos.
fuente
Y de manera similar a (o casi lo mismo) la respuesta de @ ogrisel , realizando una búsqueda en la cuadrícula e informando solo el mejor resultado.
fuente
(Con un poco de suerte, esto será controvertido).
Utilizando un enfoque de Neyman-Pearson para el análisis estadístico de experimentos científicos. O, peor aún, usando un híbrido mal definido de Neyman-Pearson y Fisher.
fuente
Solicitar y tal vez obtener El Diagrama de flujo : Esa cosa gráfica en la que dice cuál es el nivel de sus variables y qué tipo de relación está buscando, y sigue las flechas hacia abajo para obtener una Prueba de marca o una Estadística de marca . A veces se ofrece con caminos misteriosos 'paramétricos' y 'no paramétricos'.
fuente