Existe una cierta escuela de pensamiento según la cual el enfoque más extendido para las pruebas estadísticas es un "híbrido" entre dos enfoques: el de Fisher y el de Neyman-Pearson; estos dos enfoques, según la afirmación, son "incompatibles" y, por lo tanto, el "híbrido" resultante es una "mezcla incoherente". Proporcionaré una bibliografía y algunas citas a continuación, pero por ahora es suficiente decir que hay mucho escrito sobre eso en el artículo de wikipedia sobre Pruebas de hipótesis estadísticas . Aquí en CV, este punto fue repetido por @Michael Lew (ver aquí y aquí ).
Mi pregunta es: ¿por qué se afirma que los enfoques F y NP son incompatibles y por qué se afirma que el híbrido es incoherente? Tenga en cuenta que leí al menos seis documentos anti-híbridos (ver más abajo), pero todavía no entiendo el problema o el argumento. Tenga en cuenta también que no estoy sugiriendo debatir si F o NP es un mejor enfoque; Tampoco estoy ofreciendo discutir marcos frecuentistas vs. bayesianos. En cambio, la pregunta es: aceptar que tanto F como NP son enfoques válidos y significativos, ¿qué tiene de malo su híbrido?
Así es como entiendo la situación. El enfoque de Fisher es calcular el valor y tomarlo como evidencia contra la hipótesis nula. Cuanto más pequeña es la , más convincente es la evidencia. Se supone que el investigador combina esta evidencia con sus conocimientos previos, decide si es lo suficientemente convincente y procede en consecuencia. (Tenga en cuenta que las opiniones de Fisher cambiaron con los años, pero esto es a lo que parece haber convergido eventualmente). En contraste, el enfoque de Neyman-Pearson es elegir anticipación y luego verificar si; si es así, llámelo significativo y rechace la hipótesis nula (aquí omito gran parte de la historia de NP que no tiene relevancia para la discusión actual). Vea también una excelente respuesta de @gung en ¿ Cuándo usar el marco Fisher y Neyman-Pearson?
El enfoque híbrido es calcular el valor , informarlo (suponiendo implícitamente que cuanto más pequeño mejor), y también llamar a los resultados significativos si (generalmente ) y no significativos de lo contrario. Se supone que esto es incoherente. ¿Cómo puede ser inválido hacer dos cosas válidas simultáneamente?
Como particularmente incoherente los anti-hybridists ver la práctica generalizada de informes -valores como , o (o incluso p ≪ 0.0001 ), donde siempre se elige la desigualdad más fuerte. El argumento parece ser que (a) la fuerza de la evidencia no puede evaluarse adecuadamente ya que no se informa p exacta , y (b) las personas tienden a interpretar el número de la derecha en la desigualdad como α y lo ven como una tasa de error tipo I Y eso está mal. No veo un gran problema aquí. Primero, informar p exacto es ciertamente una mejor práctica, pero a nadie le importa si pes, por ejemplo, o 0.03 , por lo que redondearlo en una escala logarítmica no es tan malo (e ir por debajo de ∼ 0.0001 no tiene sentido de todos modos, vea ¿Cómo se deben informar los pequeños valores p? ). En segundo lugar, si el consenso es llamar significativo a todo lo que esté por debajo de 0.05 , la tasa de error será α = 0.05 y p ≠ α , como explica @gung en Interpretación del valor p en la prueba de hipótesis . Aunque este es un problema potencialmente confuso, no me parece más confuso que otros problemas en las pruebas estadísticas (fuera del híbrido). Además, cada lector puede tener su propia α favoritaen mente cuando lee un periódico híbrido, y su propia tasa de error como consecuencia. Entonces, ¿cuál es el gran problema?
Una de las razones por las que quiero hacer esta pregunta es porque literalmente duele ver cuánto del artículo de wikipedia sobre Pruebas de hipótesis estadísticas se dedica al híbrido lambasting. Siguiendo a Halpin & Stam, afirma que un cierto Lindquist tiene la culpa (incluso hay un gran escaneo de su libro de texto con "errores" resaltados en amarillo), y por supuesto el artículo wiki sobre Lindquist comienza con la misma acusación. Pero entonces, tal vez me estoy perdiendo algo.
Referencias
Gigerenzer, 1993, El superego, el ego y la identificación en el razonamiento estadístico - introdujo el término "híbrido" y lo llamó "mezcolanza incoherente"
- Véanse también las exposiciones más recientes de Gigerenzer et al .: por ejemplo, Mindless statistics (2004) y The Null Ritual. Lo que siempre quiso saber sobre las pruebas de significación pero tenía miedo de preguntar (2004).
Cohen, 1994, The Earth Is Round ( ) - un artículo muy popular con casi 3k citas, principalmente sobre diferentes temas pero citando favorablemente a Gigerenzer
Goodman, 1999, hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P
Hubbard y Bayarri, 2003, Confusión sobre las medidas de evidencia ( 's) versus errores ( α ' s) en las pruebas estadísticas clásicas , uno de los artículos más elocuentes que argumentan en contra de "híbrido"
Halpin & Stam, 2006, inferencia inductiva o comportamiento inductivo: enfoques de Fisher y Neyman-Pearson para pruebas estadísticas en investigación psicológica (1940-1960) [gratis después del registro] - culpa al libro de texto de 1940 de Lindquist por introducir el enfoque "híbrido"
@Michael Lew, 2006, Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conozca P - una buena revisión y resumen
Citas
Gigerenzer: Lo que se ha institucionalizado como estadística inferencial en psicología no son las estadísticas de Fisher. Es una mezcla incoherente de algunas de las ideas de Fisher, por un lado, y algunas de las ideas de Neyman y ES Pearson, por el otro. Me refiero a esta mezcla como la "lógica híbrida" de la inferencia estadística.
Goodman: el enfoque de prueba de hipótesis [Neyman-Pearson] ofreció a los científicos una ganga faustiana, una forma aparentemente automática de limitar el número de conclusiones erróneas a largo plazo, pero solo al abandonar la capacidad de medir la evidencia [a la Fisher] y evaluar verdad de un solo experimento.
Hubbard y Bayarri: Las pruebas estadísticas clásicas son un híbrido anónimo de los enfoques competitivos y frecuentemente contradictorios [...]. En particular, hay una falla generalizada en apreciar la incompatibilidad del valor evidencial de Fisher con la tasa de error Tipo I, α , de la ortodoxia estadística de Neyman-Pearson. [...] Como un excelente ejemplo del desconcierto que surge de [esta] mezcla [...], considere el hecho poco apreciado de que el valor p del primero es incompatiblecon la prueba de hipótesis de Neyman-Pearson en la que se ha incrustado. [...] Por ejemplo, Gibbons y Pratt [...] declararon erróneamente: "Informar un valor P, ya sea exacto o dentro de un intervalo, permite a cada individuo elegir su propio nivel de significancia como la probabilidad máxima tolerable de un error tipo I. "
Halpin & Stam: el texto de Lindquist de 1940 fue una fuente original de la hibridación de los enfoques de Fisher y Neyman-Pearson. [...] en lugar de adherirse a una interpretación particular de las pruebas estadísticas, los psicólogos han permanecido ambivalentes y, de hecho, en gran medida ignorantes de las dificultades conceptuales implicadas por la controversia de Fisher y Neyman-Pearson.
Lew: Lo que tenemos es un enfoque híbrido que no controla las tasas de error ni permite evaluar la solidez de la evidencia.
fuente
Respuestas:
Creo que los documentos, artículos, publicaciones, etc. que recopiló diligentemente contienen suficiente información y análisis sobre dónde y por qué difieren los dos enfoques. Pero ser diferente no significa ser incompatible .
El problema con el "híbrido" es que es un híbrido y no una síntesis , y es por eso que muchos lo tratan como un híbrido , si disculpa el juego de palabras.
Al no ser una síntesis, no intenta combinar las diferencias de los dos enfoques, ni crear un enfoque unificado e internamente consistente, ni mantener ambos enfoques en el arsenal científico como alternativas complementarias, para tratar de manera más efectiva con los muy complejos intentamos analizar el mundo a través de las estadísticas (afortunadamente, esto último es lo que parece estar sucediendo con la otra gran guerra civil del campo, la frecuente bayesiana).
La insatisfacción con él, creo, proviene del hecho de que realmente ha creado malentendidos al aplicar las herramientas estadísticas e interpretar los resultados estadísticos , principalmente por científicos que no son estadísticos , malentendidos que posiblemente pueden tener efectos muy graves y perjudiciales (pensar en el campo de medicina ayuda a darle al tema su tono dramático apropiado). Creo que esta aplicación errónea fue ampliamente aceptada como un hecho, y en ese sentido, el punto de vista "anti-híbrido" puede considerarse extendido (al menos debido a las consecuencias que tuvo, si no fuera por sus problemas metodológicos).
El híbrido surgió, creo, al darme cuenta de que no existía una respuesta tan fácil, y que había fenómenos del mundo real para los cuales un enfoque es más adecuado que el otro (vea esta publicación para un ejemplo, según yo en menos, donde el enfoque pesquero parece más adecuado). Pero en lugar de mantener a los dos "separados y listos para actuar", se unieron de manera superflua.
Ofrezco una fuente que resume este enfoque de "alternativa complementaria": Spanos, A. (1999). Teoría de la probabilidad e inferencia estadística: modelado econométrico con datos observacionales. Prensa de la Universidad de Cambridge. , CH. 14 , especialmente la Sección 14.5, donde después de presentar formal y claramente los dos enfoques, el autor está en condiciones de señalar sus diferencias claramente, y también argumenta que pueden verse como alternativas complementarias.
fuente
Mi propia opinión sobre mi pregunta es que no hay nada particularmente incoherente en el enfoque híbrido (es decir, aceptado). Pero como no estaba seguro de si tal vez no estaba comprendiendo la validez de los argumentos presentados en los documentos anti-híbridos, me alegró encontrar la discusión publicada junto con este documento:
Desafortunadamente, dos respuestas publicadas como discusión no fueron formateadas como artículos separados y, por lo tanto, no pueden citarse adecuadamente. Aún así, me gustaría citar a ambos:
Vale la pena leer ambas respuestas. También hay una réplica de los autores originales, que no me parece convincente en absoluto .
fuente
Me temo que una respuesta real a esta excelente pregunta requeriría un trabajo completo. Sin embargo, aquí hay un par de puntos que no están presentes ni en la pregunta ni en las respuestas actuales.
La tasa de error 'pertenece' al procedimiento pero la evidencia 'pertenece' a los resultados experimentales. Por lo tanto, es posible con procedimientos de etapas múltiples con reglas de detención secuenciales para tener un resultado con evidencia muy sólida contra la hipótesis nula pero un resultado de prueba de hipótesis no significativo. Eso puede considerarse como una fuerte incompatibilidad.
Si está interesado en las incompatibilidades, debería estar interesado en las filosofías subyacentes. La dificultad filosófica proviene de una elección entre el cumplimiento del Principio de Probabilidad y el cumplimiento del Principio de Muestreo Repetido. El LP dice aproximadamente que, dado un modelo estadístico, la evidencia en un conjunto de datos relevante para el parámetro de interés está completamente contenida en la función de probabilidad relevante. El RSP dice que uno debería preferir pruebas que den tasas de error a largo plazo que igualen sus valores nominales.
fuente
Una unión a menudo vista (y supuestamente aceptada) (o mejor: "híbrido") entre los dos enfoques es la siguiente:
Si el valor p no es lo suficientemente pequeño, diría
Aquí, los aspectos de Neyman-Pearson son:
Los aspectos pesqueros son:
AÑADIR
Si bien es bueno estar al tanto de la discusión sobre los problemas filosóficos de Fisher, NP o este enfoque híbrido (como se enseña en el frenesí casi religioso por algunos), hay cuestiones mucho más relevantes en las estadísticas para luchar contra:
fuente
Respuesta corta: el uso de una hipótesis nula nula (sin diferencia, sin correlación) independientemente del contexto. Todo lo demás es un "mal uso" por parte de personas que han creado mitos sobre lo que el proceso puede lograr. Los mitos surgen de las personas que intentan conciliar su uso (a veces apropiado) de la confianza en la autoridad y las heurísticas de consenso con la inaplicabilidad del procedimiento a su problema.
Hasta donde sé, a Gerd Gigerenzer se le ocurrió el término "híbrido":
Gigerenzer, G (noviembre de 2004). " Estadísticas sin sentido ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.
Editar: Y siempre deberíamos mencionar, porque el "híbrido" es tan resbaladizo y mal definido, que usar el valor nulo nulo para obtener un valor p es perfecto como una forma de comparar tamaños de efectos dados diferentes tamaños de muestra. Es el aspecto de "prueba" que introduce el problema.
Edición 2: @amoeba Un valor p puede estar bien como estadística de resumen, en este caso la hipótesis nula nula es solo un hito arbitrario: http://arxiv.org/abs/1311.0081 . Sin embargo, tan pronto como comience a tratar de sacar una conclusión o tomar una decisión (es decir, "probar" la hipótesis nula) deja de tener sentido. En el ejemplo de comparación de dos grupos, queremos saber qué tan diferentes son los dos grupos y las diversas explicaciones posibles que pueden existir para diferencias de esa magnitud y tipo.
El valor p se puede usar como un resumen estadístico que nos dice la magnitud de la diferencia. Sin embargo, usarlo para "refutar / rechazar" la diferencia cero no sirve para nada. Además, creo que muchos de estos diseños de estudio que comparan las medidas promedio de los seres vivos en un solo punto de tiempo están equivocados. Deberíamos observar cómo cambian las instancias individuales del sistema a lo largo del tiempo y luego elaborar un proceso que explique el patrón observado (incluidas las diferencias de grupo).
fuente
Veo que aquellos con más experiencia que yo han proporcionado respuestas, pero creo que mi respuesta tiene el potencial de agregar algo adicional, por lo que ofreceré esto como la perspectiva de otro laico.
¿El enfoque híbrido es incoherente? Yo diría que depende de si el investigador termina o no actuando de manera inconsistente con las reglas con las que comenzó: específicamente la regla sí / no que entra en juego con el establecimiento de un valor alfa.
Incoherente
Comience con Neyman-Pearson. El investigador establece alfa = 0.05, ejecuta el experimento, calcula p = 0.052. El investigador analiza ese valor p y, utilizando la inferencia de Fisherian (a menudo implícitamente), considera que el resultado es suficientemente incompatible con la hipótesis de la prueba de que todavía afirmarán que "algo" está sucediendo. El resultado es de alguna manera "suficientemente bueno" a pesar de que el valor p fue mayor que el valor alfa. A menudo, esto se combina con un lenguaje como "casi significativo" o "tendencia hacia la importancia" o alguna redacción en ese sentido.
Sin embargo, establecer un valor alfa antes de ejecutar el experimento significa que se ha elegido el enfoque del comportamiento inductivo de Neyman-Pearson. Elegir ignorar ese valor alfa después de calcular el valor p y, por lo tanto, afirmar que algo sigue siendo de alguna manera interesante, socava todo el enfoque con el que se comenzó. Si un investigador comienza por el camino A (Neyman-Pearson), pero luego salta a otro camino (Fisher) una vez que no le gusta el camino en el que se encuentra, lo considero incoherente. No están siendo consistentes con las reglas (implícitas) con las que comenzaron.
Coherente (posiblemente)
Comience con NP. El investigador establece alfa = 0.05, ejecuta el experimento, calcula p = 0.0014. El investigador observa que p <alfa y, por lo tanto, rechaza la hipótesis de la prueba (normalmente, ningún efecto es nulo) y acepta la hipótesis alternativa (el efecto es real). En este punto, el investigador, además de decidir tratar el resultado como un efecto real (NP), decide inferir (Fisher) que el experimento proporciona evidencia muy sólida de que el efecto es real. Han agregado matices al enfoque con el que comenzaron, pero no han contradicho las reglas establecidas al elegir un valor alfa al principio.
Resumen
Si uno comienza eligiendo un valor alfa, entonces ha decidido tomar el camino Neyman-Pearson y seguir las reglas para ese enfoque. Si, en algún momento, violan esas reglas usando la inferencia de Fisherian como justificación, entonces han actuado de manera inconsistente / incoherente.
Supongo que uno podría ir un paso más allá y declarar que debido a que es posible usar el híbrido incoherentemente, por lo tanto, el enfoque es inherentemente incoherente, pero eso parece profundizar en los aspectos filosóficos, que no me considero calificado para siquiera ofrecer una opinión sobre
Punta de sombrero para Michael Lew. Su artículo de 2006 me ayudó a comprender estos problemas mejor que cualquier otro recurso.
fuente