¿Es el "híbrido" entre los enfoques de Fisher y Neyman-Pearson para las pruebas estadísticas realmente una "mezcla incoherente"?

56

Existe una cierta escuela de pensamiento según la cual el enfoque más extendido para las pruebas estadísticas es un "híbrido" entre dos enfoques: el de Fisher y el de Neyman-Pearson; estos dos enfoques, según la afirmación, son "incompatibles" y, por lo tanto, el "híbrido" resultante es una "mezcla incoherente". Proporcionaré una bibliografía y algunas citas a continuación, pero por ahora es suficiente decir que hay mucho escrito sobre eso en el artículo de wikipedia sobre Pruebas de hipótesis estadísticas . Aquí en CV, este punto fue repetido por @Michael Lew (ver aquí y aquí ).

Mi pregunta es: ¿por qué se afirma que los enfoques F y NP son incompatibles y por qué se afirma que el híbrido es incoherente? Tenga en cuenta que leí al menos seis documentos anti-híbridos (ver más abajo), pero todavía no entiendo el problema o el argumento. Tenga en cuenta también que no estoy sugiriendo debatir si F o NP es un mejor enfoque; Tampoco estoy ofreciendo discutir marcos frecuentistas vs. bayesianos. En cambio, la pregunta es: aceptar que tanto F como NP son enfoques válidos y significativos, ¿qué tiene de malo su híbrido?


Así es como entiendo la situación. El enfoque de Fisher es calcular el valor y tomarlo como evidencia contra la hipótesis nula. Cuanto más pequeña es la , más convincente es la evidencia. Se supone que el investigador combina esta evidencia con sus conocimientos previos, decide si es lo suficientemente convincente y procede en consecuencia. (Tenga en cuenta que las opiniones de Fisher cambiaron con los años, pero esto es a lo que parece haber convergido eventualmente). En contraste, el enfoque de Neyman-Pearson es elegir anticipación y luego verificar sippαpα; si es así, llámelo significativo y rechace la hipótesis nula (aquí omito gran parte de la historia de NP que no tiene relevancia para la discusión actual). Vea también una excelente respuesta de @gung en ¿ Cuándo usar el marco Fisher y Neyman-Pearson?

El enfoque híbrido es calcular el valor , informarlo (suponiendo implícitamente que cuanto más pequeño mejor), y también llamar a los resultados significativos si (generalmente ) y no significativos de lo contrario. Se supone que esto es incoherente. ¿Cómo puede ser inválido hacer dos cosas válidas simultáneamente?ppαα=0.05

Como particularmente incoherente los anti-hybridists ver la práctica generalizada de informes -valores como ,pp<0.05p<0.01 o (o incluso p 0.0001 ), donde siempre se elige la desigualdad más fuerte. El argumento parece ser que (a) la fuerza de la evidencia no puede evaluarse adecuadamente ya que no se informa p exacta , y (b) las personas tienden a interpretar el número de la derecha en la desigualdad como α y lo ven como una tasa de error tipo I Y eso está mal. No veo un gran problema aquí. Primero, informar p exacto es ciertamente una mejor práctica, pero a nadie le importa si pp<0.001p0.0001pαppes, por ejemplo, o 0.03 , por lo que redondearlo en una escala logarítmica no es tan malo (e ir por debajo de 0.0001 no tiene sentido de todos modos, vea ¿Cómo se deben informar los pequeños valores p? ). En segundo lugar, si el consenso es llamar significativo a todo lo que esté por debajo de 0.05 , la tasa de error será α = 0.05 y p α , como explica @gung en Interpretación del valor p en la prueba de hipótesis . Aunque este es un problema potencialmente confuso, no me parece más confuso que otros problemas en las pruebas estadísticas (fuera del híbrido). Además, cada lector puede tener su propia α favorita0.020.030.00010.05α=0.05pααen mente cuando lee un periódico híbrido, y su propia tasa de error como consecuencia. Entonces, ¿cuál es el gran problema?

Una de las razones por las que quiero hacer esta pregunta es porque literalmente duele ver cuánto del artículo de wikipedia sobre Pruebas de hipótesis estadísticas se dedica al híbrido lambasting. Siguiendo a Halpin & Stam, afirma que un cierto Lindquist tiene la culpa (incluso hay un gran escaneo de su libro de texto con "errores" resaltados en amarillo), y por supuesto el artículo wiki sobre Lindquist comienza con la misma acusación. Pero entonces, tal vez me estoy perdiendo algo.


Referencias

Citas

Gigerenzer: Lo que se ha institucionalizado como estadística inferencial en psicología no son las estadísticas de Fisher. Es una mezcla incoherente de algunas de las ideas de Fisher, por un lado, y algunas de las ideas de Neyman y ES Pearson, por el otro. Me refiero a esta mezcla como la "lógica híbrida" de la inferencia estadística.

Goodman: el enfoque de prueba de hipótesis [Neyman-Pearson] ofreció a los científicos una ganga faustiana, una forma aparentemente automática de limitar el número de conclusiones erróneas a largo plazo, pero solo al abandonar la capacidad de medir la evidencia [a la Fisher] y evaluar verdad de un solo experimento.

Hubbard y Bayarri: Las pruebas estadísticas clásicas son un híbrido anónimo de los enfoques competitivos y frecuentemente contradictorios [...]. En particular, hay una falla generalizada en apreciar la incompatibilidad del valor evidencial de Fisher con la tasa de error Tipo I, α , de la ortodoxia estadística de Neyman-Pearson. [...] Como un excelente ejemplo del desconcierto que surge de [esta] mezcla [...], considere el hecho poco apreciado de que el valor p del primero es incompatiblepαpcon la prueba de hipótesis de Neyman-Pearson en la que se ha incrustado. [...] Por ejemplo, Gibbons y Pratt [...] declararon erróneamente: "Informar un valor P, ya sea exacto o dentro de un intervalo, permite a cada individuo elegir su propio nivel de significancia como la probabilidad máxima tolerable de un error tipo I. "

Halpin & Stam: el texto de Lindquist de 1940 fue una fuente original de la hibridación de los enfoques de Fisher y Neyman-Pearson. [...] en lugar de adherirse a una interpretación particular de las pruebas estadísticas, los psicólogos han permanecido ambivalentes y, de hecho, en gran medida ignorantes de las dificultades conceptuales implicadas por la controversia de Fisher y Neyman-Pearson.

Lew: Lo que tenemos es un enfoque híbrido que no controla las tasas de error ni permite evaluar la solidez de la evidencia.

ameba dice Reinstate Monica
fuente
+1 para esta pregunta bien investigada (aunque larga). Me ayudaría pensar que quizás continúe especificando qué es exactamente confuso. ¿Es suficiente saber que para Fisher no existe una hipótesis alternativa en absoluto, mientras que para NP el mundo de las posibilidades se agota tanto con nulo como con alternativa? Me parece lo suficientemente incoherente, pero, por desgracia, hago la cosa híbrida todo el tiempo porque no puedes evitarlo, tan arraigado se ha vuelto.
Momo
2
H0:μ=0H1:μ0
2
Después de leer a Lew (y al darme cuenta de que lo había leído antes, probablemente alrededor de 2006), lo encontré bastante bueno, pero no creo que represente cómo uso los valores p. Mis niveles de significación, en las raras ocasiones en que uso las pruebas de hipótesis *, siempre son iniciales, y donde tengo algún control sobre el tamaño de la muestra, después de considerar la potencia, tener en cuenta el costo de los dos tipos de error, etc. esencialmente Neyman-Pearson. Todavía cito valores p, pero no en el marco del enfoque de Fisher ... (ctd)
Glen_b
2
(ctd) ... * (a menudo alejo a las personas de las pruebas de hipótesis; a menudo sus preguntas reales están relacionadas con los efectos de medición y se responden mejor construyendo intervalos). El problema específico que Lew planteó para el procedimiento 'híbrido' se aplica a algo que no hago y tendería a advertir a las personas que no lo hagan. Si hay personas que realmente hacen la combinación de enfoques que él implica, el documento parece estar bien. La discusión anterior sobre el significado de los valores p y la historia de los enfoques parece excelente.
Glen_b
1
@Glen_b, el resumen histórico de Lew es muy agradable y claro, estoy totalmente de acuerdo. Mi problema es específicamente con el tema híbrido (sección "¿Qué enfoque es el más utilizado?"). Es cierto que hay son personas que hacen lo que él describe allí, es decir, la presentación de informes el más fuerte de p <0,001, <0,01, o <0,05; Lo veo todo el tiempo en neurociencia. Considere uno de los casos cuando utiliza pruebas. Usted elige, por ejemplo, alfa = .05, y sigue el marco NP. Cuando obtiene p = .00011, ¿su certeza sobre H1 y su elección de redacción serán diferentes de cuando obtendría p = .049? Si es así, ¡es híbrido! Si no, ¿cómo es que?
ameba dice Reinstate Monica

Respuestas:

16

Creo que los documentos, artículos, publicaciones, etc. que recopiló diligentemente contienen suficiente información y análisis sobre dónde y por qué difieren los dos enfoques. Pero ser diferente no significa ser incompatible .

El problema con el "híbrido" es que es un híbrido y no una síntesis , y es por eso que muchos lo tratan como un híbrido , si disculpa el juego de palabras.
Al no ser una síntesis, no intenta combinar las diferencias de los dos enfoques, ni crear un enfoque unificado e internamente consistente, ni mantener ambos enfoques en el arsenal científico como alternativas complementarias, para tratar de manera más efectiva con los muy complejos intentamos analizar el mundo a través de las estadísticas (afortunadamente, esto último es lo que parece estar sucediendo con la otra gran guerra civil del campo, la frecuente bayesiana).

La insatisfacción con él, creo, proviene del hecho de que realmente ha creado malentendidos al aplicar las herramientas estadísticas e interpretar los resultados estadísticos , principalmente por científicos que no son estadísticos , malentendidos que posiblemente pueden tener efectos muy graves y perjudiciales (pensar en el campo de medicina ayuda a darle al tema su tono dramático apropiado). Creo que esta aplicación errónea fue ampliamente aceptada como un hecho, y en ese sentido, el punto de vista "anti-híbrido" puede considerarse extendido (al menos debido a las consecuencias que tuvo, si no fuera por sus problemas metodológicos).

p

El híbrido surgió, creo, al darme cuenta de que no existía una respuesta tan fácil, y que había fenómenos del mundo real para los cuales un enfoque es más adecuado que el otro (vea esta publicación para un ejemplo, según yo en menos, donde el enfoque pesquero parece más adecuado). Pero en lugar de mantener a los dos "separados y listos para actuar", se unieron de manera superflua.

Ofrezco una fuente que resume este enfoque de "alternativa complementaria": Spanos, A. (1999). Teoría de la probabilidad e inferencia estadística: modelado econométrico con datos observacionales. Prensa de la Universidad de Cambridge. , CH. 14 , especialmente la Sección 14.5, donde después de presentar formal y claramente los dos enfoques, el autor está en condiciones de señalar sus diferencias claramente, y también argumenta que pueden verse como alternativas complementarias.

Alecos Papadopoulos
fuente
66
pα
66
pα
66
CONTINUAR Para mí, esta es la cuestión del enfoque híbrido "tómalo y cómelo también". Por ejemplo, un enfoque NP sin cálculos de prueba de potencia debería ser impensable, pero todo el tiempo vemos la prueba planteada en el marco de NP, pero no se menciona acerca de los cálculos de potencia.
Alecos Papadopoulos
Fuera de tema, pero ... Ya que estás citando a Aris Spanos, me pregunto si podrías responder esta pregunta sobre su metodología. (Una vez le hice la pregunta directamente a Aris Spanos, y amablemente hizo un esfuerzo para responderla. Desafortunadamente, su respuesta estaba en el mismo idioma que sus documentos, por lo que no me ayudó mucho.)
Richard Hardy,
13

Mi propia opinión sobre mi pregunta es que no hay nada particularmente incoherente en el enfoque híbrido (es decir, aceptado). Pero como no estaba seguro de si tal vez no estaba comprendiendo la validez de los argumentos presentados en los documentos anti-híbridos, me alegró encontrar la discusión publicada junto con este documento:

Desafortunadamente, dos respuestas publicadas como discusión no fueron formateadas como artículos separados y, por lo tanto, no pueden citarse adecuadamente. Aún así, me gustaría citar a ambos:

Berk: El tema de las Secciones 2 y 3 parece ser que a Fisher no le gustó lo que Neyman y Pearson hicieron, y a Neyman no le gustó lo que hizo Fisher, y por lo tanto no debemos hacer nada que combine los dos enfoques. Aquí no se puede escapar de la premisa, pero el razonamiento se me escapa.

Carltonlos autores insisten rotundamente en que la mayor confusión se debe al matrimonio de las ideas de Fisher y Neyman-Pearson, que tal matrimonio es un error catastrófico por parte de los estadísticos modernos [...] [T] parecen decididos a establecer esos valores P y Los errores de tipo I no pueden coexistir en el mismo universo. No está claro si los autores han dado alguna razón sustantiva por la que no podamos pronunciar "valor p" y "error tipo I" en la misma oración. [...] El "hecho" de su incompatibilidad [F y NP] es una noticia sorprendente para mí, como estoy seguro que lo hace para los miles de estadísticos calificados que leen el artículo. Los autores incluso parecen sugerir que una de las razones por las que los estadísticos deberían divorciarse de estas dos ideas es que Fisher y Neyman no se tenían mucho cariño (o el uno al otro) s filosofías sobre pruebas). Siempre he visto nuestra práctica actual, que integra las filosofías de Fisher y Neyman y permite la discusión de los valores de P y los errores de Tipo I, aunque ciertamente no en paralelo, como uno de los mayores triunfos de nuestra disciplina.

Vale la pena leer ambas respuestas. También hay una réplica de los autores originales, que no me parece convincente en absoluto .

ameba dice Reinstate Monica
fuente
1
Una cosa es coexistir, otra es que uno sea considerado como el otro. Pero, de hecho, esta línea de enfoque anti-híbrido está en el espíritu de "no puede haber síntesis alguna", con lo cual estoy totalmente en desacuerdo. Pero no veo el híbrido actual como un matrimonio exitoso .
Alecos Papadopoulos
2
@Livid, gracias por sus comentarios, esto es interesante, pero me gustaría abstenerme de más discusiones aquí. Prefiero alentarlo a publicar una nueva respuesta, si lo desea. Pero si decide hacerlo, trate de concentrarse en el problema principal, que es: qué tiene de malo "híbrido", en comparación con Fisher y NP solo. Parece que odias todo el enfoque de las pruebas de significación, la "hipótesis nula nula", etc., ¡pero de esto no se trata esta pregunta!
ameba dice Reinstate Monica
1
@Livid: Hmmm, ¿puedes aclarar por qué dices que es una característica distintiva del híbrido? ¿Cuál sería el nulo en Fisher puro o en NP puro? Digamos que tiene dos grupos y desea probar una diferencia significativa ("nulo nulo"). ¿No se puede abordar esta situación con los tres enfoques: Fisher puro, NP puro e híbrido?
ameba dice Reinstate Monica
2
@Livid, entiendo tus argumentos contra el nulo nulo, solo creo que este problema es ortogonal al híbrido. Tengo que actualizar los documentos anti-híbridos en la memoria, pero por lo que recuerdo su crítica al híbrido no se centra en absoluto en el nulo nulo. En cambio, se trata de combinar Fisher y NP. Nuevamente, si no está de acuerdo con esto, considere publicar una respuesta; por el momento, dejémoslo así.
ameba dice Reinstate Monica
2
Una nota para mí mismo: debo incorporar en esta respuesta algunas citas de este artículo: Lehmann 1992, The Fisher, Neyman-Pearson Theories of Testing Hotestes: One Theory or Two?
ameba dice Reinstate Monica
8

Me temo que una respuesta real a esta excelente pregunta requeriría un trabajo completo. Sin embargo, aquí hay un par de puntos que no están presentes ni en la pregunta ni en las respuestas actuales.

  1. La tasa de error 'pertenece' al procedimiento pero la evidencia 'pertenece' a los resultados experimentales. Por lo tanto, es posible con procedimientos de etapas múltiples con reglas de detención secuenciales para tener un resultado con evidencia muy sólida contra la hipótesis nula pero un resultado de prueba de hipótesis no significativo. Eso puede considerarse como una fuerte incompatibilidad.

  2. Si está interesado en las incompatibilidades, debería estar interesado en las filosofías subyacentes. La dificultad filosófica proviene de una elección entre el cumplimiento del Principio de Probabilidad y el cumplimiento del Principio de Muestreo Repetido. El LP dice aproximadamente que, dado un modelo estadístico, la evidencia en un conjunto de datos relevante para el parámetro de interés está completamente contenida en la función de probabilidad relevante. El RSP dice que uno debería preferir pruebas que den tasas de error a largo plazo que igualen sus valores nominales.

Michael Lew
fuente
3
La monografía de JO Berger y RL Wolpert "The Likelihood Principle" (2ª ed. 1988), es una exposición tranquila, equilibrada y buena del punto 2, en mi opinión.
Alecos Papadopoulos
55
Berger y Wolpert es de hecho una buena exposición, y autoritaria también. Sin embargo, prefiero el libro "Likelihood" de AWF Edwards, más práctico y menos matemático. Todavía impreso, creo. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew
2
@MichaelLew ha explicado que un uso válido de los valores de p es un resumen del tamaño del efecto. Ha hecho una gran cosa al escribir este documento: arxiv.org/abs/1311.0081
Livid
@Livid El artículo es muy interesante, pero para el nuevo lector vale la pena señalar lo siguiente: la idea principal, que los valores de p 'índice' (presumiblemente: están en una relación uno a uno con), generalmente se entiende como falsa porque Hay casos en los que la misma probabilidad corresponde a diferentes valores de p según el esquema de muestreo. Este tema se discute un poco en el documento, pero la indexación es una posición muy inusual (que no necesariamente lo hace mal, por supuesto).
conjugateprior
8

Una unión a menudo vista (y supuestamente aceptada) (o mejor: "híbrido") entre los dos enfoques es la siguiente:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    Si el valor p no es lo suficientemente pequeño, diría

    • Ho
    • HoH1

Aquí, los aspectos de Neyman-Pearson son:

  • Tu decides algo
  • Ho
  • Sabes la tasa de error tipo I

Los aspectos pesqueros son:

  • Usted declara el valor p. Por lo tanto, cualquier lector tiene la posibilidad de usar su propio nivel (por ejemplo, corregir estrictamente las pruebas múltiples) para tomar una decisión.
  • Básicamente, solo se requiere la hipótesis nula ya que la alternativa es todo lo contrario
  • μ0

AÑADIR

Si bien es bueno estar al tanto de la discusión sobre los problemas filosóficos de Fisher, NP o este enfoque híbrido (como se enseña en el frenesí casi religioso por algunos), hay cuestiones mucho más relevantes en las estadísticas para luchar contra:

  • Hacer preguntas no informativas (como preguntas binarias sí / no en lugar de preguntas cuantitativas de "cuánto", es decir, usando pruebas en lugar de intervalos de confianza)
  • Métodos de análisis basados ​​en datos que conducen a resultados sesgados (regresión gradual, supuestos de prueba, etc.)
  • Elegir pruebas o métodos incorrectos
  • Interpretación errónea de resultados
  • Usar estadísticas clásicas para muestras no aleatorias
Michael M
fuente
1
(+1) Esta es una buena descripción del híbrido (y por qué es exactamente híbrido), pero no dijo explícitamente cuál es su evaluación. ¿Estás de acuerdo en que lo que describiste es una "mezcla incoherente"? Si es así, ¿por qué? ¿O crees que es un procedimiento razonable? Si es así, ¿tienen razón las personas que afirman que es incoherente o simplemente están equivocadas?
ameba dice Reinstate Monica
1
α
4

aceptando que tanto F como NP son enfoques válidos y significativos, ¿qué tiene de malo su híbrido?

Respuesta corta: el uso de una hipótesis nula nula (sin diferencia, sin correlación) independientemente del contexto. Todo lo demás es un "mal uso" por parte de personas que han creado mitos sobre lo que el proceso puede lograr. Los mitos surgen de las personas que intentan conciliar su uso (a veces apropiado) de la confianza en la autoridad y las heurísticas de consenso con la inaplicabilidad del procedimiento a su problema.

Hasta donde sé, a Gerd Gigerenzer se le ocurrió el término "híbrido":

Le pregunté al autor [un distinguido autor de libros de texto estadísticos, cuyo libro pasó por muchas ediciones y cuyo nombre no importa] por qué eliminó el capítulo sobre Bayes, así como la frase inocente de todas las ediciones posteriores. “¿Qué te hizo presentar estadísticas como si tuviera un solo martillo, en lugar de una caja de herramientas? ¿Por qué mezcló las teorías de Fisher y Neyman-Pearson en un híbrido inconsistente que todo estadista decente rechazaría?

Para su crédito, debo decir que el autor no intentó negar que había producido la ilusión de que solo hay una herramienta. Pero me hizo saber quién era el culpable de esto. Hubo tres culpables: sus colegas investigadores, la administración de la universidad y su editor. Argumentó que la mayoría de los investigadores no están realmente interesados ​​en el pensamiento estadístico, sino solo en cómo publicar sus artículos [...]

El ritual nulo:

  1. Establezca una hipótesis estadística nula de "sin diferencia de medias" o "correlación cero". No especifique las predicciones de su hipótesis de investigación o de cualquier hipótesis sustantiva alternativa.

  2. p<0.05p<0.01p<0.001p

  3. Realice siempre este procedimiento.

Gigerenzer, G (noviembre de 2004). " Estadísticas sin sentido ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Editar: Y siempre deberíamos mencionar, porque el "híbrido" es tan resbaladizo y mal definido, que usar el valor nulo nulo para obtener un valor p es perfecto como una forma de comparar tamaños de efectos dados diferentes tamaños de muestra. Es el aspecto de "prueba" que introduce el problema.

Edición 2: @amoeba Un valor p puede estar bien como estadística de resumen, en este caso la hipótesis nula nula es solo un hito arbitrario: http://arxiv.org/abs/1311.0081 . Sin embargo, tan pronto como comience a tratar de sacar una conclusión o tomar una decisión (es decir, "probar" la hipótesis nula) deja de tener sentido. En el ejemplo de comparación de dos grupos, queremos saber qué tan diferentes son los dos grupos y las diversas explicaciones posibles que pueden existir para diferencias de esa magnitud y tipo.

El valor p se puede usar como un resumen estadístico que nos dice la magnitud de la diferencia. Sin embargo, usarlo para "refutar / rechazar" la diferencia cero no sirve para nada. Además, creo que muchos de estos diseños de estudio que comparan las medidas promedio de los seres vivos en un solo punto de tiempo están equivocados. Deberíamos observar cómo cambian las instancias individuales del sistema a lo largo del tiempo y luego elaborar un proceso que explique el patrón observado (incluidas las diferencias de grupo).

Lívido
fuente
2
+1, gracias por su respuesta y por el enlace. Parece que no he leído este artículo en particular, lo echaré un vistazo. Como dije antes, tenía la impresión de que "nulo nulo" es un tema ortogonal al tema de "híbrido", pero creo que debería volver a leer los escritos de Gigerenzer para comprobarlo. Intentaremos encontrar tiempo en los próximos días. Aparte de eso: ¿podría aclarar su último párrafo ("editar")? ¿Entendí correctamente que querías decir que tener un nulo nulo al comparar dos tamaños de efecto está bien, pero tener un nulo nulo al comparar un tamaño de efecto a cero no está bien?
ameba dice Reinstate Monica
1

Veo que aquellos con más experiencia que yo han proporcionado respuestas, pero creo que mi respuesta tiene el potencial de agregar algo adicional, por lo que ofreceré esto como la perspectiva de otro laico.

¿El enfoque híbrido es incoherente?   Yo diría que depende de si el investigador termina o no actuando de manera inconsistente con las reglas con las que comenzó: específicamente la regla sí / no que entra en juego con el establecimiento de un valor alfa.

Incoherente

Comience con Neyman-Pearson. El investigador establece alfa = 0.05, ejecuta el experimento, calcula p = 0.052. El investigador analiza ese valor p y, utilizando la inferencia de Fisherian (a menudo implícitamente), considera que el resultado es suficientemente incompatible con la hipótesis de la prueba de que todavía afirmarán que "algo" está sucediendo. El resultado es de alguna manera "suficientemente bueno" a pesar de que el valor p fue mayor que el valor alfa. A menudo, esto se combina con un lenguaje como "casi significativo" o "tendencia hacia la importancia" o alguna redacción en ese sentido.

Sin embargo, establecer un valor alfa antes de ejecutar el experimento significa que se ha elegido el enfoque del comportamiento inductivo de Neyman-Pearson. Elegir ignorar ese valor alfa después de calcular el valor p y, por lo tanto, afirmar que algo sigue siendo de alguna manera interesante, socava todo el enfoque con el que se comenzó. Si un investigador comienza por el camino A (Neyman-Pearson), pero luego salta a otro camino (Fisher) una vez que no le gusta el camino en el que se encuentra, lo considero incoherente. No están siendo consistentes con las reglas (implícitas) con las que comenzaron.

Coherente (posiblemente)

Comience con NP. El investigador establece alfa = 0.05, ejecuta el experimento, calcula p = 0.0014. El investigador observa que p <alfa y, por lo tanto, rechaza la hipótesis de la prueba (normalmente, ningún efecto es nulo) y acepta la hipótesis alternativa (el efecto es real). En este punto, el investigador, además de decidir tratar el resultado como un efecto real (NP), decide inferir (Fisher) que el experimento proporciona evidencia muy sólida de que el efecto es real. Han agregado matices al enfoque con el que comenzaron, pero no han contradicho las reglas establecidas al elegir un valor alfa al principio.

Resumen

Si uno comienza eligiendo un valor alfa, entonces ha decidido tomar el camino Neyman-Pearson y seguir las reglas para ese enfoque. Si, en algún momento, violan esas reglas usando la inferencia de Fisherian como justificación, entonces han actuado de manera inconsistente / incoherente.

Supongo que uno podría ir un paso más allá y declarar que debido a que es posible usar el híbrido incoherentemente, por lo tanto, el enfoque es inherentemente incoherente, pero eso parece profundizar en los aspectos filosóficos, que no me considero calificado para siquiera ofrecer una opinión sobre

Punta de sombrero para Michael Lew. Su artículo de 2006 me ayudó a comprender estos problemas mejor que cualquier otro recurso.

MichiganAgua
fuente