¿Cuándo usar el marco de Fisher y Neyman-Pearson?

73

Últimamente he estado leyendo mucho sobre las diferencias entre el método de prueba de hipótesis de Fisher y la escuela de pensamiento de Neyman-Pearson.

Mi pregunta es, ignorando las objeciones filosóficas por un momento; ¿Cuándo deberíamos usar el enfoque de Fisher de modelado estadístico y cuándo deberíamos usar el método de Neyman-Pearson de niveles de significación, etc.? ¿Existe una forma práctica de decidir qué punto de vista respaldar en un problema práctico dado?

hypothesis-testing p-value methodology Stijn
fuente

¿Dónde has leído sobre eso? Por favor, cita tus fuentes.

xmjx

8

Ver, por ejemplo, aquí ( jstor.org/stable/2291263 ) o aquí ( stats.org.uk/statistical-inference/Lenhard2006.pdf ).

Stijn

83

Permítanme comenzar definiendo los términos de la discusión tal como los veo. Un valor p es la probabilidad de obtener un estadístico de muestra (por ejemplo, una media de muestra) tan lejos o más lejos de algún valor de referencia que su estadístico de muestra, si el valor de referencia fuera el parámetro de población real. Por ejemplo, un valor p responde a la pregunta: ¿cuál es la probabilidad de obtener una muestra con un coeficiente intelectual más alto quepuntos lejos de 100, si 100 es realmente la media de la población de la cual se extrajo su muestra. Ahora el problema es, ¿cómo debería emplearse ese número para hacer una inferencia estadística? $|\bar x-100|$

Fisher pensó que el valor p podría interpretarse como una medida continua de evidencia contra la hipótesis nula . No existe un valor fijo particular en el que los resultados se vuelvan "significativos". La forma en que generalmente trato de transmitir esto a las personas es señalar que, a todos los efectos, p = .049 y p = .051 constituyen una cantidad idéntica de evidencia contra la hipótesis nula (véase la respuesta de @ Henrik aquí ) .

Por otro lado, Neyman & Pearson pensó que podría usar el valor p como parte de un proceso formal de toma de decisiones . Al final de su investigación, debe rechazar la hipótesis nula o no rechazar la hipótesis nula. Además, la hipótesis nula podría ser verdadera o no verdadera. Por lo tanto, hay cuatro posibilidades teóricas (aunque en cualquier situación dada, solo hay dos): podría tomar una decisión correcta (no rechazar una hipótesis nula verdadera o rechazar una falsa), o podría hacer un tipo I o error tipo II (al rechazar un nulo verdadero o al no rechazar una hipótesis nula falsa, respectivamente). (Tenga en cuenta que el valor p no es lo mismo que la tasa de error de tipo I, que discuto aquí.) El valor p permite que el proceso de decidir si se rechaza o no la hipótesis nula se formalice. Dentro del marco de Neyman-Pearson, el proceso funcionaría de esta manera: existe una hipótesis nula de que las personas creerán por defecto en ausencia de evidencia suficiente de lo contrario, y una hipótesis alternativa que usted cree que puede ser cierta. Hay algunas tasas de error a largo plazo con las que estará dispuesto a vivir (tenga en cuenta que no hay razón para que sean del 5% y del 20%). Teniendo en cuenta estas cosas, diseñas tu estudio para diferenciar entre esas dos hipótesis mientras mantienes, como máximo, esas tasas de error, realizando un análisis de potencia y realizando tu estudio en consecuencia. (Por lo general, esto significa tener datos suficientes). Después de completar su estudio, compara su valor p con $\alpha$ y rechazar la hipótesis nula si ; si no es así, no puede rechazar la hipótesis nula. De cualquier manera, su estudio está completo y usted ha tomado su decisión. $p<\alpha$

Los enfoques Fisherian y Neyman-Pearson no son lo mismo . La opinión central del marco de Neyman-Pearson es que al final de su estudio, debe tomar una decisión y retirarse. Supuestamente, un investigador una vez se acercó a Fisher con resultados 'no significativos', preguntándole qué debería hacer, y Fisher dijo: 've a buscar más datos'.

Personalmente, me parece muy atractiva la elegante lógica del enfoque de Neyman-Pearson. Pero no creo que siempre sea apropiado. En mi opinión, se deben cumplir al menos dos condiciones antes de considerar el marco de Neyman-Pearson:

Debe haber alguna hipótesis alternativa específica ( magnitud del efecto ) que le interese por alguna razón. (No me importa cuál es el tamaño del efecto, cuál es su razón, si está bien fundado o es coherente, etc., solo que tiene uno).
Debería haber alguna razón para sospechar que el efecto será "significativo", si la hipótesis alternativa es cierta. (En la práctica, esto generalmente significará que realizó un análisis de potencia y que tiene suficientes datos).

Cuando no se cumplen estas condiciones, el valor p aún se puede interpretar de acuerdo con las ideas de Fisher. Además, me parece probable que la mayoría de las veces estas condiciones no se cumplen. Aquí hay algunos ejemplos fáciles que vienen a la mente, donde se ejecutan las pruebas, pero no se cumplen las condiciones anteriores:

el ANOVA omnibus para un modelo de regresión múltiple (es posible descubrir cómo se unen todos los parámetros hipotéticos de pendiente distintos de cero para crear un parámetro de no centralidad para la distribución F , pero no es remotamente intuitivo, y dudo de nadie lo hace)
el valor de una prueba de Shapiro-Wilk de la normalidad de sus residuos en un análisis de regresión (¿qué magnitud de le interesa y por qué? ¿cuánta potencia tiene para rechazar el valor nulo cuando esa magnitud es correcta?) $W$
El valor de una prueba de homogeneidad de varianza (por ejemplo, la prueba de Levene ; los mismos comentarios que arriba)
cualquier otra prueba para verificar supuestos, etc.
Pruebas t de covariables distintas de la variable explicativa de interés primario en el estudio
investigación inicial / exploratoria (p. ej., estudios piloto)

gung - Restablece a Monica
fuente

Aunque este es un tema antiguo, la respuesta es muy apreciada. +1

Stijn

+1 ¡Gran respuesta! Estoy impresionado por su capacidad para explicar estos conceptos de una manera tan concisa.

COOLSerdash

1

Esta es una respuesta realmente maravillosa, @gung

Patrick S. Forscher

55

AFAIK Neyman-Pearson no utilizó los valores p de Fisherian y, por lo tanto, un criterio de "p <alfa". Lo que usted llama "Neyman-Pearson" en realidad es "prueba de significación de hipótesis nulas" (un híbrido de Fisher y NP), no pura teoría de decisión de Neyman-Pearson.

Frank

"si el valor de referencia fuera el verdadero parámetro de población". Para ser precisos, es "si la distribución de probabilidad es la que se especifica en la hipótesis nula". La hipótesis nula no solo especifica estadísticas de resumen, como una media, sino que especifica una distribución de probabilidad completa. A menudo, la familia de distribución se toma como implícita (por ejemplo, distribución normal), en cuyo punto la especificación de los parámetros especifica la distribución.

Acumulación

18

La practicidad está en el ojo del espectador, pero;

La prueba de significancia de Fisher puede interpretarse como una forma de decidir si los datos sugieren o no alguna 'señal' interesante. Rechazamos la hipótesis nula (que puede ser un error de Tipo I) o no decimos nada. Por ejemplo, en muchas aplicaciones modernas 'ómicas', esta interpretación encaja; no queremos cometer demasiados errores de Tipo I, queremos extraer las señales más emocionantes, aunque podemos perder algunas.
La hipótesis de Neyman-Pearson tiene sentido cuando hay dos alternativas disjuntas (por ejemplo, el Bosón de Higgs existe o no) entre las cuales decidimos. Además del riesgo de un error de Tipo I, aquí también podemos cometer un error de Tipo II, cuando hay una señal real pero decimos que no está allí, tomando una decisión 'nula'. El argumento de NP fue que, sin hacer demasiadas tasas de error tipo I, queremos minimizar el riesgo de errores tipo II.

A menudo, ninguno de los dos sistemas parecerá perfecto; por ejemplo, es posible que solo desee una estimación puntual y la medida correspondiente de incertidumbre. Además, puede no importar qué versión se utiliza, debido a que usted divulga el p-valor y salir de interpretación de la prueba para el lector. Pero para elegir entre los enfoques anteriores, identifique si (o no) los errores de Tipo II son relevantes para su aplicación.

huésped
fuente

5

El punto es que no puedes ignorar las diferencias filosóficas. Un procedimiento matemático en estadística no es solo algo que se aplica sin algunas hipótesis subyacentes, suposiciones, teoría ... filosofía.

Dicho esto, si insiste en apegarse a las filosofías frecuentistas, podría haber algunos tipos muy específicos de problemas en los que Neyman-Pearson realmente necesita ser considerado. Todos caerían en la clase de pruebas repetidas como control de calidad o fMRI. Establecer un alfa específico de antemano y considerar todo el Tipo I, Tipo II y el marco de poder se vuelve más importante en esa configuración.

John
fuente

No insisto en apegarme a las estadísticas frecuentistas, pero me preguntaba si hay situaciones en las que adoptar un punto de vista de Fisher o Neyman-Pearson podría ser natural. Sé que hay una distinción filosófica, pero ¿quizás también hay un lado práctico a considerar?

Stijn

3

De acuerdo, bueno, más o menos lo que dije ... Neyman-Pearson realmente estaba preocupado por situaciones en las que haces muchas pruebas sin ningún fundamento teórico real para cada una. El punto de vista de Fisher realmente no aborda ese problema.

John

1

Mi comprensión es: el valor p es decirnos qué creer (verificar una teoría con datos suficientes) mientras que el enfoque de Neyman-Pearson es decirnos qué hacer (tomar las mejores decisiones posibles incluso con datos limitados). Por lo tanto, me parece que el valor p (pequeño) es más estricto, mientras que el enfoque de Neyman-Pearson es más pragmático; Esa es probablemente la razón por la cual el valor p se usa más para responder preguntas científicas, mientras que Neyman y Pearson se usan más para tomar decisiones estadísticas / prácticas.

chaohuang
fuente

¿Cuándo usar el marco de Fisher y Neyman-Pearson?

Respuestas: