Últimamente he estado leyendo mucho sobre las diferencias entre el método de prueba de hipótesis de Fisher y la escuela de pensamiento de Neyman-Pearson.
Mi pregunta es, ignorando las objeciones filosóficas por un momento; ¿Cuándo deberíamos usar el enfoque de Fisher de modelado estadístico y cuándo deberíamos usar el método de Neyman-Pearson de niveles de significación, etc.? ¿Existe una forma práctica de decidir qué punto de vista respaldar en un problema práctico dado?
Respuestas:
Permítanme comenzar definiendo los términos de la discusión tal como los veo. Un valor p es la probabilidad de obtener un estadístico de muestra (por ejemplo, una media de muestra) tan lejos o más lejos de algún valor de referencia que su estadístico de muestra, si el valor de referencia fuera el parámetro de población real. Por ejemplo, un valor p responde a la pregunta: ¿cuál es la probabilidad de obtener una muestra con un coeficiente intelectual más alto quepuntos lejos de 100, si 100 es realmente la media de la población de la cual se extrajo su muestra. Ahora el problema es, ¿cómo debería emplearse ese número para hacer una inferencia estadística?|x¯−100|
Fisher pensó que el valor p podría interpretarse como una medida continua de evidencia contra la hipótesis nula . No existe un valor fijo particular en el que los resultados se vuelvan "significativos". La forma en que generalmente trato de transmitir esto a las personas es señalar que, a todos los efectos, p = .049 y p = .051 constituyen una cantidad idéntica de evidencia contra la hipótesis nula (véase la respuesta de @ Henrik aquí ) .
Por otro lado, Neyman & Pearson pensó que podría usar el valor p como parte de un proceso formal de toma de decisiones . Al final de su investigación, debe rechazar la hipótesis nula o no rechazar la hipótesis nula. Además, la hipótesis nula podría ser verdadera o no verdadera. Por lo tanto, hay cuatro posibilidades teóricas (aunque en cualquier situación dada, solo hay dos): podría tomar una decisión correcta (no rechazar una hipótesis nula verdadera o rechazar una falsa), o podría hacer un tipo I o error tipo II (al rechazar un nulo verdadero o al no rechazar una hipótesis nula falsa, respectivamente). (Tenga en cuenta que el valor p no es lo mismo que la tasa de error de tipo I, que discuto aquí.) El valor p permite que el proceso de decidir si se rechaza o no la hipótesis nula se formalice. Dentro del marco de Neyman-Pearson, el proceso funcionaría de esta manera: existe una hipótesis nula de que las personas creerán por defecto en ausencia de evidencia suficiente de lo contrario, y una hipótesis alternativa que usted cree que puede ser cierta. Hay algunas tasas de error a largo plazo con las que estará dispuesto a vivir (tenga en cuenta que no hay razón para que sean del 5% y del 20%). Teniendo en cuenta estas cosas, diseñas tu estudio para diferenciar entre esas dos hipótesis mientras mantienes, como máximo, esas tasas de error, realizando un análisis de potencia y realizando tu estudio en consecuencia. (Por lo general, esto significa tener datos suficientes). Después de completar su estudio, compara su valor p conp < αα y rechazar la hipótesis nula si ; si no es así, no puede rechazar la hipótesis nula. De cualquier manera, su estudio está completo y usted ha tomado su decisión. p<α
Los enfoques Fisherian y Neyman-Pearson no son lo mismo . La opinión central del marco de Neyman-Pearson es que al final de su estudio, debe tomar una decisión y retirarse. Supuestamente, un investigador una vez se acercó a Fisher con resultados 'no significativos', preguntándole qué debería hacer, y Fisher dijo: 've a buscar más datos'.
Personalmente, me parece muy atractiva la elegante lógica del enfoque de Neyman-Pearson. Pero no creo que siempre sea apropiado. En mi opinión, se deben cumplir al menos dos condiciones antes de considerar el marco de Neyman-Pearson:
Cuando no se cumplen estas condiciones, el valor p aún se puede interpretar de acuerdo con las ideas de Fisher. Además, me parece probable que la mayoría de las veces estas condiciones no se cumplen. Aquí hay algunos ejemplos fáciles que vienen a la mente, donde se ejecutan las pruebas, pero no se cumplen las condiciones anteriores:
fuente
La practicidad está en el ojo del espectador, pero;
La prueba de significancia de Fisher puede interpretarse como una forma de decidir si los datos sugieren o no alguna 'señal' interesante. Rechazamos la hipótesis nula (que puede ser un error de Tipo I) o no decimos nada. Por ejemplo, en muchas aplicaciones modernas 'ómicas', esta interpretación encaja; no queremos cometer demasiados errores de Tipo I, queremos extraer las señales más emocionantes, aunque podemos perder algunas.
La hipótesis de Neyman-Pearson tiene sentido cuando hay dos alternativas disjuntas (por ejemplo, el Bosón de Higgs existe o no) entre las cuales decidimos. Además del riesgo de un error de Tipo I, aquí también podemos cometer un error de Tipo II, cuando hay una señal real pero decimos que no está allí, tomando una decisión 'nula'. El argumento de NP fue que, sin hacer demasiadas tasas de error tipo I, queremos minimizar el riesgo de errores tipo II.
A menudo, ninguno de los dos sistemas parecerá perfecto; por ejemplo, es posible que solo desee una estimación puntual y la medida correspondiente de incertidumbre. Además, puede no importar qué versión se utiliza, debido a que usted divulga el p-valor y salir de interpretación de la prueba para el lector. Pero para elegir entre los enfoques anteriores, identifique si (o no) los errores de Tipo II son relevantes para su aplicación.
fuente
El punto es que no puedes ignorar las diferencias filosóficas. Un procedimiento matemático en estadística no es solo algo que se aplica sin algunas hipótesis subyacentes, suposiciones, teoría ... filosofía.
Dicho esto, si insiste en apegarse a las filosofías frecuentistas, podría haber algunos tipos muy específicos de problemas en los que Neyman-Pearson realmente necesita ser considerado. Todos caerían en la clase de pruebas repetidas como control de calidad o fMRI. Establecer un alfa específico de antemano y considerar todo el Tipo I, Tipo II y el marco de poder se vuelve más importante en esa configuración.
fuente
Mi comprensión es: el valor p es decirnos qué creer (verificar una teoría con datos suficientes) mientras que el enfoque de Neyman-Pearson es decirnos qué hacer (tomar las mejores decisiones posibles incluso con datos limitados). Por lo tanto, me parece que el valor p (pequeño) es más estricto, mientras que el enfoque de Neyman-Pearson es más pragmático; Esa es probablemente la razón por la cual el valor p se usa más para responder preguntas científicas, mientras que Neyman y Pearson se usan más para tomar decisiones estadísticas / prácticas.
fuente