¿Cuándo tiene sentido el enfoque de Fisher para "obtener más datos"?

26

Citando la gran respuesta de Gung

Supuestamente, un investigador una vez se acercó a Fisher con resultados "no significativos", preguntándole qué debería hacer, y Fisher dijo: "ve a buscar más datos".

Desde una perspectiva de Neyman-Pearson, esto es flagrante p -hacking, pero no es un caso de uso donde ir a buscar-más-datos-de Fisher enfoque tiene sentido?

nalzok
fuente
10
Fisher (repetidamente) enfatizó la importancia de la replicación de experimentos y espero que esa sea su intención aquí (suponiendo que la conversación haya sucedido). Ciertamente, Fisher habría sido muy consciente de que no puede verificar la importancia y luego expandir su muestra inicial si no la obtuvo.
Glen_b -Reinstala Monica el
@Glen_b Escuché la frase "replicación de experimentos" antes pero no la entendí. ¿Puedes elaborar? Digamos, ¿son diez réplicas de un experimento cuyo tamaño de muestra es 10 mejor que un solo experimento cuyo tamaño de muestra es 100?
nalzok
En un estudio exploratorio, ir a buscar más datos puede ser aceptable. En un estudio confirmatorio, no existe una posición para obtener más datos.
user158565
55
Una de mis opiniones controvertidas sobre la práctica estadística es que, si bien es importante tener en cuenta el tema de los falsos positivos, no debemos poner las tasas de error de tipo 1 conservadoras en un pedestal tan alto que nos negamos a aprender de los datos para preservar un tipo 1 tasa de error.
Cliff AB

Respuestas:

29

El paradigma frecuentista es una fusión de los puntos de vista de Fisher y Neyman-Pearson. Solo al usar un enfoque y otra interpretación surgen los problemas.

A cualquiera le parecerá extraño que recopilar más datos sea problemático, ya que más datos son más pruebas. De hecho, el problema no radica en recopilar más datos, sino en utilizar el valor p para decidir hacerlo, cuando también es la medida de interés. Recopilar más datos basados ​​en el valor p solo es hackear p si calcula un nuevo valor p .

Si no tienes pruebas suficientes para llegar a una conclusión satisfactoria sobre la pregunta de investigación, entonces, por supuesto, ve a buscar más datos. Sin embargo, reconozca que ya pasó la etapa NHST de su investigación, y enfóquese en cuantificar el efecto de interés.


Una nota interesante es que los bayesianos no sufren este dilema. Considere lo siguiente como un ejemplo:

  • Si un frecuentista concluye que no hay diferencia significativa y luego cambia a una prueba de equivalencia, seguramente la tasa de falsos positivos ha aumentado;
  • Un bayesiano puede expresar el intervalo de densidad más alto y la región de equivalencia práctica de una diferencia simultáneamente y dormir igual de noche.
Frans Rodenburg
fuente
Básicamente, digamos que quiero probar si la media de la población A es igual a la de la población B. Inicialmente, obtengo algunos datos, realizo una prueba para : "las medias son iguales", y no puedo rechazarla. En este caso, no debería realizar otra prueba para H 0 : "las medias NO son iguales". Todo lo que puedo hacer es estimar los intervalos confidenciales de los medios, ¿es correcto? ¿Qué pasa si no hay superposición entre los dos intervalos? H0H0
nalzok
66
"Solo es hackeo p si calcula un nuevo valor p". ¿Esto realmente no depende completamente del método utilizado para calcular el valor p? Ignorar el análisis secuencial y la decisión de recopilar más datos dará como resultado un valor p inexacto. Sin embargo, si incorpora la regla de decisión para recopilar más datos en el cálculo del valor p, generará un valor p válido.
jsk
44
@jsk Creo que es menos que los valores p calculados posteriormente sean de alguna manera inválidos, y más que está utilizando un estándar arbitrario y no basado en datos para juzgar cuándo su experimento es "correcto" y su investigación sobre ese proyecto es " hecho". Decidir que todos los valores p no significativos son incorrectos, y recopilar datos hasta que obtenga uno que sea significativo y luego detenerse porque ha obtenido el resultado "correcto" es lo opuesto a la ciencia experimental.
Upper_Case-Stop Harming Monica
1
@Upper_Case Estaba comentando una sección muy pequeña de la publicación en lo que respecta al p-hacking, razón por la cual incluí esa sección entre comillas. Estás leyendo demasiado en mi declaración. Mi punto es que CUALQUIER regla de decisión que se use para decidir recopilar más datos debe incorporarse al cálculo del valor p. Siempre que incorpore las decisiones tomadas en el cálculo del valor p, aún puede realizar un NHST válido si así lo desea. Esto no significa de ninguna manera que estoy abogando por una regla de detención que diga "recopile más datos hasta que encuentre un resultado significativo".
jsk
@jsk Ah, entiendo tu punto mejor ahora. Gracias por la aclaración.
Upper_Case-Stop Harming Monica
10

Dado un tamaño de muestra lo suficientemente grande, una prueba siempre mostrará resultados significativos, a menos que el tamaño del efecto verdadero sea exactamente cero, como se discute aquí . En la práctica, el tamaño real del efecto no es cero, por lo que la recopilación de más datos eventualmente podrá detectar las diferencias más minúsculas.

La respuesta graciosa (IMO) de Fisher fue en respuesta a una pregunta relativamente trivial que en su premisa está combinando 'diferencia significativa' con 'diferencia prácticamente relevante'.

Sería equivalente a que un investigador entrara a mi oficina y preguntara "Pesé este peso de plomo etiquetado '25 gramos 'y midió 25.0 gramos. Creo que está mal etiquetado, ¿qué debo hacer?" A lo que podría responder: "Obtenga una escala más precisa".

Creo que el enfoque de obtener más datos es apropiado si la prueba inicial es lamentablemente insuficiente para detectar la magnitud de la diferencia que es prácticamente relevante.

Socavador
fuente
Sin embargo, el punto es que debe incorporar la decisión de obtener más datos en el cálculo del valor p.
jsk
@jsk incluso si cambia el valor p, aún puede recopilar más datos para encontrar un resultado significativo (aunque necesitaría aún más datos).
Underminer
1
Podría haber sido más claro. No estoy seguro de qué quiere decir exactamente con "todavía PUEDES reunir más datos para encontrar un resultado significativo". Lo entiendo porque la hipótesis nula generalmente nunca es cierta, la recopilación de más datos eventualmente conducirá a un resultado significativo. Solo quería llamar la atención sobre el hecho de que al calcular el valor p, debe incorporar la decisión de recopilar más datos en el cálculo del valor p. Esto significa que las reglas de decisión (sobre la recopilación de más datos) deben especificarse previamente antes de la recopilación de datos original.
jsk
@jsk incluso con un método muy conservador para ajustar el valor p (por ejemplo, Bonferroni correcto, aplicable en análisis post-hoc), existe un tamaño de muestra adicional lo suficientemente grande como para superar la corrección. El punto es: si me proporciona un método de ajuste del valor p (especificado antes de la recopilación de datos original o no), la verdadera diferencia entre las distribuciones de población de los grupos de interés y los resultados preliminares insignificantes; y puedo proporcionarle un tamaño de muestra lo suficientemente grande como para obtener resultados significativos. Por lo tanto, más datos SIEMPRE son una respuesta.
Underminer
7

Gracias. Hay un par de cosas a tener en cuenta aquí:

  1. La cita puede ser apócrifa.
  2. Es bastante razonable obtener más / mejores datos, o datos de una fuente diferente (escala más precisa, cf., @ Respuesta de Underminer ; situación o controles diferentes, etc.), para un segundo estudio (cf., comentario de @ Glen_b ) . Es decir, no analizaría los datos adicionales junto con los datos originales: digamos que tenía N = 10 con un resultado no significativo, podría recopilar otros datos de N = 20 y analizarlos solos (sin probar los 30 completos juntos ) Si la cita no es apócrifa, eso podría haber sido lo que Fisher tenía en mente.
  3. La filosofía de la ciencia de Fisher era esencialmente popperiana . Es decir, el nulo no era necesariamente algo que rechazar de manera rutinaria para confirmar su teoría, pero idealmente podría ser su propia teoría, de modo que el rechazo significa que la teoría de su mascota está equivocada y necesita volver al tablero de dibujo. En tal caso, la inflación de error tipo I no beneficiaría al investigador. (Por otro lado, esta interpretación corta en contra de que Fisher dé este consejo a menos que fuera una pelea, lo que no habría estado fuera de lugar).
  4. En cualquier caso, vale la pena señalar que la razón por la que incluí ese comentario es que ilustra algo fundamental sobre la diferencia en la naturaleza de los dos enfoques.
gung - Restablece a Monica
fuente
1
p
Por cierto, sería genial si pudieras elaborar "la diferencia en la naturaleza de los dos enfoques". El método de Fisher suena más ... subjetivo, ya que siento que a él realmente no le importa la tasa de error, pero podría estar perdiendo algo.
nalzok
1
@nalzok, la diferencia se discute en el hilo original: el enfoque de Neyman-Pearson supone que el estudio es un evento discreto, lo haces y te alejas; El enfoque de Fisher supone que el problema está bajo investigación continua. Re: # 2, si analiza los datos de forma aislada, no es p-hacking (a menos que tal vez ejecute múltiples estudios y solo publique el que muestre lo que desea). Re: # 3, no, no se acepta el valor nulo, debe seguir encontrando mejores formas de probar su teoría.
gung - Restablece a Monica
1
pp
1
(+1) A veces creo que nos enfocamos en el árbol y extrañamos el bosque. Sin rodeos, cuando tenemos un problema difícil, más datos suelen ser mejores que menos datos. En la mayoría de los casos, más datos no es mucho mejor. Como sugiere el perspicaz artículo de 2018 de Meng " Paraísos y paradojas estadísticas en big data (I) ", obtener mejores datos (por ejemplo, una muestra bien seleccionada) es mucho más beneficioso que datos más grandes cuando intentamos estimar una cantidad desconocida. ¡Pero más datos usualmente ayudan!
usεr11852 dice Reinstate Monic
6

Lo que llamamos P-hacking es aplicar una prueba de significación varias veces y solo informar los resultados de significación. Si esto es bueno o malo depende de la situación.

Para explicar, pensemos en los efectos verdaderos en términos bayesianos, en lugar de hipótesis nulas y alternativas. Mientras creamos que nuestros efectos de interés provienen de una distribución continua, entonces sabemos la hipótesis nula es falsa. Sin embargo, en el caso de una prueba de dos lados, no sabemos si es positiva o negativa. Bajo esta luz, podemos pensar en los valores p para las pruebas de dos lados como una medida de cuán fuerte es la evidencia de que nuestra estimación tiene la dirección correcta (es decir, efecto positivo o negativo).

p<α

Ahora, considere lo que sucede cuando sigue regresando para obtener más datos. Cada vez que obtiene más datos, su probabilidad de obtener la dirección correcta condicional a datos suficientes solo aumenta. Entonces, en este escenario, debemos darnos cuenta de que al obtener más datos, aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección incorrecta.

Tome esto en contraste con el abuso más típico de la piratería P; probamos cientos de tamaños de efectos que tienen una buena probabilidad de ser muy pequeños y solo informamos los significativos. Tenga en cuenta que en este caso, si todos los efectos son pequeños, tenemos una probabilidad cercana al 50% de equivocarse cuando declaramos su importancia.

Por supuesto, los valores p producidos a partir de esta duplicación de datos aún deberían venir con un grano de sal. Si bien, en general, no debería tener un problema con las personas que recopilan más datos para estar más seguros sobre el tamaño de un efecto, esto podría abusarse de otras maneras. Por ejemplo, un IP inteligente podría darse cuenta de que, en lugar de recopilar los 100 puntos de datos a la vez, podría ahorrar un montón de dinero y aumentar la potencia al recopilar primero 50 puntos de datos, analizar los datos y luego recopilar los siguientes 50 si no es significativo . En este escenario, aumentan la probabilidad de que la dirección del efecto sea incorrecta condicional a la declaración de significancia, ya que es más probable que obtengan la dirección del efecto incorrecta con 50 puntos de datos que con 100 puntos de datos.

Y finalmente, considere las implicaciones de no obtener más datos cuando tenemos un resultado insignificante. Eso implicaría nunca recopilar más información sobre el tema, lo que realmente no hará avanzar la ciencia, ¿verdad? Un estudio de baja potencia mataría un campo entero.

Acantilado
fuente
1
(+1) Este es un punto de vista interesante, pero ¿puedes explicar la diferencia entre la metodología de Fisher y la del inteligente PI? Parece que ambos recopilan más datos porque la prueba inicial es insignificante.
nalzok
Además, no estoy seguro de lo que quiere decir con "aunque de hecho estamos aumentando la probabilidad de un error tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección incorrecta". ¿Cuál es la hipótesis nula aquí? OMI si está haciendo una prueba unilateral, entonces "concluir la dirección equivocada" es "un error tipo I", y para las pruebas bilaterales, no debe concluir la dirección.
nalzok
Corríjame si me equivoco, pero creo que sugiere seguir recopilando más datos hasta que una prueba bilateral sea significativa, y en este caso, la tasa de error tipo I sería del 100%.
nalzok
1
La diferencia clave entre lo que Fisher recomienda y el IP inteligente / ingenuo es que Fisher hace esa llamada desde el estudio que se está concluyendo. Sus opciones son recolectar más datos o decidir que nunca sabrá la dirección del efecto. Por otro lado, el PI decide subestimar su estudio inicial incluso antes de ver los datos.
Cliff AB
1
@nalzok: seguro que intentaré echar un vistazo durante las horas no laborales :)
Cliff AB
1

Si la alternativa tenía una pequeña probabilidad a priori , entonces un experimento que no rechaza el valor nulo lo disminuirá aún más, haciendo que cualquier investigación adicional sea aún menos rentable. Por ejemplo, suponga que la probabilidad a priori es .01. Entonces tu entropía es .08 bits. Si la probabilidad se reduce a .001, entonces su entropía es ahora .01. Por lo tanto, continuar recolectando datos a menudo no es rentable. Una razón por la que sería rentable sería que saber es tan importante que vale la pena reducir incluso los 0,01 bits restantes de entropía.

Otra razón sería si la probabilidad a priori fuera realmente alta. Si tu probabilidad a priori era superior al 50%, no rechazar el valor nulo aumenta su entropía, por lo que es más rentable continuar recopilando datos. Un ejemplo sería cuando estás casi seguro de que hay un efecto, pero no sabes en qué dirección.

Por ejemplo, si usted es un agente de contrainteligencia y está seguro de que un departamento tiene un lunar, y lo ha reducido a dos sospechosos, y está haciendo un análisis estadístico para decidir cuál, entonces un resultado estadísticamente insignificante justificaría la recolección Más datos.

Acumulacion
fuente
¿Por qué no rechazar el nulo disminuye su probabilidad? Si bien la ausencia de evidencia no es evidencia de ausencia, no puedo entender por qué es evidencia contra la ausencia.
nalzok
@nalzok escribí "Si la alternativa tenía una pequeña probabilidad a priori, entonces un experimento que no rechaza el nulo lo disminuirá aún más" Mientras "nulo" es el sustantivo más cercano a "eso", el nulo no es una cantidad, y por lo tanto, no puede disminuir y no es un antecedente válido para "eso". Además, "más" indica que "eso" se refiere a algo que ya es pequeño. Estos hechos apuntan al antecedente de que "eso" es la "pequeña probabilidad a priori" de la alternativa.
Acumulación