Citando la gran respuesta de Gung
Supuestamente, un investigador una vez se acercó a Fisher con resultados "no significativos", preguntándole qué debería hacer, y Fisher dijo: "ve a buscar más datos".
Desde una perspectiva de Neyman-Pearson, esto es flagrante -hacking, pero no es un caso de uso donde ir a buscar-más-datos-de Fisher enfoque tiene sentido?
Respuestas:
El paradigma frecuentista es una fusión de los puntos de vista de Fisher y Neyman-Pearson. Solo al usar un enfoque y otra interpretación surgen los problemas.
A cualquiera le parecerá extraño que recopilar más datos sea problemático, ya que más datos son más pruebas. De hecho, el problema no radica en recopilar más datos, sino en utilizar el valorp para decidir hacerlo, cuando también es la medida de interés. Recopilar más datos basados en el valor p solo es hackear p si calcula un nuevo valor p .
Si no tienes pruebas suficientes para llegar a una conclusión satisfactoria sobre la pregunta de investigación, entonces, por supuesto, ve a buscar más datos. Sin embargo, reconozca que ya pasó la etapa NHST de su investigación, y enfóquese en cuantificar el efecto de interés.
Una nota interesante es que los bayesianos no sufren este dilema. Considere lo siguiente como un ejemplo:
fuente
Dado un tamaño de muestra lo suficientemente grande, una prueba siempre mostrará resultados significativos, a menos que el tamaño del efecto verdadero sea exactamente cero, como se discute aquí . En la práctica, el tamaño real del efecto no es cero, por lo que la recopilación de más datos eventualmente podrá detectar las diferencias más minúsculas.
La respuesta graciosa (IMO) de Fisher fue en respuesta a una pregunta relativamente trivial que en su premisa está combinando 'diferencia significativa' con 'diferencia prácticamente relevante'.
Sería equivalente a que un investigador entrara a mi oficina y preguntara "Pesé este peso de plomo etiquetado '25 gramos 'y midió 25.0 gramos. Creo que está mal etiquetado, ¿qué debo hacer?" A lo que podría responder: "Obtenga una escala más precisa".
Creo que el enfoque de obtener más datos es apropiado si la prueba inicial es lamentablemente insuficiente para detectar la magnitud de la diferencia que es prácticamente relevante.
fuente
Gracias. Hay un par de cosas a tener en cuenta aquí:
fuente
Lo que llamamos P-hacking es aplicar una prueba de significación varias veces y solo informar los resultados de significación. Si esto es bueno o malo depende de la situación.
Para explicar, pensemos en los efectos verdaderos en términos bayesianos, en lugar de hipótesis nulas y alternativas. Mientras creamos que nuestros efectos de interés provienen de una distribución continua, entonces sabemos la hipótesis nula es falsa. Sin embargo, en el caso de una prueba de dos lados, no sabemos si es positiva o negativa. Bajo esta luz, podemos pensar en los valores p para las pruebas de dos lados como una medida de cuán fuerte es la evidencia de que nuestra estimación tiene la dirección correcta (es decir, efecto positivo o negativo).
Ahora, considere lo que sucede cuando sigue regresando para obtener más datos. Cada vez que obtiene más datos, su probabilidad de obtener la dirección correcta condicional a datos suficientes solo aumenta. Entonces, en este escenario, debemos darnos cuenta de que al obtener más datos, aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección incorrecta.
Tome esto en contraste con el abuso más típico de la piratería P; probamos cientos de tamaños de efectos que tienen una buena probabilidad de ser muy pequeños y solo informamos los significativos. Tenga en cuenta que en este caso, si todos los efectos son pequeños, tenemos una probabilidad cercana al 50% de equivocarse cuando declaramos su importancia.
Por supuesto, los valores p producidos a partir de esta duplicación de datos aún deberían venir con un grano de sal. Si bien, en general, no debería tener un problema con las personas que recopilan más datos para estar más seguros sobre el tamaño de un efecto, esto podría abusarse de otras maneras. Por ejemplo, un IP inteligente podría darse cuenta de que, en lugar de recopilar los 100 puntos de datos a la vez, podría ahorrar un montón de dinero y aumentar la potencia al recopilar primero 50 puntos de datos, analizar los datos y luego recopilar los siguientes 50 si no es significativo . En este escenario, aumentan la probabilidad de que la dirección del efecto sea incorrecta condicional a la declaración de significancia, ya que es más probable que obtengan la dirección del efecto incorrecta con 50 puntos de datos que con 100 puntos de datos.
Y finalmente, considere las implicaciones de no obtener más datos cuando tenemos un resultado insignificante. Eso implicaría nunca recopilar más información sobre el tema, lo que realmente no hará avanzar la ciencia, ¿verdad? Un estudio de baja potencia mataría un campo entero.
fuente
Si la alternativa tenía una pequeña probabilidad a priori , entonces un experimento que no rechaza el valor nulo lo disminuirá aún más, haciendo que cualquier investigación adicional sea aún menos rentable. Por ejemplo, suponga que la probabilidad a priori es .01. Entonces tu entropía es .08 bits. Si la probabilidad se reduce a .001, entonces su entropía es ahora .01. Por lo tanto, continuar recolectando datos a menudo no es rentable. Una razón por la que sería rentable sería que saber es tan importante que vale la pena reducir incluso los 0,01 bits restantes de entropía.
Otra razón sería si la probabilidad a priori fuera realmente alta. Si tu probabilidad a priori era superior al 50%, no rechazar el valor nulo aumenta su entropía, por lo que es más rentable continuar recopilando datos. Un ejemplo sería cuando estás casi seguro de que hay un efecto, pero no sabes en qué dirección.
Por ejemplo, si usted es un agente de contrainteligencia y está seguro de que un departamento tiene un lunar, y lo ha reducido a dos sospechosos, y está haciendo un análisis estadístico para decidir cuál, entonces un resultado estadísticamente insignificante justificaría la recolección Más datos.
fuente