¿Es posible cambiar una hipótesis para que coincida con los datos observados (también conocido como expedición de pesca) y evitar un aumento en los errores de Tipo I?

32

Es bien sabido que los investigadores deberían pasar tiempo observando y explorando los datos e investigaciones existentes antes de formar una hipótesis y luego recolectar datos para probar esa hipótesis (refiriéndose a la prueba de significación de hipótesis nula). Muchos libros de estadísticas básicas advierten que las hipótesis deben formarse a priori y no pueden cambiarse después de la recopilación de datos; de lo contrario, la metodología se vuelve inválida.

Entiendo que una de las razones por las cuales cambiar una hipótesis para que se ajuste a los datos observados es problemático es debido a la mayor posibilidad de cometer un error de tipo I debido a datos espurios, pero mi pregunta es: ¿ es esa la única razón o hay otros problemas fundamentales para ir? en una expedición de pesca?

Como pregunta adicional, ¿hay formas de realizar expediciones de pesca sin exponerse a los posibles peligros? Por ejemplo, si tiene suficientes datos, ¿podría generar hipótesis a partir de la mitad de los datos y luego usar la otra mitad para probarlos?

actualizar

Aprecio el interés en mi pregunta, pero las respuestas y comentarios están principalmente dirigidos a lo que pensé que establecí como información de fondo. Estoy interesado en saber si hay otras razones por las cuales es malo más allá de la mayor posibilidad de resultados espurios y si hay formas, como dividir los datos primero, de cambiar una hipótesis post hoc pero evitar el aumento de los errores de Tipo I.

He actualizado el título para que espere refleje el impulso de mi pregunta.

Gracias, y perdón por la confusión!

post-hoc
fuente
1
Tomando otro punto de vista sobre lo que ya se ha dicho: la esencia del método científico es hacer hipótesis y luego tratar de falsificarlas para que puedan convertirse en teorías (si la falsificación falla). Ir a una expedición de pesca es una forma válida de encontrar hipótesis que valga la pena falsificar en un experimento posterior, pero nunca se puede hacer y tratar de falsificar una hipótesis de una sola vez. En particular, si está abierto a ajustar su hipótesis, ya no está tratando de falsificarla. En cambio, cuando se ajusta, está falsificando su hipótesis no ajustada y forma una nueva hipótesis.
Wrzlprmft
@ jona, ese es un gran trabajo. Ya he leído documentos de Ioannidis y Schooler, pero Simmons et al ilustran maravillosamente el problema.
post-hoc
1
Me pregunto si también encontrará este documento relevante para su pregunta: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . No se trata exactamente del mismo tema, pero aborda un aspecto del mismo.
a11msp
1
Los datos pueden hacer que cambie su hipótesis ... pero en ese caso debe comenzar a recopilar nuevos datos desde cero para confirmar la nueva hipótesis.
keshlam

Respuestas:

54

Ciertamente puedes ir a expediciones de pesca, siempre y cuando admitas que es una expedición de pesca y la trates como tal. Un nombre más agradable para eso es "análisis exploratorio de datos".

Una mejor analogía podría ser disparar a un objetivo:

Puedes disparar a un blanco y celebrar si le das al blanco.

Puedes disparar sin objetivo para probar las propiedades de tu arma.

Pero es una trampa disparar a una pared y luego pintar un objetivo alrededor del agujero de bala.

Una forma de evitar algunos de los problemas con esto es hacer la exploración en un conjunto de datos de entrenamiento y luego probarlo en un conjunto de datos de "prueba" separado.

Peter Flom - Restablece a Monica
fuente
13
Es difícil mejorar la respuesta de Peter. El desafortunado problema con gran parte del dragado de datos es la falta de admisión por parte de los autores de que las hipótesis no estaban completamente especificadas previamente, es decir, que no utilizan el término "exploratorio". Muchos, muchos investigadores están dragando datos para obtener un documento publicable y no siguen ningún intento de validación (que a menudo los decepcionaría).
Frank Harrell
2
Llevando el comentario de Frank Harrell un paso más allá: es legítimo explorar algunos datos y publicar un hallazgo intrigante ... como un hallazgo intrigante y exploratorio que está sujeto a ser reproducido / validado. La desventaja es que si alguien más confirma tus hallazgos, es muy posible que obtengan la gloria, y si otros no confirman tus resultados, una falsa correlación te engañó. Malo si tienes un gran ego. Sin mencionar que necesitaría hacer que sus datos y procedimientos estén disponibles públicamente, lo que muchos profesionales en muchos campos no harán. Y debe seguir con nuevos datos en lugar de seguir adelante.
Wayne
11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD
3
@ bien post-hoc, no debería levantar las cejas, pero podría hacerlo. ¡Depende de quién tenga los ojos debajo de las cejas!
Peter Flom - Restablece a Monica
2
Texas Sharpshooter Fallacy ..
smci
25

El problema con las expediciones de pesca es el siguiente: si prueba suficientes hipótesis, una de ellas se confirmará con un valor p bajo. Déjame darte un ejemplo concreto.

Imagina que estás haciendo un estudio epidemiológico. Ha encontrado 1000 pacientes que sufren de una condición rara. Quieres saber qué tienen en común. Entonces comienza a probar: desea ver si una característica particular está sobrerrepresentada en esta muestra. Inicialmente, realiza una prueba de género, raza, ciertos antecedentes familiares pertinentes (el padre murió de una enfermedad cardíaca antes de los 50 años, ...) pero eventualmente, como tiene problemas para encontrar algo que se "pegue", comienza a agregar todo tipo de otros factores que simplemente podría relacionarse con la enfermedad:

  • es vegetariano
  • ha viajado a Canadá
  • termino la universidad
  • está casado
  • tiene niños
  • tiene gatos
  • tiene perros
  • bebe al menos 5 vasos de vino tinto por semana
    ...

Ahora aquí está la cosa. Si selecciono suficientes hipótesis "aleatorias", comienza a ser probable que al menos una de ellas dé como resultado un valor p menor que 0.05, porque la esencia misma del valor p es "la probabilidad de estar equivocado al rechazar la hipótesis nula cuando existe no tiene efecto ". Dicho de otra manera: en promedio, por cada 20 hipótesis falsas que pruebe, una de ellas le dará una p <0.05 .

Esto se resume muy bien en la caricatura de XKCD http://xkcd.com/882/ :

ingrese la descripción de la imagen aquí

La tragedia es que incluso si un autor individual no realiza 20 pruebas de hipótesis diferentes en una muestra para buscar significado, podría haber otros 19 autores haciendo lo mismo; y el que "encuentra" una correlación ahora tiene un artículo interesante para escribir, y uno que probablemente sea aceptado para su publicación ...

Esto lleva a una desafortunada tendencia a hallazgos irreproducibles. La mejor manera de protegerse contra esto como autor individual es poner el listón más alto. En lugar de probar el factor individual, pregúntese "si pruebo N hipótesis, cuál es la probabilidad de obtener al menos un falso positivo". Cuando realmente está probando "hipótesis de pesca", podría pensar en hacer una corrección de Bonferroni para protegerse contra esto, pero la gente con frecuencia no lo hace.

Hubo algunos documentos interesantes del Dr. Ioannides, perfilados en el Atlantic Monthly específicamente sobre este tema.

Vea también esta pregunta anterior con varias respuestas perspicaces.

actualice para responder mejor a todos los aspectos de su pregunta:

Si tiene miedo de estar "pescando", pero realmente no sabe qué hipótesis formular, definitivamente podría dividir sus datos en las secciones "exploración", "replicación" y "confirmación". En principio, esto debería limitar su exposición a los riesgos descritos anteriormente: si tiene un valor p de 0.05 en los datos de exploración y obtiene un valor similar en los datos de replicación y confirmación, su riesgo de equivocarse disminuye. Un buen ejemplo de "hacerlo bien" se mostró en el British Medical Journal (una publicación muy respetada con un factor de impacto de 17+)

Exploración y confirmación de factores asociados con el embarazo no complicado en mujeres nulíparas: estudio de cohorte prospectivo, Chappell et al.

Aquí está el párrafo relevante:

Dividimos el conjunto de datos de 5628 mujeres en tres partes: un conjunto de datos de exploración de dos tercios de las mujeres de Australia y Nueva Zelanda, elegidas al azar (n = 2129); un conjunto de datos de replicación local del tercio restante de mujeres de Australia y Nueva Zelanda (n = 1067); y un conjunto de datos de confirmación externo, geográficamente distinto, de 2432 mujeres europeas del Reino Unido y la República de Irlanda.

Volviendo un poco a la literatura, hay un buen artículo de Altman et al titulado "Pronóstico e investigación pronóstica: validando un modelo pronóstico" que profundiza mucho más y sugiere formas de asegurarse de que no caiga en este error. Los "puntos principales" del artículo:

Los modelos no validados no deben usarse en la práctica clínica. Al validar un modelo de pronóstico, se debe evaluar la calibración y la discriminación. La validación debe realizarse con datos diferentes de los utilizados para desarrollar el modelo, preferiblemente de pacientes en otros centros. Los modelos pueden no funcionar bien en la práctica debido a deficiencias en los métodos de desarrollo o porque la nueva muestra es muy diferente de la original

Tenga en cuenta en particular la sugerencia de que se realice la validación (parafraseo) con datos de otras fuentes , es decir, no es suficiente dividir sus datos arbitrariamente en subconjuntos, pero debe hacer lo que pueda para demostrar que el "aprendizaje" en el conjunto de un conjunto de experimentos se pueden aplicar a datos de un conjunto diferente de experimentos. Esa es una barra más alta, pero reduce aún más el riesgo de que un sesgo sistemático en su configuración cree "resultados" que no se pueden verificar de forma independiente.

Es un tema muy importante. ¡Gracias por hacer la pregunta!

Floris
fuente
77
Esto me viene
Jens
2
@jens: esa es una explicación mucho más elocuente que la que di ... Gracias por ese enlace. Como de costumbre - hacer pasar el ratón sobre el dibujo animado de un poco Zinger.
Floris
Ioannides y el artículo de Lehrer fue el camino que me trajo aquí. Su ejemplo es similar al ejemplo en Simmons et al mencionado por @jona. Es una muy buena manera de explicar la mayor probabilidad de errores de Tipo I, pero ¿hay otras razones por las que es malo?
post-hoc
1
El problema con el dragado de datos en general es que corre el riesgo de confundir "correlación" con "causalidad". Al formular primero una hipótesis razonable y luego confirmar que ayuda a explicar las observaciones, limita el riesgo de confundir las dos. "Big Data" a menudo va en sentido contrario: su modus operandi es "si analizo suficientes datos veré patrones que se mantuvieron verdaderos en el pasado y que continuarán siendo válidos en el futuro". A veces funciona, a veces no. Las estadísticas nunca deberían convertirse en un sustituto del pensamiento y la comprensión, solo una confirmación .
Floris
66
No creo que el problema principal sea la correlación versus la causalidad. Es fácil hacer un mal análisis correlacional solo para descubrir que las asociaciones no se replican.
Frank Harrell
5

La pregunta pregunta si hay otros problemas además de la inflación de error tipo I que vienen con las expediciones de pesca.

0

gung - Restablece a Monica
fuente