Imagine que un investigador está explorando un conjunto de datos y ejecuta 1000 regresiones diferentes y encuentra una relación interesante entre ellos.
Ahora imagine que otro investigador con los mismos datos ejecuta solo 1 regresión, y resulta que es el mismo que el otro investigador tomó 1000 regresiones para encontrar. El investigador 2 no conoce al investigador 1.
¿Debería el investigador 1 hacer inferencias diferentes que el investigador 2? ¿Por qué? Por ejemplo, ¿debería el investigador 1 realizar correcciones de comparaciones múltiples, pero el investigador 2 no debería?
Si el investigador 2 le mostrara primero su regresión única, ¿qué inferencias haría? Si después de eso el investigador 1 le mostró sus resultados, ¿debería cambiar su inferencia? Si es así, ¿por qué debería importar?
PD 1 : si hablar de investigadores hipotéticos hace que el problema sea abstracto, piense en esto: imagine que ejecutó solo una regresión para su trabajo, utilizando el mejor método disponible. Luego, otro investigador exploró 1000 regresiones diferentes con los mismos datos, hasta que encontró exactamente la misma regresión que usted ejecutó . ¿Deberían ustedes dos hacer inferencias diferentes? ¿La evidencia es la misma para ambos casos o no? ¿Debería cambiar su inferencia si conociera los resultados del otro investigador? ¿Cómo debe evaluar el público la evidencia de los dos estudios?
PD 2: por favor, trate de ser específico y de proporcionar una justificación matemática / teórica, si es posible.
fuente
Respuestas:
Aquí está mi inclinación "bayesiana" sobre su pregunta. Creo que ha descrito una situación en la que dos personas con información previa diferente deberían obtener una respuesta / conclusión diferente cuando se les da el mismo conjunto de datos. Un ejemplo más contundente / extremo es suponer que tenemos un "investigador 1b" que simplemente adivina los parámetros del modelo de regresión y las conclusiones de cualquier hipótesis. Ejecutar regresiones no está conceptualmente demasiado lejos de adivinar.1000
Lo que creo que está sucediendo ... ¿qué aprendemos sobre la información previa de los investigadores de la pregunta anterior? - el investigador 1 probablemente tiene un previo plano para los modelos - el investigador 2 tiene un previo agudo para el modelo de interés (suponga que es el modelo que ambos encajan)PAG( MkEl | yo1) = 11000 PAG( M1El | yo2) = 1 METRO1
Obviamente, esto es una simplificación, pero como puede ver aquí, ya ponemos mucho más peso en las inferencias del investigador 2 sin ningún dato. Pero verán, una vez que ambos tengan en cuenta los datos, la probabilidad posterior del investigador 1 para aumentará ... (... sabemos esto porque fue "mejor "que otros otros modelos ...). La parte posterior del investigador 2 ya no puede concentrarse, ya es igual a . Lo que no sabemos es cuánto soportaron los datos sobre las alternativas. Lo que tampoco sabemos es cómo los diferentes modelos alteran las conclusiones sustantivas del investigador 1. Por ejemplo, supongamos que todos los P ( M 1 | D I ) > > P (METRO1 PAG( M1El | DI) > > P( M1El | yo) 999 1 M1 1000 los modelos contienen un término común, y los parámetros de regresión para esa variable son significativamente mayores que (por ejemplo para todos los modelos). Entonces no hay ningún problema para concluir un efecto significativamente positivo, a pesar de que muchos modelos estaban en forma.1000 0 p−value<10−8
Tampoco dices qué tan grande es el conjunto de datos, ¡y esto es importante! Si está hablando de un conjunto de datos con observaciones y covariables / predictores / variables independientes, entonces el investigador 1 probablemente todavía no esté seguro del modelo. Sin embargo, si el investigador 1 está usando observaciones, esto puede determinar de manera concluyente el modelo.10 2 , 000 , 000100 10 2,000,000
No hay nada fundamentalmente malo con dos personas que comienzan con información diferente y continúan teniendo conclusiones diferentes después de ver los mismos datos. Sin embargo ... ver los mismos datos los acercará, siempre que sus "espacios modelo" se superpongan y los datos admitan esta "región superpuesta".
fuente
La interpretación estadística es mucho menos clara que, lo que está pidiendo, el tratamiento matemático.
Las matemáticas son sobre problemas claramente definidos. Por ejemplo, tirar un dado perfecto o sacar bolas de una urna.
La estadística es matemática aplicada donde la matemática proporciona una guía pero no es la solución (exacta).
En este caso, es obvio que las circunstancias juegan un papel importante. Si realizamos una regresión y luego calculamos (matemáticas) algún valor p para expresar la fuerza, ¿cuál es la interpretación (estadística) y el valor del valor p?
En el caso de las 1000 regresiones realizadas por el investigador 1, el resultado es mucho más débil, ya que este tipo de situación ocurre cuando realmente no tenemos ni idea y solo estamos explorando los datos. El valor p es solo una indicación de que puede haber algo.
Entonces, el valor p obviamente es menos valioso en la regresión realizada por el investigador 1. Y si el investigador 1 o alguien que usa los resultados del investigador 1 quisiera hacer algo con la regresión, entonces el valor p debe corregirse. (y si pensabas que la diferencia entre el investigador 1 y el investigador 2 no era suficiente, solo piensa en la multitud de formas en que el investigador 1 puede corregir el valor p para comparaciones múltiples)
En el caso de la regresión única realizada por el investigador 2, el resultado es una evidencia mucho más sólida. Pero eso se debe a que la regresión no se sostiene por sí sola. Tenemos que incluir las razones por las cuales el investigador 2 realizó una sola regresión. Esto podría deberse a que tenía buenas razones (adicionales) para creer que la regresión única es un buen modelo para los datos.
La configuración de las regresiones realizadas por los investigadores 1 y 2 es muy diferente, y no es frecuente que encuentre ambas al mismo tiempo para el mismo problema. Si este es el caso, entonces
el investigador 2 tuvo mucha suerte
Esto no es tan infrecuente, y debemos corregirlo mejor al interpretar la literatura, así como también debemos mejorar la publicación de la imagen total de la investigación. Si hay mil investigadores como el investigador 2, y solo veremos a uno de ellos publicar un éxito, entonces debido a que no vimos las fallas de los otros 999 investigadores, podríamos creer erróneamente que no tuvimos un caso como el investigador 1
El investigador 1 no era tan inteligente e hizo una búsqueda increíblemente superflua de alguna regresión, aunque podría haber sabido desde el principio que debería haber sido esa sola, y podría haber realizado una prueba más fuerte.
Para los extraños que son más inteligentes que el investigador 1 (no se preocupan por las 999 regresiones adicionales desde el principio) y leen sobre el trabajo, podrían dar más fuerza a la importancia de los resultados, sin embargo, aún no son tan fuertes como lo haría para el Resultado del investigador 2.
Si bien el investigador 1 puede haber sido demasiado conservador al corregir 999 regresiones adicionales superfluas, no podemos ignorar el hecho de que la investigación se realizó en un vacío de conocimiento y es mucho más probable encontrar un investigador afortunado del tipo 1 que el tipo 2)
Una historia relacionada interesante: en astronomía, cuando planeaban un mejor instrumento para medir el fondo cósmico con mayor precisión, hubo investigadores que argumentaron que solo publicaban la mitad de los datos. Esto se debe a que solo hay una oportunidad para recopilar datos. Una vez que todas las regresiones han sido realizadas por docenas de diferentes investigadores (y debido a la increíble variación y creatividad del teórico, ciertamente hay algo que se ajusta a cada posible, aleatorio, aumento en los datos), no hay posibilidad de realizar un nuevo experimento para verificar (es decir, a menos que pueda generar un universo completamente nuevo).
fuente
Breve historia: no tenemos suficiente información para responder a su pregunta porque no sabemos nada sobre los métodos utilizados o los datos recopilados.
Respuesta larga ... La verdadera pregunta aquí es si cada investigador está haciendo:
Sus métodos determinarán la fuerza de la interpretación de sus resultados. Esto se debe a que algunos métodos son menos sólidos que otros.
En ciencia rigurosa desarrollamos una hipótesis, identificamos variables de confusión, desarrollamos controles para variables fuera de nuestra hipótesis, planificamos métodos de prueba, planificamos nuestra metodología analítica, realizamos pruebas / recolectamos datos y luego analizamos datos. (Tenga en cuenta que los métodos analíticos se planifican antes de que se realice la prueba). Este es el más riguroso porque debemos aceptar datos y análisis que no concuerden con la hipótesis. No es aceptable cambiar los métodos después del hecho para obtener algo interesante. Cualquier hipótesis nueva de los resultados tiene que pasar por el mismo proceso nuevamente.
En pseudociencia, a menudo tomamos datos que ya se han recopilado. Esto es más difícil de usar éticamente porque es más fácil agregar sesgos a los resultados. Sin embargo, todavía es posible seguir el método científico para analistas éticos. Sin embargo, puede ser difícil establecer controles adecuados y eso debe investigarse y anotarse.
La exploración de datos no se basa en la ciencia. No hay hipótesis específica. No existe una evaluación a priori de los factores de confusión. Además, es difícil regresar y volver a hacer el análisis utilizando los mismos datos, porque los resultados pueden estar contaminados por el conocimiento previo o el modelado y no hay datos nuevos para usar para la validación. Se recomienda un experimento científico riguroso para aclarar las posibles relaciones encontradas en el análisis exploratorio.
El dragado de datos o la piratería P es donde un "analista" realiza múltiples pruebas esperando una respuesta inesperada o desconocida o manipula los datos para obtener un resultado. Los resultados pueden ser una simple coincidencia, pueden ser el resultado de variables de confusión o pueden no tener un tamaño o poder de efecto significativo.
Hay algunos remedios para cada problema, pero esos remedios deben evaluarse cuidadosamente.
fuente