Ahora que he rechazado la hipótesis nula, ¿qué sigue?

23

Una y otra vez he rechazado o no he podido rechazar la hipótesis nula. En caso de no rechazar el caso, concluye que no hay pruebas suficientes para el rechazo y "sigue adelante" (es decir, reúne más datos, finaliza el experimento, etc.)

Pero cuando "lo hace" rechaza la hipótesis nula, proporcionando alguna evidencia de la hipótesis alternativa que realmente no puede "probar" que su hipótesis alternativa es cierta.

Entonces, ¿cuáles son los siguientes pasos comunes una vez que rechaza la hipótesis nula? ¿Qué herramientas / técnicas adopta uno para "analizar más el problema" y hacer más concluyentes los resultados? ¿Cuáles son los "próximos pasos" lógicos como estadístico que garantiza un análisis más detallado?

Por ejemplo:

H0 0:μ1=μ0 0

H1:μ1>μ0 0 (digamos que sabemos la dirección esperada)

Una vez que rechazamos la hipótesis nula en algún nivel de importancia, tenemos "alguna evidencia" de que la alternativa es verdadera, pero no podemos sacar esa conclusión. Si realmente quiero sacar esa conclusión de manera concluyente (perdón por el doble juego de palabras), ¿qué debo hacer?

Nunca he reflexionado sobre esta pregunta durante mis días de pregrado, pero ahora que estoy haciendo un buen número de pruebas de hipótesis, no puedo evitar preguntarme qué hay por delante :)

Doctor en Filosofía
fuente
2
Posiblemente de interés: ¿Por qué "estadísticamente significativo" no es suficiente?
gung - Restablece a Monica
3
En términos generales, sus acciones después de su decisión también deben elegirse antes de la prueba (¿de qué otra manera puede sopesar los costos de los dos tipos de errores y elegir un sensible ?). Por lo menos, probablemente pasaría a considerar los tamaños de efecto estimados. El valor nulo no es sostenible (según los criterios que elija , si eso no fuera suficiente para usted, ¿cuál sería?), Entonces, ¿qué valores son plausibles? por ejemplo, en su prueba indicada, ¿qué valores para μ 1 - μ 0 serían razonablemente posibles, dados los datos? αμ1-μ0 0
Glen_b -Reinstale a Monica

Respuestas:

10

En general, puede continuar mejorando su estimación de cualquier parámetro que esté probando con más datos. Detener la recopilación de datos una vez que una prueba alcanza un cierto grado de significación semi-arbitrario es una buena manera de hacer malas inferencias. Que los analistas puedan malinterpretar un resultado significativo como una señal de que el trabajo está hecho es una de las muchas consecuencias no deseadas del marco de Neyman-Pearson, según el cual las personas interpretan los valores de p como una causa para rechazar o no rechazar un valor nulo sin reservas dependiendo de de qué lado del umbral crítico caen.

Sin considerar las alternativas bayesianas al paradigma frecuentista (es de esperar que alguien más lo haga), los intervalos de confianza continúan siendo más informativos más allá del punto en el que se puede rechazar una hipótesis nula básica. Suponiendo que recopilar más datos solo haría que su prueba de significación básica alcance una significación aún mayor (y no revele que su hallazgo anterior de significación fue un falso positivo), puede encontrar esto inútil porque rechazaría el valor nulo de cualquier manera. Sin embargo, en este escenario, su intervalo de confianza alrededor del parámetro en cuestión continuaría disminuyendo, mejorando el grado de confianza con el que puede describir con precisión su población de interés.


μ=0 0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99))α=.05rnorm

set.seed(8);t.test(rnorm(99,1))μ=[.69,1.12]

μ=.8mu=.8

set.seed(8);t.test(rnorm(999,1),mu=.8)μ=0 0μ=.8μ=[.90,1.02]μ=.89

H0 0:μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

Probar hipótesis nulas progresivamente más estrictas, o mejor aún, simplemente enfocarse en reducir sus intervalos de confianza es solo una forma de proceder. Por supuesto, la mayoría de los estudios que rechazan las hipótesis nulas sientan las bases para otros estudios que se basan en la hipótesis alternativa. Por ejemplo, si estaba probando una hipótesis alternativa de que una correlación es mayor que cero, podría probar mediadores o moderadores en un estudio de seguimiento a continuación ... y mientras lo hago, definitivamente me gustaría asegurarme Podría replicar el resultado original.


Otro enfoque a considerar es la prueba de . Si desea concluir que un parámetro está dentro de un cierto rango de valores posibles, no solo diferente de un solo valor, puede especificar ese rango de valores dentro del cual desea que se encuentre el parámetro de acuerdo con su hipótesis alternativa convencional y probarlo frente a un conjunto diferente de hipótesis nulas que juntas representan la posibilidad de que el parámetro se encuentre fuera de ese rango. Esta última posibilidad podría ser más similar a lo que tenía en mente cuando escribió:

Tenemos "alguna evidencia" para que la alternativa sea verdadera, pero no podemos sacar esa conclusión. Si realmente quiero sacar esa conclusión de manera concluyente ...

set.seed(8)rnorm(99)rnorm(99,1)-1μ=.8-.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostμ=[-.27,.09]rnorm(999)μ=[-.09,.01]

Todavía creo que el intervalo de confianza es más interesante que el resultado de la prueba de equivalencia. Representa lo que los datos sugieren que la media de la población es más específica que la hipótesis alternativa, y sugiere que puedo estar razonablemente seguro de que se encuentra dentro de un intervalo aún menor que el que he especificado en la hipótesis alternativa. Para demostrarlo, abusaré de mis poderes poco realistas de simulación una vez más y "replicaré" usando set.seed(7);tost(rnorm(999),epsilon=.09345092): efectivamente, p = .002.

Nick Stauner
fuente
¡Iluminador! ¿Podría mostrar un ejemplo rápido y sucio de la última parte donde habla sobre las pruebas de equivalencia? Sería realmente útil ver a un alto nivel cómo podría ser aplicable.
Doctorado
@PhD: hecho. Sin embargo, creo que es más "rápido y sucio" que "a un alto nivel". Soy nuevo en las pruebas de equivalencia y, como verán, no estoy exactamente vendido.
Nick Stauner
10

Tenga en cuenta primero que @Nick Stauner presenta algunos argumentos muy importantes con respecto a la detención opcional . Si prueba repetidamente los datos a medida que llegan las muestras, se detiene una vez que una prueba es significativa, pero tiene garantizado un resultado significativo. Sin embargo, un resultado garantizado es prácticamente inútil.

A continuación, presentaré mis mejores intentos para elaborar una posición deductivista, escéptica y falsacionista. Ciertamente no es el único, pero creo que es bastante convencional, o al menos uno con un poco de tradición.

Según tengo entendido, Fisher introdujo originalmente pruebas de significación como un primer paso en la exploración de datos: establezca qué factores podrían valer la pena investigar más a fondo. A menos que la hipótesis nula que haya puesto a prueba en realidad fuera la hipótesis crítica de la que dependía su teoría favorita (improbable), en cierto modo, su prueba inicial fue de naturaleza bastante exploratoria. Entre los posibles pasos que siguen a la exploración, veo

  • Exploración adicional
  • Estimación de Parámetros
  • Predicción y Confirmación

La exploración adicional consiste en pruebas de seguimiento en las que intenta inferir si alguna variable sobre la que tiene información es moderada o interactúa con su efecto. Por ejemplo, ¿quizás la edad de los participantes juega un papel? Tenga en cuenta que dichos análisis deben estar claramente etiquetados como exploratorios, o básicamente equivalen a mentiras. Si tropieza con algo, primero requiere confirmación. En general, siempre debe ser claro, tanto en sus pensamientos como en sus escritos, sobre cuándo está trabajando en forma exploratoria y cuando es confirmatorio.

Luego, una vez que haya establecido que no tiene confianza en que el valor de un parámetro sea exactamente cero, una vez que haya decidido que por ahora considerará que el factor bajo prueba tiene alguna influencia, un próximo paso factible podría ser estimar aún más el valor preciso del parámetro . Por ejemplo, por ahora, solo ha excluido un valor, 0 (suponiendo una prueba de dos lados). Sin embargo, sus datos también ponen en duda muchos otros valores posibles.

αα

Hume argumentó que nunca podemos probar inductivamente una afirmación correcta. En general, las hipótesis no triviales son siempre mucho más fáciles de falsificar que de apoyar; ser fácil de falsificar en principio (al no ser trivial, hacer predicciones precisas), pero no ser falsificado hasta ahora es, de hecho, una de las mayores virtudes de una teoría.

Por lo tanto, un CI no lo llevará a probar un valor específico. Sin embargo, reduce el conjunto de candidatos. Tal vez los únicos candidatos que quedan vivos lo ayuden a decidir entre dos teorías, ambas incompatibles con H0. Por ejemplo, tal vez 0 esté excluido, pero la teoría 1 predice un valor alrededor de 5, y la teoría 2 predice un valor alrededor de 15. Si su IC del 95% incluye 5, pero excluye 15, ahora también ha perdido la confianza en la teoría 2, pero la teoría Queda 1 en el juego. Tenga en cuenta que esto es realmente independiente de que su prueba inicial sea significativa, incluso si 0 está entre los valores no rechazados, muchos valores serán rechazados. Quizás para algunos otros investigadores, algunos de estos valores fueron de interés.

Una vez que haya especificado su comprensión del efecto en cuestión, lo ideal sería hacer una predicción más precisa para un experimento confirmatorio de seguimiento que apunte a probar una hipótesis más precisa que pueda derivar de su análisis actual. Es cierto que rechazar su hipótesis nula estadística inicial no fue una prueba tan severa de su hipótesis de investigación original , ¿no? Muchas más explicaciones que la que prefiere no dependen de H0. Además, como nunca estuvo en peligro de aceptar H0, ¡no estaba en posición de falsificar su teoría favorita! Entonces necesitas una prueba más severa. Posiblemente, esto es realmente lo que quieres; no quieres probar tu teoría, quieres someterla a pruebas cada vez más severas, intentando falsificarla. Soportar tales esfuerzos genuinos (pero justos) para refutarlo es lo mejor que puede ofrecer una teoría. Pero para una prueba severa, necesita una teoría más precisa que "0 no es".

Ahora ha aprendido múltiples hechos importantes sobre un estudio confirmatorio; por ejemplo, tiene una idea de la varianza y la magnitud del efecto en cuestión, lo que le permite estimar el tamaño de muestra requerido para un estudio de seguimiento mediante análisis de potencia. También puede predecir un valor específico y asumir una región de equivalencia práctica / CUERDA a su alrededor. Nunca podrá probar que este valor específico es el verdadero valor; sin embargo, si el CI de un experimento de seguimiento cae completamente dentro de su CUERDA, tiene evidencia que corrobora su teoría (y posiblemente trajo problemas a la competencia).

jona
fuente
6

La idea de que no se puede demostrar una proposición científica positiva, pero sólo uno refutar, es un principio de Popper del falsacionismo . Estoy de acuerdo en que no puede probar que un efecto es exactamente igual a cualquier valor de punto dado (cf., mi respuesta aquí: ¿Por qué los estadísticos dicen que un resultado no significativo significa "no puede rechazar el nulo" en lugar de aceptar la hipótesis nula? ) ¿Y qué?

pags-los valores son comúnmente mal entendidos, y las pruebas de hipótesis se utilizan para tareas que lógicamente no pueden cumplir. Por ejemplo, la prueba de hipótesis no debe usarse para generar hipótesis o seleccionar variables. Además, con los datos de observación, esencialmente todas las hipótesis nulas 'nulas' deben ser falsas, por lo que probarlas tiene poco sentido. Sin embargo, los científicos a menudo tienen hipótesis a priori sugeridas por las teorías actuales que quieren probar, y en un experimento verdadero un nulo nulo podría ser cierto, por lo que probarlo es perfectamente razonable. Por lo general, los investigadores tienen alguna razón para sospechar que el valor nulo podría ser falso, por lo que un resultado significativo junto con un experimento sólido es una información válida.

Siempre puede formar intervalos de confianza para obtener una imagen más clara de la precisión de su estimación y continuar recopilando más datos para aumentar su precisión. No obstante, en términos económicos obtendrá rendimientos decrecientes . En algún momento, simplemente no cree que la hipótesis nula proporcione una explicación razonable del fenómeno en estudio. En cuyo caso, ¿por qué te molestas?

Si hay otros en su campo que aún no están convencidos, pero estarían con más (de la misma) información, entonces podría continuar, pero esto parece una situación poco común. Me parece más probable que los escépticos tengan otras preocupaciones sustantivas sobre si esa línea de investigación es suficientemente informativa sobre la pregunta subyacente. Por lo tanto, debe determinar la naturaleza de esas inquietudes y, si cree que merecen el trabajo, busque datos diferentes que aborden de manera más adecuada los problemas en cuestión. Por ejemplo, podría intentar replicar el hallazgo utilizando una medida diferente, en una configuración diferente y / o con diferentes condiciones de control.

Por otro lado, todos (más o menos) pueden estar satisfechos con sus datos y conclusiones (¡felicidades!). En circunstancias tan felices, hay dos direcciones que puede seguir para avanzar en su programa de investigación:

  1. Un enfoque reduccionista trataría de comprender los mecanismos que producen el efecto que ha establecido. En términos estadísticos, a menudo buscaría mediadores y / o un refinamiento del patrón de fuerzas causales que conectan las variables que ha demostrado que están relacionadas.

  2. También podría moverse en la otra dirección buscando integrar sus hallazgos en un patrón más amplio. Este es un tipo de pensamiento de sistemassidoUNAUNA

tl; dr: Si tiene evidencia suficiente para sus propósitos de que el nulo es falso, descubra qué otras preguntas teóricamente motivadas podría intentar responder y seguir adelante.

gung - Restablece a Monica
fuente
0

Una idea que me gustaría agregar es que su pregunta me recuerda a mi yo más joven: quería probar desesperadamente mi hipótesis porque no sabía cómo escribir "la hipótesis estaba equivocada" de una manera que ayudó a mejorar el papel que estaba escribiendo. . Pero luego me di cuenta de que "maldita sea, mi hipótesis absolutamente encantadora no puede ser probada" también tiene valor científico: 1. Piensa en POR QUÉ tu hipótesis no retiene el agua. ¿Es algún problema con los datos, o probablemente algo con la hipótesis misma? 2. ¿Cuáles son las consecuencias para una investigación más antigua?

Como ejemplo: escribí mi tesis de maestría sobre el grupo étnico usando un nuevo conjunto de datos que era más grande que los conjuntos de datos anteriores. Probé varias hipótesis en disputa, como "el conflicto étnico de los combustibles derivados del petróleo" o "las regiones montañosas tienen más probabilidades de experimentar conflictos de experiencia". No pude probar que el petróleo alimenta el conflicto étnico, pero escribí dos páginas sobre cómo la calidad del conjunto de datos sobre el petróleo disponible impactó el análisis (el conjunto de datos en sí es una serie temporal, el conjunto de datos sobre los pozos de petróleo no lo es). La tesis de "las montañas están causando conflictos" también fue un fracaso, pero fructífero: la investigación previa analizó esta tesis con datos a nivel de país (por ejemplo, altura media del país más o menos),

Tenga en cuenta: refutar una hipótesis no es un fracaso, sino un resultado tan bueno como una hipótesis comprobada.

Christian Sauer
fuente
Las hipótesis que menciona no son hipótesis nulas (convencionales). Creo que puede haber perdido el punto del OP.
Nick Stauner
0

Hay un método para combinar las probabilidades entre los estudios descritos aquí . No debe aplicar la fórmula a ciegas sin considerar el patrón de resultados.

David Lane
fuente