Valores p de arranque no paramétricos vs intervalos de confianza

11

Contexto

Esto es algo similar a esta pregunta , pero no creo que sea un duplicado exacto.

Cuando busca instrucciones sobre cómo realizar una prueba de hipótesis de bootstrap, generalmente se indica que está bien usar la distribución empírica para intervalos de confianza, pero que necesita arrancar correctamente desde la distribución bajo la hipótesis nula para obtener una p- valor. Como ejemplo, vea la respuesta aceptada a esta pregunta . Una búsqueda general en Internet parece tener respuestas similares.

La razón para no usar un valor p basado en la distribución empírica es que la mayoría de las veces no tenemos invariancia de traducción.

Ejemplo

Déjame darte un breve ejemplo. Tenemos una moneda y queremos hacer una prueba unilateral para ver si la frecuencia de las caras es mayor que 0.5

Realizamos intentos y obtenemos cabezas. El verdadero valor p para esta prueba sería .n=20k=14p=0.058

Por otro lado, si arrancamos nuestras 14 de 20 cabezas, tomaremos muestras de la distribución binomial con y . Cambiando esta distribución restando 0.2 obtendremos un resultado apenas significativo cuando probamos nuestro valor observado de 0.7 contra la distribución empírica obtenida.n=20p=1420=0.7

En este caso, la discrepancia es muy pequeña, pero aumenta cuando la tasa de éxito con la que probamos se acerca a 1.

Pregunta

Ahora déjenme llegar al punto real de mi pregunta: el mismo defecto también es válido para los intervalos de confianza. De hecho, si un intervalo de confianza tiene el nivel de confianza establecido entonces el intervalo de confianza que no contiene el parámetro bajo la hipótesis nula es equivalente a rechazar la hipótesis nula en un nivel de significancia de .α1α

¿Por qué es que los intervalos de confianza basados ​​en la distribución empírica son ampliamente aceptados y el valor p no?

¿Existe una razón más profunda o las personas simplemente no son tan conservadoras con los intervalos de confianza?

En esta respuesta, Peter Dalgaard da una respuesta que parece estar de acuerdo con mi argumento. Él dice:

No hay nada particularmente malo en esta línea de razonamiento, o al menos no (mucho) peor que el cálculo de CI.

¿De dónde viene el (mucho)? Implica que generar valores p de esa manera es un poco peor, pero no da más detalles.

Pensamientos finales

También en Una Introducción a Bootstrap por Efron y Tibshirani, dedican mucho espacio a los intervalos de confianza, pero no a los valores p, a menos que se generen bajo una distribución de hipótesis nula adecuada, con la excepción de una línea de descarte sobre la equivalencia general de intervalos de confianza y valores p en el capítulo sobre pruebas de permutación.

Volvamos también a la primera pregunta que vinculé. Estoy de acuerdo con la respuesta de Michael Chernick, pero nuevamente argumenta que tanto los intervalos de confianza como los valores p basados ​​en la distribución empírica de arranque son igualmente poco confiables en algunos escenarios. No explica por qué encuentras a muchas personas diciéndote que los intervalos están bien, pero los valores p no lo están.

Erik
fuente
Estoy comenzando una recompensa por esta pregunta, ya que estoy muy interesado en obtener claridad sobre cómo y cuándo se pueden utilizar los CI de arranque para aceptar / rechazar una hipótesis. ¿Quizás podría reformular / reformatear su pregunta para hacerlo más conciso y atractivo? Gracias !
Xavier Bourret Sicotte
Creo que la mayoría de la gente estará de acuerdo en que cuando se aplican los siguientes supuestos, usar el CI para la prueba de hipótesis está bien: distribución simétrica de la estadística de prueba, estadística de prueba fundamental, aplicación de CLT, ninguno o pocos parámetros molestos, etc., pero qué sucede cuando la estadística es raro o no se ha demostrado que sea fundamental. Aquí hay un ejemplo real en el que estoy trabajando: por ejemplo, dos diferencias de muestra entre los percentiles 75 de una estadística de razón (razón de dos sumas)
Xavier Bourret Sicotte
¿No es la respuesta simple solo que está claro cómo muestrear bajo la hipótesis nula, por lo que hay un método alternativo que es claramente mejor? El muestreo bajo el bootstrap generalmente ocurre bajo la distribución empírica, por lo que el verdadero mecanismo de generación de datos, por lo que claramente no debe usarse en lugar de simplemente muestrear bajo el valor nulo. El CI de arranque se encuentra al invertir la distribución de muestreo bajo el verdadero mecanismo de generación de datos. Es cierto que este CI puede no funcionar bien, pero como dijo Dalgaard, no es necesariamente obvio cómo solucionarlo.
jsk
Debo aclarar que la distribución empírica es solo una aproximación del verdadero mecanismo de generación de datos. La medida en que no sea representativa de la verdad tendrá un impacto negativo en el CI de arranque en direcciones desconocidas, lo que conducirá a una cobertura inferior al 95%.
jsk
1
El muestreo bajo nulo es claro cuando la prueba es una diferencia de medias, pero en muchos casos no es obvio cómo reproducir el nulo ... por ejemplo, el nulo es que el percentil 75 de dos proporciones es el mismo ... cómo Cómo cambio los numeradores y denominadores de las proporciones en cada muestra para obtener eso? Además, ¿cómo puedo estar seguro de que el desplazamiento de los componentes de la relación en realidad está reproduciendo el valor nulo?
Xavier Bourret Sicotte

Respuestas:

3

Como @MichaelChernick dijo en respuesta a un comentario sobre su respuesta a una pregunta vinculada :

Hay una correspondencia 1-1 en general entre los intervalos de confianza y las pruebas de hipótesis. Por ejemplo, un intervalo de confianza del 95% para un parámetro del modelo representa la región de no rechazo para la prueba de hipótesis de nivel del 5% correspondiente con respecto al valor de ese parámetro. No hay requisitos sobre la forma de las distribuciones de población. Obviamente, si se aplica a intervalos de confianza en general, se aplicará a intervalos de confianza de arranque.

Por lo tanto, esta respuesta abordará dos problemas asociados: (1) por qué las presentaciones de resultados de arranque parecen ser más frecuentes para especificar intervalos de confianza (IC) en lugar de valores p , como se sugiere en la pregunta, y (2) cuándo podrían ambos valores p y se sospecha que el CI determinado por bootstrap no es confiable, lo que requiere un enfoque alternativo.

No conozco datos que respalden específicamente el reclamo en esta pregunta sobre el primer problema. Quizás en la práctica muchas estimaciones puntuales derivadas de bootstrap están (o al menos parecen estar) tan lejos de los límites de decisión de prueba que hay poco interés en el valor p de la hipótesis nula correspondiente, con un interés primario en la estimación puntual en sí misma y en alguna medida razonable de la magnitud de su probable variabilidad.

Con respecto al segundo tema, muchas aplicaciones prácticas involucran "distribución simétrica de estadística de prueba, estadística de prueba fundamental, aplicación de CLT, ninguno o pocos parámetros molestos, etc." (como en un comentario de @XavierBourretSicotte arriba), para lo cual hay poca dificultad. La pregunta entonces es cómo detectar posibles desviaciones de estas condiciones y cómo tratarlas cuando surjan.

Estas desviaciones potenciales del comportamiento ideal se han apreciado durante décadas, con varios enfoques de arranque de CI desarrollados desde el principio para tratar con ellos. El bootstrap Studentizado ayuda a proporcionar una estadística fundamental , y el método BCa trata tanto el sesgo como la asimetría en términos de obtener un IC más confiable de los bootstraps. La transformación de datos que estabiliza la varianza antes de determinar el CI de arranque, seguido de la transformación inversa a la escala original, también puede ayudar.

El ejemplo en esta pregunta sobre el muestreo de 14 caras de 20 lanzamientos de una moneda justa se maneja muy bien usando CI del método BCa; en R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Las otras estimaciones de IC plantean el problema señalado de estar muy cerca o al borde del valor de la población de 10 cabezas por 20 lanzamientos. El BCa CI explica la asimetría (según lo introducido por el muestreo binomial lejos de las probabilidades pares), por lo que incluyen muy bien el valor de la población de 10.

Pero debe buscar tales desviaciones del comportamiento ideal antes de poder aprovechar estas soluciones. Como en gran parte de la práctica estadística, mirar los datos en lugar de simplemente conectarse a un algoritmo puede ser clave. Por ejemplo, esta pregunta sobre el IC para un resultado de arranque sesgado muestra los resultados para los primeros 3 IC mostrados en el código anterior, pero excluyó el BCa CI. Cuando intenté reproducir el análisis que se muestra en esa pregunta para incluir BCa CI, obtuve el resultado:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

donde 'w' está involucrado en la corrección de sesgo. La estadística que se está examinando tiene un valor máximo fijo y la estimación del complemento que se arrancó también estaba sesgada inherentemente. Obtener un resultado como ese debería indicar que se están violando los supuestos habituales subyacentes al CI de arranque.

Analizar una cantidad fundamental evita tales problemas; A pesar de que una distribución empírica no puede tener estadísticas útiles estrictamente fundamentales, un objetivo importante es acercarse lo más razonablemente posible. Los últimos párrafos de esta respuesta proporcionan enlaces a otras ayudas, como gráficos dinámicos para estimar mediante bootstrap si una estadística (potencialmente después de alguna transformación de datos) es cercana a pivotal, y el doble bootstrap computacionalmente costoso pero potencialmente decisivo.

EdM
fuente
Gracias edm! Si hay una relación 1-1 entre CI y prueba de hipótesis, ¿por qué la prueba de arranque generalmente implica cambiar los conjuntos de datos para reproducir el valor nulo? Al hacer eso, ¿no estamos obteniendo resultados diferentes de los que obtendríamos calculando el IC de la distribución de la diferencia, por ejemplo?
Xavier Bourret Sicotte
@XavierBourretSicotte No creo que sea correcto que "las pruebas de arranque usualmente impliquen cambiar los conjuntos de datos para reproducir el valor nulo". Cada muestra de bootstrap es un intento de replicar el muestreo / experimento original, utilizando la muestra disponible para representar a la población subyacente. Sin embargo, si la estadística en cuestión no es fundamental, el IC desarrollado en las muestras de arranque no representará el CI desarrollado en la población subyacente. Por lo tanto, debe corregir la distribución de la estadística hacia lo que hubiera sido bajo nulo, con BCa u otros enfoques.
EdM