¿Cómo definir una región de rechazo cuando no hay UMP?

13

Considere el modelo de regresión lineal.

y=Xβ+u ,

uN(0,σ2I) ,

E(uX)=0 .

Deje vs .H 1 : σ 2 0σ 2H0:σ02=σ2H1:σ02σ2

Podemos deducir que , donde . Y es la notación típica para la matriz aniquiladora, , donde es la variable dependiente retrocedió en .deltaim(X)=n×kMXMXY= Y Y YXyTMXyσ2χ2(nk)dim(X)=n×kMXMXy=y^y^yX

El libro que estoy leyendo dice lo siguiente: ingrese la descripción de la imagen aquí

Anteriormente pregunté qué criterios deberían usarse para definir una Región de rechazo (RR), ver las respuestas a esta pregunta , y la principal fue elegir el RR que hizo que la prueba fuera lo más potente posible.

En este caso, con la alternativa de ser una hipótesis compuesta bilateral, generalmente no hay una prueba UMP. Además, según la respuesta dada en el libro, los autores no muestran si hicieron un estudio del poder de su RR. Sin embargo, eligieron un RR de dos colas. ¿Por qué es eso, ya que la hipótesis no determina "unilateralmente" el RR?

Editar: Esta imagen está en el manual de soluciones de este libro como la solución para el ejercicio 4.14.

Un anciano en el mar.
fuente
Por favor agregue una referencia al libro. Relacionado: valor P en una prueba de dos colas con distribución nula asimétrica .
Scortchi - Restablece a Monica
@Scortchi gracias por el enlace. ¿Puedo hacerte una pregunta sobre esta pregunta? ¿Te parece interesante? Estoy tratando de evaluar si estoy haciendo preguntas interesantes, o si debo dirigir mis intereses hacia otras áreas ...
Un anciano en el mar.
No todos encuentran la teoría interesante, por supuesto, pero algunas personas sí (incluyéndome a mí) y hemos etiquetado casi 2k qsmathematical-statistics . Entonces, una multa q. OMI Es un poco amplio, pero creo que una buena respuesta examinaría varios enfoques y consideraciones, y un ejemplo motivador ayuda mucho. (Sin embargo, habría elegido un ejemplo lo más simple posible: pruebas sobre la varianza de una distribución normal con media conocida o la media de una distribución exponencial). .]
Scortchi - Restablece a Monica
@Scortchi gracias por sus comentarios. A veces no estoy seguro si estructuro bien la pregunta, ya que estoy estudiando esto.
Un viejo en el mar.
2
Deberías definirMX
Taylor

Respuestas:

7

Es más fácil trabajar primero en el caso en que se conocen los coeficientes de regresión y, por lo tanto, la hipótesis nula es simple. Entonces la estadística suficiente es , donde es el residual; su distribución bajo nulo también es un chi-cuadrado escalado por y con grados de libertad iguales al tamaño de muestra . z σ 2 0 nT=z2zσ02n

Escriba la razón de las probabilidades bajo & y confirme que es una función creciente de para cualquier : σ = σ 2 T σ 2 > σ 1σ=σ1σ=σ2Tσ2>σ1

La función de razón de probabilidad de registro es , y directamente proporcional a con gradiente positivo cuando .

(σ2;T,n)(σ1;T,n)=n2[log(σ12σ22)+Tn(1σ121σ22)]
Tσ2>σ1

Entonces, según el teorema de Karlin-Rubin, cada una de las pruebas de una cola vs & vs es uniformemente más poderoso. Claramente no hay una prueba UMP de vs . Como se discutió aquí , llevar a cabo ambas pruebas de una cola y aplicar una corrección de comparaciones múltiples conduce a la prueba de uso común con regiones de rechazo de igual tamaño en ambas colas, y es bastante razonable cuando va a reclamar que o that cuando rechaza el valor nulo.H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σ<σ0H0:σ=σ0HA:σσ0σ>σ0σ<σ0

Luego encuentre la razón de las probabilidades bajo , la estimación de máxima verosimilitud de , & :σ=σ^σσ=σ0

Como , el estadístico de prueba de razón de probabilidad logarítmica esσ^2=Tn

(σ^;T,n)(σ0;T,n)=n2[log(nσ02T)+Tnσ021]

Esta es una buena estadística para cuantificar cuánto admiten los datos sobre . Y los intervalos de confianza formados por la inversión de la prueba de razón de probabilidad tienen la propiedad atractiva de que todos los valores de parámetros dentro del intervalo tienen una probabilidad más alta que los de afuera. La distribución asintótica del doble de la relación log-verosimilitud es bien conocida, pero para una prueba exacta, no necesita tratar de calcular su distribución, solo use las probabilidades de cola de los valores correspondientes de en cada cola.HA:σσ0H0:σ=σ0T

Si no puede tener una prueba uniformemente más poderosa, es posible que desee una que sea más poderosa contra las alternativas más cercanas a la nula. Encuentre la derivada de la función log-verosimilitud con respecto a , la función de puntuación:σ

d(σ;T,n)dσ=Tσ3nσ

La evaluación de su magnitud en proporciona una prueba localmente más poderosa de vs . Debido a que el estadístico de prueba está delimitado a continuación, con muestras pequeñas, la región de rechazo puede limitarse a la cola superior. Nuevamente, la distribución asintótica de la puntuación al cuadrado es bien conocida, pero puede obtener una prueba exacta de la misma manera que para el LRT.σ0H0:σ=σ0HA:σσ0

Otro enfoque es restringir su atención a las pruebas imparciales, es decir, aquellas para las cuales el poder bajo cualquier alternativa excede el tamaño. Verifique que su estadística suficiente tenga una distribución en la familia exponencial; luego, para una prueba de tamaño , si o , de lo contrario , puede encontrar la prueba imparcial más potente y uniforme resolviendo αϕ(T)=1T<c1T>c2ϕ(T)=0

E(ϕ(T))=αE(Tϕ(T))=αET

Una gráfica ayuda a mostrar el sesgo en la prueba de áreas de cola iguales y cómo surge:

Trazado de poder de la prueba contra alternativas

A valores de un poco por encima de la probabilidad aumentada de que las estadísticas de prueba 'caigan en el rechazo de rechazo de la cola superior no compensa la probabilidad reducida de que caiga en la región de rechazo de la cola inferior y el poder del la prueba cae por debajo de su tamaño.σσ0

Ser imparcial es bueno; pero no es evidente que tener una potencia ligeramente inferior al tamaño en una pequeña región del espacio de parámetros dentro de la alternativa sea tan malo como para descartar por completo una prueba.

Dos de las pruebas de dos colas anteriores coinciden (para este caso, no en general):

El LRT es UMP entre las pruebas imparciales. En los casos en que esto no sea cierto, el LRT puede ser asintóticamente imparcial.

Creo que todas, incluso las pruebas de una cola, son admisibles, es decir, no hay una prueba más poderosa o tan poderosa en todas las alternativas: puede hacer que la prueba sea más poderosa contra las alternativas en una dirección solo haciéndola menos poderosa contra las alternativas en la otra dirección. A medida que aumenta el tamaño de la muestra, la distribución de chi-cuadrado se vuelve más y más simétrica, y todas las pruebas de dos colas terminarán siendo muy parecidas (otra razón para usar la prueba fácil de colas iguales).

Con la hipótesis nula compuesta, los argumentos se vuelven un poco más complicados, pero creo que puedes obtener prácticamente los mismos resultados, mutatis mutandis. Tenga en cuenta que una, pero no la otra, de las pruebas de una cola es UMP.

Scortchi - Restablece a Monica
fuente
Scortchi gracias por tu respuesta. Sin embargo, todavía tengo algunas dudas. En primer lugar, ¿podría elaborar un poco más sobre la siguiente oración? «La aplicación de una corrección de comparaciones múltiples conduce a la prueba de uso común con regiones de rechazo de igual tamaño en ambas colas, y es bastante razonable cuando va a reclamar que σ> σ0 o que σ <σ0 cuando rechaza el valor nulo». Además, ¿por qué dices que es razonable? Creo que este es el núcleo de mi pregunta si no me equivoco. ;)
Un anciano en el mar.
Leí este párrafo de su respuesta vinculada, pero no lo entendí bien. «Duplicar el valor p más bajo de una cola puede verse como una corrección de comparaciones múltiples para llevar a cabo dos pruebas de una cola». Le agradecería si pudiera explicarlo un poco más. ;)
Un anciano en el mar.
Ver corrección de Bonferroni . Si lleva a cabo dos pruebas de tamaño separadas, el error familiar de Tipo I no es más que , y cuando las regiones de rechazo son disjuntas, es exactamente . Quería señalar que la prueba de áreas de igual cola se puede ver de esta manera porque a veces las personas parecen pensar que las únicas razones para usarla son la facilidad de cálculo y aproximación a las otras pruebas. De hecho, cada prueba tiene su propia lógica: por lo que no diría que este fue el núcleo de su pregunta; Es una cuestión de caballos para los cursos. α αα/2αα
Scortchi - Restablece a Monica
1

En este caso, con la alternativa de ser una hipótesis compuesta bilateral, generalmente no hay una prueba UMP.

No estoy seguro de si eso es cierto en general. Ciertamente, muchos de los resultados clásicos (Neymon-Pearson, Karlin-Rubin) se basan en hipótesis simples o unilaterales, pero existen generalizaciones a la hipótesis compuesta de dos lados. Puede encontrar algunas notas sobre eso aquí , y más discusión en el libro de texto aquí .

Para su problema específicamente, no sé si existe una prueba UMP o no. Pero intuitivamente, parece ser que bajo una pérdida de 0-1, una prueba unilateral probablemente sea inadmisible y, por lo tanto, la clase de prueba admisible serán todas las pruebas de dos lados. Da la clase de pruebas de dos lados, el objetivo es encontrar el que tenga la mayor potencia, lo que debería suceder automáticamente al elegir cuantiles alrededor del modo único de . (Todo esto se basa en la intuición).χ2

Greenparker
fuente
3
Claramente, no hay una prueba uniformemente más poderosa en este caso debido a la existencia de diferentes pruebas más poderosas contra alternativas particulares en diferentes direcciones desde . Para una "mejor" prueba definida en términos de poder, tendría que buscar la prueba uniformemente más poderosa de todas las pruebas imparciales , o de todas las pruebas invariantes ; o para una prueba localmente más poderosa; o algo así, y tal vez terminen por conformarse con cualquier prueba admisible. σ0
Scortchi - Restablece a Monica