¿Por qué una prueba de razón de verosimilitud se distribuye chi-cuadrado?

34

¿Por qué el estadístico de prueba de una prueba de razón de verosimilitud se distribuye chi-cuadrado?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Dr. Beeblebrox
fuente
3
¿Esto ayuda ?
Nick Sabbe
14
Gracias por la referencia Aquí hay uno de mí: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
55
Observe el "Traiga su sentido del humor" allí. No tenía la intención de ser grosero, pero la respuesta a esta pregunta sería relativamente tediosa y consistiría, básicamente, en el contenido de ese artículo (o en algunos de los mejores libros de texto de estadísticas). Si declara su problema preciso con la explicación en uno de estos, con gusto lo ayudaré.
Nick Sabbe
2
Enlace directo al documento original de Wilks sin paywall.
Ayorgo

Respuestas:

23

Como mencionó @Nick, esto es una consecuencia del teorema de Wilks . Pero tenga en cuenta que el estadístico de prueba es asintóticamente -distribuido, no -distribuido.χ2χ2

Estoy muy impresionado por este teorema porque se mantiene en un contexto muy amplio. Considere un modelo estadístico con probabilidad donde es el vector de observaciones de observaciones replicadas independientes de una distribución con parámetro pertenece a un de con dimensión . Deje ser un submanifold con dimensión . Imagine que está interesado en probar .y n θ B 1 R d dim ( B 1 ) = s B 0B 1 dim ( B 0 ) = m H 0 : { θ B 0 }l(θy)ynθB1Rddim(B1)=sB0B1dim(B0)=mH0:{θB0}

La razón de probabilidad es Defina la desviación . Luego de Wilks teorema dice que, bajo supuestos usuales de regularidad, es asintóticamente -distribuidos con grados de libertad a la hora es válido.

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Está comprobado en el artículo original de Wilk mencionado por @Nick. Creo que este documento no es fácil de leer. Wilks publicó un libro más tarde, quizás con una presentación más fácil de su teorema. Una breve prueba heurística se da en el excelente libro de Williams .

Stéphane Laurent
fuente
3
Es triste que este teorema no se mencione en la página de Wikipedia dedicada a Samuel S. Wilks
Stéphane Laurent
55
Oh vamos Stephane. ¡Esto es Wikipedia, puedes editarlo y mejorarlo!
StasK
1
@StasK Lo sé pero nunca lo he intentado. Y ya paso demasiado tiempo de mi vida con estadísticas y matemáticas;)
Stéphane Laurent
¿Existe una intuición de por qué el 2 está delante del registro en la definición de la desviación?
user56834
@ Programmer2134 Se deriva de una expansión taylor de segundo orden.
Frank Vel
25

Respaldo el duro comentario de Nick Sabbe, y mi respuesta corta es: No lo es . Quiero decir, solo está en el modelo lineal normal. Para absolutamente cualquier otro tipo de circunstancias, la distribución exacta no es un . En muchas situaciones, puede esperar que se cumplan las condiciones del teorema de Wilks, y luego asintóticamente las estadísticas de prueba de relación de probabilidad logarítmica convergen en distribución a . Las limitaciones y violaciones de las condiciones del teorema de Wilks son demasiado numerosas para ignorarlas.χ2χ2

  1. El teorema supone que los datos iid esperan problemas con los datos dependientes, como series de tiempo o muestras de encuestas de probabilidad desigual (para las cuales las probabilidades están mal definidas, de todos modos; las pruebas "regulares" , como las pruebas de independencia en tablas de contingencia , comience a comportarse como una suma ( Rao & Scott ). Para los datos de iid, , y la suma se convierte en Pero para no independientes de datos, este ya no es el caso.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. El teorema supone que el parámetro verdadero está en el interior del espacio de parámetros. Si tiene un espacio euclídeo para trabajar, eso no es un problema. Sin embargo, en algunos problemas, pueden surgir restricciones naturales, como la varianza 0 o la correlación entre -1 y 1. Si el parámetro verdadero es uno de los límites, entonces la distribución asintótica es una mezcla de con diferentes grados de libertad, en el sentido de que el cdf de la prueba es la suma de dichos cdfs ( Andrews 2001 , más dos o tres de sus documentos del mismo período, con una historia que se remonta a Chernoff 1954 ).χ2
  3. El teorema supone que todas las derivadas relevantes no son cero. Esto puede ser cuestionado con algunos problemas y / o parametrizaciones no lineales, y / o situaciones en las que un parámetro no se identifica bajo nulo. Suponga que tiene un modelo de mezcla gaussiana, y su nulo es un componente frente a la alternativa de dos componentes distintos con una fracción de mezcla . El nulo aparentemente está anidado en la alternativa, pero esto puede expresarse de varias maneras: como (en cuyo caso los parámetros no están identificados), (en cuyo casoN(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)ff=0μ1,σ12f=1μ2,σ22no se identifican), o (en cuyo caso no se identifica). Aquí, ni siquiera puede decir cuántos grados de libertad debería tener su prueba, ya que tiene diferentes restricciones dependiendo de cómo parametrice el anidamiento. Vea el trabajo de Jiahua Chen sobre esto, por ejemplo, CJS 2001 .μ1=μ2,σ1=σ2f
  4. El puede funcionar bien si la distribución se ha especificado correctamente. Pero si no fuera así, la prueba se descompondrá nuevamente. En la subárea (en gran parte descuidada por los estadísticos) del análisis multivariado conocido como modelado de covarianza de ecuaciones estructurales, a menudo se supone una distribución normal multivariada, pero incluso si la estructura es correcta, la prueba se comportará mal si la distribución es diferente. Satorra y Bentler 1995 muestran que la distribución se convertirá en , la misma historia que con datos no independientes en mi punto 1, pero también han demostrado cómo s dependen de la estructura del modelo y los cuartos momentos de la distribución.χ2kakvk,vki.i.d.χ12ak
  5. Para muestras finitas, en una gran clase de situaciones, la razón de probabilidad es corregible para Bartlett : mientras que para una muestra de tamaño , y es la función de distribución de la distribución , para los problemas de probabilidad regular puede encontrar una constante tal que , es decir, a un orden superior de exactitud. Por lo tanto, la aproximación para muestras finitas puede mejorarse (y podría decirse que debería mejorarse si sabe cómo hacerlo). La constanteProb[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b depende de la estructura del modelo y, a veces, de los parámetros auxiliares, pero si puede estimarse de manera consistente, eso también funciona para mejorar el orden de cobertura.

Para una revisión de estos y otros problemas esotéricos similares en la inferencia de probabilidad, ver Smith 1989 .

Stask
fuente
1
¡Gracias! Muy instructivo ¿Qué quiere decir con "solo está en el modelo lineal normal" ? Para una prueba de Fisher cuando y son subespacios lineales, la desviación es una función monótona del estadístico de Fisher y solo es asintóticamente . B0B1 χ2
Stéphane Laurent
Con una varianza conocida, debo agregar.
StasK