Dejando de lado el problema obvio de la baja potencia del chi-cuadrado en este tipo de circunstancias, imagine hacer una prueba de bondad de chi-cuadrado para alguna densidad con parámetros no especificados, agrupando los datos.
Para concreción, digamos una distribución exponencial con media desconocida y un tamaño de muestra de digamos 100.
Para obtener un número razonable de observaciones esperadas por bin, sería necesario tener en cuenta los datos (por ejemplo, si optamos por colocar 6 bins por debajo de la media y 4 por encima de eso, seguiría utilizando límites de bin basados en datos) .
Pero este uso de contenedores basados en ver los datos probablemente afectaría la distribución del estadístico de prueba bajo nulo.
He visto mucha discusión sobre el hecho de que, si los parámetros se estiman con la máxima probabilidad a partir de los datos agrupados , pierde 1 df por parámetro estimado (un problema que se remonta a Fisher vs Karl Pearson), pero no recuerdo leer cualquier cosa sobre encontrar los límites del contenedor en función de los datos. (Si los estima a partir de los datos no enlazados, entonces con bins la distribución de la estadística de prueba se encuentra en algún lugar entre a y a .) χ 2 k - p
¿Esta elección de contenedores basada en datos impacta sustancialmente el nivel de significación o el poder? ¿Hay algunos enfoques que importan más que otros? Si hay mucho efecto, ¿es algo que desaparece en muestras grandes?
Si tiene un impacto sustancial, parece que el uso de una prueba de ji cuadrado cuando los parámetros son desconocidos es casi inútil en muchos casos (a pesar de que todavía se recomienda en bastantes textos), a menos que haya tenido un buen -precio previo del parámetro.
Sería útil discutir los temas o los indicadores de las referencias (preferiblemente con una mención de sus conclusiones).
Editar, más o menos a un lado de la pregunta principal:
Se me ocurre que hay soluciones potenciales para el caso específico de la exponencial * (y el uniforme viene a pensar en ello), pero todavía estoy interesado en el tema más general del impacto de la elección de los límites del contenedor.
* Por ejemplo, para el exponencial, uno podría usar la observación más pequeña (digamos que es igual a ) para tener una idea muy aproximada de dónde colocar los contenedores (ya que la observación más pequeña es exponencial con media ), y luego pruebe las diferencias restantes ( ) para exponencialidad. Por supuesto, eso podría producir una estimación muy pobre de , y por lo tanto, malas elecciones de bin, aunque supongo que uno podría usar el argumento de forma recursiva para tomar las dos o tres observaciones más bajas de las cuales elegir bins razonables y luego probar las diferencias de las observaciones restantes sobre la mayor de esas estadísticas de menor orden para exponencialidad)μ / n n - 1 x i - m μ
fuente
Respuestas:
Los resultados básicos de las pruebas de bondad de ajuste de chi-cuadrado se pueden entender jerárquicamente .
Nivel 0 . El estadístico clásico de la prueba de chi-cuadrado de Pearson para analizar una muestra multinomial contra un vector de probabilidad fija es X 2 ( p ) = k ∑ i = 1 ( X ( n ) i - n p i ) 2pag
donde X
Algunos ejemplos son la estadística Rao – Robson – Nikulin y la estadística Dzhaparidze – Nikulin .
Referencias
A W. van der Vaart (1998), Estadísticas asintóticas , Cambridge University Press. Capítulo 17 : Pruebas de chi-cuadrado .
FC Drost (1989), Pruebas generalizadas de bondad de ajuste de chi-cuadrado para modelos de escala de ubicación cuando el número de clases tiende al infinito , Ann. Stat , vol. 17, no. 3, 1285–1300.
MS Nikulin, MS (1973), prueba de Chi-cuadrado para distribución continua con parámetros de cambio y escala , Teoría de la probabilidad y su aplicación , vol. 19, no. 3, 559-568.
KO Dzaparidze y MS Nikulin (1973), Sobre una modificación de las estadísticas estándar de Pearson , Theory of Probability and its Application , vol. 19, no. 4, 851–853.
KC Rao y DS Robson (1974), una estadística de chi-cuadrado para las pruebas de bondad de ajuste dentro de la familia exponencial , Comm. Estadístico. , vol 3., no. 12, 1139-1153.
N. Balakrishnan, V. Voinov y MS Nikulin (2013), Chi-Squared Bonness of Fit Tests With Applications , Academic Press.
fuente
He encontrado al menos respuestas parciales a mi pregunta, a continuación. (Todavía me gustaría darle a alguien ese bono, por lo que agradecería cualquier información adicional).
Moore (1971) dijo que Roy (1956) y Watson (1957, 58, 59) demostraron que cuando los límites celulares para una estadística de chi-cuadrado son funciones de los mejores valores de parámetros estimados normales asintóticos, entonces, bajo ciertas condiciones, la distribución nula asintótica de la estadística de chi-cuadrado sigue siendo la suma de aχ2k - p - 1 pag χ21 k pag χ2k - p χ2k pag
Referencias
Moore DS (1971), Una estadística de chi-cuadrado con límites de celdas aleatorias , Ann. Matemáticas. Stat. , Vol. 42, Núm. 1, 147-156.
fuente