¿Por qué las pruebas de chi-cuadrado usan el recuento esperado como la varianza?

En las pruebas , ¿cuál es la base para usar la raíz cuadrada de los recuentos esperados como las desviaciones estándar (es decir, los recuentos esperados como las variaciones) de cada una de las distribuciones normales? Lo único que pude encontrar discutiendo esto es http://www.physics.csbsju.edu/stats/chi-square.html , y solo menciona las distribuciones de Poisson. $\chi^2$

Como una simple ilustración de mi confusión, ¿qué pasaría si estuviéramos probando si dos procesos son significativamente diferentes, uno que genera 500 As y 500 Bs con una variación muy pequeña, y el otro que genera 550 As y 450 Bs con una variación muy pequeña (rara vez genera 551 As y 449 Bs)? ¿No es la varianza aquí claramente no simplemente el valor esperado?

(No soy un estadístico, así que realmente estoy buscando una respuesta que sea accesible para el no especialista).

hypothesis-testing chi-squared Yang
fuente

Esto probablemente tenga algo que ver con el hecho de que la varianza de una variable aleatoria es y también con el hecho de que la estadística debe multiplicarse por 2 para tener la distribución correcta (como en el prueba de razón de probabilidad). Quizás alguien sepa sobre esto más formalmente.

χ_{k}^{2}

$\chi^{2}_{k}$

2 k

$2k$

Macro

Respuestas:

La forma general de muchas estadísticas de prueba es

$\frac{observed - expected}{standard error}$

En el caso de una variable normal, el error estándar se basa en la varianza de la población conocida (estadísticas z) o en la estimación de la muestra (estadísticas t). Con el binomio, el error estándar se basa en la proporción (proporción hipotética para las pruebas).

En una tabla de contingencia, puede considerarse que el conteo en cada celda proviene de una distribución de Poisson con una media igual al valor esperado (debajo del valor nulo). La varianza para la distribución de Poisson es igual a la media, por lo que también utilizamos el valor esperado para el cálculo del error estándar. He visto una estadística que usa lo observado en su lugar, pero tiene menos justificación teórica y no converge tan bien con la . $\chi^2$

Greg Snow
fuente

Me estoy estancando en la conexión con el Poisson / entiendo por qué cada celda puede considerarse como proveniente de un Poisson. Sé la media / varianza de Poissons, y sé que representan la cantidad de eventos dada una tasa. También sé que las distribuciones de chi-cuadrado representan la suma de cuadrados de las normales estándar (varianza 1). Solo estoy tratando de entender la justificación de reutilizar el valor esperado como una suposición de la "propagación" de cada una de las normales. ¿Es esto solo para hacer que todo se ajuste a la distribución chi-cuadrado / a "estandarizar" las normales?

Yang

Hay un par de problemas, la distribución de Poisson es común para los recuentos cuando las cosas son bastante independientes. En lugar de pensar que la tabla tiene un total fijo y está distribuyendo los valores entre las celdas de la tabla, piense solo en una celda de la tabla y espere un tiempo fijo para ver cuántas respuestas caen en esa celda , esto encaja con la idea general del Poisson. Para medios grandes, puede aproximar un Poisson con una distribución normal, por lo que el estadístico de prueba tiene sentido como una aproximación normal al Poisson, luego convertir a .

χ^{2}

$\chi^2$

Greg Snow

(+1) Suponga que los recuentos de celdas

eran variables aleatorias de Poisson independientes con media

. Entonces, ciertamente,

X_{i}, \dots, X_{k}

$X_i,\ldots,X_k$

n π_{i}

$n\pi_i$

en distribución. Pero, el problema con esto es que

es unparámetroy no los conteos reales observados. Los recuentos totales observados son

. Aunque

casi seguro por el SLLN, hay que trabajar un poco más para convertir la heurística en algo viable.

\sum_{i = 1}^{k} \frac{(X_{i} - n π_{i})^{2}}{n π_{i}} \to χ_{k}^{2}

$\sum_{i=1}^k \frac{(X_i - n\pi_i)^2}{n \pi_i} \to \chi_k^2$

n

$n$

N = \sum_{i = 1}^{k} X_{i} \sim P o i (n)

$N = \sum_{i=1}^k X_i \sim \mathrm{Poi}(n)$

N / n \to 1

$N/n \to 1$

cardenal

Como una simple ilustración de mi confusión, ¿qué pasaría si estuviéramos probando si dos procesos son significativamente diferentes, uno que genera 500 As y 500 Bs con una variación muy pequeña, y el otro que genera 550 As y 450 Bs con una variación muy pequeña (rara vez genera 551 As y 449 Bs)? ¿No es la variación aquí claramente no simplemente el valor esperado?

Yang

@Yang: Parece que sus datos, que no ha descrito, no se ajustan al modelo subyacente al uso de la estadística de chi-cuadrado. El modelo estándar es uno de muestreo multinomial . Estrictamente hablando, ni siquiera se cubre el muestreo de Poisson (incondicional), que es lo que supone la respuesta de Greg. Hago una referencia (tal vez obtusa) a esto en mi comentario anterior.

cardenal

Manejemos el caso más simple para tratar de proporcionar la mayor intuición. Sea una muestra iid de una distribución discreta con resultados. Sea las probabilidades de cada resultado particular. Estamos interesados en la distribución (asintótica) de la estadística de chi-cuadrado $X_1, X_2, \ldots, X_n$ $k$ $\pi_1,\ldots,\pi_k$ Aquí es el número esperado de los cargos de la ª resultado.

X^{2} = \sum_{i = 1}^{k} \frac{(S_{i} - n π_{i})^{2}}{n π_{i}} .

$X^2 = \sum_{i=1}^k \frac{(S_i - n \pi_i)^2}{n\pi_i} \> .$

n π_{i}

$n \pi_i$

i

$i$

Una sugerente heurística

Definir , de modo que donde. $U_i = (S_i - n\pi_i) / \sqrt{n \pi_i}$ $X^2 = \sum_i U_i^2 = \newcommand{\U}{\mathbf{U}}\|\U\|^2_2$ $\U = (U_1,\ldots,U_k)$

Como es , entonces por el Teorema del límite central , $S_i$ $\mathrm{Bin}(n,\pi_i)$ por lo tanto, también tenemos que, .

T_{i} = \frac{U_{i}}{\sqrt{1 - π_{i}}} = \frac{S_{i} - n π_{i}}{\sqrt{n π_{i} (1 - π_{i})}} \overset{d}{\to} N (0, 1),

$\newcommand{\convd}{\xrightarrow{d}}\newcommand{\N}{\mathcal{N}} T_i = \frac{U_i}{\sqrt{1-\pi_i}} = \frac{S_i - n \pi_i}{\sqrt{ n\pi_i(1-\pi_i)}} \convd \N(0, 1) \>,$

U_{i} \overset{d}{\to} N (0, 1 - π_{i})

$U_i \convd \N(0, 1-\pi_i)$

Ahora, si la fueron (asintóticamente) independiente (que no lo son), entonces se podría argumentar que era asintóticamente distribuye. Pero, tenga en cuenta que es una función determinista de y, por lo tanto, las variables no pueden ser independientes. $T_i$ $\sum_i T_i^2$ $\chi_k^2$ $T_k$ $(T_1,\ldots,T_{k-1})$ $T_i$

Por lo tanto, debemos tener en cuenta la covarianza entre ellos de alguna manera. Resulta que la forma "correcta" de hacer esto es usar lugar, y la covarianza entre los componentes de también cambia la distribución asintótica de lo que podríamos haber pensado que era a lo que, de hecho, es a . $U_i$ $\U$ $\chi_{k}^2$ $\chi_{k-1}^2$

Algunos detalles sobre esto siguen.

Un tratamiento más riguroso.

No es difícil comprobar que, de hecho, para. $\newcommand{\Cov}{\mathrm{Cov}}\Cov(U_i, U_j) = - \sqrt{\pi_i \pi_j}$ $i \neq j$

Entonces, la covarianza de es $\U$ donde

A = I - \sqrt{π} {\sqrt{π}}^{T},

$\newcommand{\sqpi}{\sqrt{\boldsymbol{\pi}}} \newcommand{\A}{\mathbf{A}} \A = \mathbf{I} - \sqpi \sqpi^T \>,$

. Tenga en cuenta que

es simétrica y idempotente, es decir,

. Entonces, en particular, si

tiene iid componentes normales estándar, entonces

. (Nota: la distribución normal multivariada en este caso esdegenerada).

\sqrt{π} = (\sqrt{π_{1}}, \dots, \sqrt{π_{k}})

$\sqpi = (\sqrt{\pi_1}, \ldots, \sqrt{\pi_k})$

A

$\A$

A = A^{2} = A^{T}

$\A = \A^2 = \A^T$

Z = (Z_{1}, \dots, Z_{k})

$\newcommand{\Z}{\mathbf{Z}}\Z = (Z_1, \ldots, Z_k)$

A Z \sim N (0, A)

$\A \Z \sim \N(0, \A)$

Ahora, por el multivariado teorema del límite central , el vector de tiene una distribución asintótica normal multivariante con media y covarianza . $\U$ $0$ $\A$

Entonces, tiene la misma distribución asintótica que , por lo tanto, la misma distribución asintótica de es la misma que la distribución de por el teorema de mapeo continuo . $\U$ $\A \Z$ $X^2 = \U^T \U$ $\Z^T \A^T \A \Z = \Z^T \A \Z$

$\A$ $\mathrm{rank}(\A)$ $\A$ $\A = \mathbf{Q D Q}^T$ $\mathbf{Q}$ $\mathbf{D}$ $\mathrm{rank}(\A)$

$\Z^T \A \Z$ $\chi^2_{k-1}$ $\A$ $k-1$

Otras conexiones

La estadística de chi-cuadrado también está estrechamente relacionada con las estadísticas de razón de probabilidad. De hecho, es una estadística de puntuación Rao y puede verse como una aproximación de la serie Taylor de la estadística de razón de probabilidad.

Referencias

Este es mi propio desarrollo basado en la experiencia, pero obviamente influenciado por textos clásicos. Buenos lugares para buscar para aprender más son

GAF Seber y AJ Lee (2003), Análisis de regresión lineal , 2ª ed., Wiley.
E. Lehmann y J. Romano (2005), Prueba de hipótesis estadísticas , 3ª ed., Springer. Sección 14.3 en particular.
DR Cox y DV Hinkley (1979), Estadísticas teóricas , Chapman y Hall.

cardenal
fuente

(+1) Creo que es difícil encontrar esta prueba en textos estándar de análisis de datos categóricos como Agresti, A. (2002). Análisis de datos categóricos. John-Wiley

suncoolsu

Gracias por el comentario. Sé que hay un tratamiento de la estadística de chi-cuadrado en Agresti, pero no recuerdo cuán lejos lo lleva. Puede apelar a la equivalencia asintótica con la estadística de razón de probabilidad.

cardenal

k - 1

$k-1$

X

$X$

S

$S$