Residuales de Pearson

16

Una pregunta para principiantes sobre el residuo de Pearson en el contexto de la prueba de chi-cuadrado para la bondad de ajuste:

Además de la estadística de prueba, la chisq.testfunción de R informa el residuo de Pearson:

(obs - exp) / sqrt(exp)

Entiendo por qué mirar la diferencia en bruto entre los valores observados y esperados no es tan informativo, ya que una muestra más pequeña dará como resultado una diferencia más pequeña. Sin embargo, me gustaría saber más sobre el efecto del denominador: ¿por qué dividir por la raíz del valor esperado? ¿Es este un residuo 'estandarizado'?

Iain Dillingham
fuente
66
El denominador se utiliza para dar cuenta de la varianza de los residuos en bruto, que luego hace que los residuales de Pearson sean aproximadamente de la unidad de varianza (existen otros métodos para lograr esto). Tenga en cuenta que hay un componente stdrespara residuos estandarizados.
chl
@chl Gracias por su rápida respuesta. Sin embargo, no entiendo el concepto de varianza en este contexto. ¿Conoces algún recurso donde pueda aprender más? Supongo, entonces, que el residuo de Pearson no está 'estandarizado', dado que chisq.testtambién calcula el stdrescomponente.
Iain Dillingham
3
La referencia definitiva al análisis de datos categóricos es probablemente el Análisis de datos categóricos , por Alan Agresti. Si nadie proporciona una respuesta más detallada, intentaré convertir mis comentarios en una respuesta adecuada.
chl
Gracias por el enlace, @chl. Tengo acceso al libro, así que intentaré resolverlo yo mismo.
Iain Dillingham

Respuestas:

10

n×m

Xi,j ~ Pois(μi,j)

Una vez que impone un recuento total de celdas para la tabla de contingencia, o un recuento de filas o columnas, las distribuciones condicionales resultantes de los recuentos de celdas se vuelven multinomiales. En cualquier caso, para una distribución de Poisson tenemos E(Xi,j)=V(Xi,j)=μi,j , por lo que el recuento de células estandarizado es:

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

Entonces, lo que está viendo en la fórmula sobre la que está preguntando es el recuento de células estandarizado, bajo el supuesto de que los recuentos de células tienen una distribución de Poisson (incondicional).

A partir de aquí, es común probar la independencia de la variable de fila y columna en los datos, y en este caso puede usar una estadística de prueba que observe la suma de cuadrados de los valores anteriores (que es equivalente a la norma al cuadrado del vector de valores estandarizados). La prueba de chi cuadrado proporciona un valor p para este tipo de prueba basado en una aproximación de muestra grande a la distribución nula del estadístico de prueba. Por lo general, se aplica en casos donde ninguno de los recuentos de ventas es demasiado pequeño.

Reinstalar a Mónica
fuente
0

En el contexto de la bondad de ajuste, puede consultar este http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Si desea saber cómo llegó allí el denominador, tendrá que ver el chi-cuadrado aquí como una aproximación normal al binomio, para empezar, que luego puede extenderse a multinomiales.

RyL
fuente