Información de la matriz de sombreros para regresión logística

12

Para mí está claro, y bien explicado en múltiples sitios, qué información dan los valores en la diagonal de la matriz del sombrero para la regresión lineal.

La matriz del sombrero de un modelo de regresión logística es menos clara para mí. ¿Es idéntico a la información que obtiene de la matriz de sombreros aplicando regresión lineal? Esta es la definición de la matriz de sombreros que encontré en otro tema de CV (fuente 1):

H=VX(XVX)1XV

con X, el vector de las variables predictoras y V es una matriz diagonal con (π(1π)) .

¿Es, en otras palabras, también cierto que el valor particular de la matriz de sombreros de una observación también simplemente presenta la posición de las covariables en el espacio de covariables y no tiene nada que ver con el valor de resultado de esa observación?

Esto está escrito en el libro "Análisis de datos categóricos" de Agresti:

Cuanto mayor sea la palanca de una observación, mayor será su influencia potencial en el ajuste. Como en la regresión ordinaria, los apalancamientos caen entre 0 y 1 y suman la cantidad de parámetros del modelo. A diferencia de la regresión ordinaria, los valores del sombrero dependen tanto del ajuste como de la matriz del modelo, y los puntos que tienen valores predictores extremos no necesitan tener un alto apalancamiento.

Entonces, fuera de esta definición, ¿parece que no podemos usarlo como lo usamos en la regresión lineal ordinaria?

Fuente 1: ¿Cómo calcular la matriz del sombrero para la regresión logística en R?

Kasper
fuente

Respuestas:

13

Permítanme cambiar un poco la notación y escribir la matriz del sombrero como donde es una matriz simétrica diagonal con elementos generales . Denotar como los grupos de individuos con el mismo valor de covarianza . Puede obtener el elemento diagonal ( ) de la matriz de sombreros como Entonces la suma de da el número de parámetros como en la regresión lineal. Ahora a su pregunta:

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

La interpretación de los valores de apalancamiento en la matriz del sombrero depende de la probabilidad estimada . Si , puede interpretar los valores de apalancamiento de manera similar al caso de regresión lineal, es decir, estar más alejado de la media le da valores más altos. Si está en los extremos de la distribución de probabilidad, es posible que estos valores de apalancamiento ya no midan la distancia en el mismo sentido. Esto se muestra en la siguiente figura tomada de Hosmer y Lemeshow (2000):π0.1<π<0.9

ingrese la descripción de la imagen aquí

En este caso, los valores más extremos en el espacio covariable pueden darle el apalancamiento más pequeño, lo que es contrario al caso de regresión lineal. La razón es que el apalancamiento en la regresión lineal es una función monotónica, lo cual no es cierto para la regresión logística no lineal. Hay una parte monotónicamente creciente en la formulación anterior de los elementos diagonales de la matriz del sombrero que representa la distancia desde la media. Esa es la parte , que puede observar si solo le interesa la distancia per se. La mayoría de las estadísticas de diagnóstico para regresiones logísticas utilizan el apalancamiento completo , por lo que esta parte monotónica separada rara vez se considera sola.xj(XVX)1xjhj

Si desea profundizar en este tema, eche un vistazo al documento de Pregibon (1981), quien derivó la matriz de sombrero logístico, y el libro de Hosmer y Lemeshow (2000).

Andy
fuente