Prueba de Wald para regresión logística

55

Hasta donde yo entiendo, la prueba de Wald en el contexto de la regresión logística se usa para determinar si cierta variable predictora es significativa o no. Rechaza la hipótesis nula de que el coeficiente correspondiente sea cero.X

La prueba consiste en dividir el valor del coeficiente por error estándar .σ

Lo que me confunde es que también se conoce como puntaje Z e indica la probabilidad de que una observación determinada provenga de la distribución normal (con media cero).X/σ

usuario695652
fuente
2
Posible duplicado de la prueba
Firebug
2
Tal vez podría ser al revés, ya que la respuesta en este caso está más desarrollada.
Firebug

Respuestas:

86

Las estimaciones de los coeficientes y las intersecciones en la regresión logística (y cualquier GLM) se encuentran a través de la estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como . Nuestro parámetro de interés se denota y generalmente es 0, ya que queremos probar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica de MLE, sabemos que la diferencia entre y se distribuirá aproximadamente normalmente con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como Larry Wasserman Todas las estadísticas ) . Recuerde que los errores estándar no son más que theta0 theta theta0σW=( β -β 0 )θ^θ0θ^θ0desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometry : "una estadística es cualquiera de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividir una distribución normal con media 0 y desviación estándar por su desviación estándar dará como resultado la distribución normal estándar con media 0 y desviación estándar 1. La estadística de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215): o σW2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
χ21χ22
W2=(β^β0)2Var^(β^)χ12
La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es la con 1 grado de libertad (la suma de dos distribuciones normales estándar al cuadrado sería una con 2 grados de libertad y así sucesivamente).χ12χ22

Debido a que el parámetro de interés suele ser 0 (es decir, ), la estadística de Wald se simplifica a Que es lo que usted describió: la estimación del coeficiente dividido por su error estándar.β0=0

W=β^se^(β^)N(0,1)

¿Cuándo es una y cuándo se usa un valor ?zt

La elección entre un valor o un valor depende de cómo se haya calculado el error estándar de los coeficientes. Debido a que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos usar la puntuación para calcular el valor . Cuando, además de los coeficientes, también tenemos que estimar la varianza residual, se usa un valor lugar del valor . En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es dondeztzptzVar[β^|X]=σ2(XX)1σ2es la varianza de los residuos (que es desconocida y debe estimarse a partir de los datos) y es la matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Como no sabemos , tenemos que reemplazarlo por su estimación , entonces: . Ahora ese es el punto: dado que tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos usar un valor y la distribución .Xσ2σ^2=s2 ttse^(βj^)=s2(XX)jj1tt

En la regresión logística (y de Poisson), la varianza de los residuos está relacionada con la media. Si , la media es y la varianza es por lo que la varianza y la media están relacionadas. En la regresión logística y de Poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión indica si tenemos más o menos de la varianza esperada. Si esto significa que observamos la cantidad esperada de varianza, mientras que significa que tenemos menos de la varianza esperada (llamada subdispersión) yE ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pYBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1significa que tenemos una varianza adicional más allá de la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de Poisson se fija en 1, lo que significa que podemos usar el -score. El parámetro de dispersión. En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por lo tanto, se usa un valor para calcular los valores . En , mira estos dos ejemplos:ztpR

Regresión logística

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Tenga en cuenta que el parámetro de dispersión se fija en 1 y, por lo tanto, obtenemos valores .z


Regresión lineal normal (MCO)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

Aquí, tenemos que estimar la varianza residual (denotada como "error estándar residual") y, por lo tanto, usamos valores lugar de valores . Por supuesto, en muestras grandes, la distribución aproxima a la distribución normal y la diferencia no importa.z ttzt

Otra publicación relacionada se puede encontrar aquí .

COOLSerdash
fuente
1
Muchas gracias por esta bonita publicación que responde a todas mis preguntas.
user695652
1
Entonces, prácticamente, con respecto a la primera parte de su excelente respuesta: si por alguna razón tuviera como resultado la razón de probabilidades y la estadística de Wald, podría calcular el error estándar de estas como: SE = (1 / Wald- estadística) * ln (OR) ¿Es esto correcto? ¡Gracias!
Sander W. van der Laan
1
@ SanderW.vanderLaan Gracias por tu comentario. Sí, creo que eso es correcto. Si realiza una regresión logística, las estadísticas de Wald serán el valor z.
COOLSerdash
2
¡Qué gran respuesta! Tengo algunas sugerencias de revisión: personalmente, creo que esta respuesta es mezclar detalles con las listas de golpes. Pondría los detalles de cómo la regresión lineal está utilizando la varianza de los residuos en un gráfico separado.
Haitao Du
1
También para el parámetro de dispersión y la conexión al código R, puede ser que podamos abrir otra sección o una línea de separación para hablar.
Haitao Du