¿Tiene sentido utilizar la regresión logística con resultados binarios y predictores?

18

Tengo una variable de resultado binaria {0,1} y una variable predictora {0,1}. Creo que no tiene sentido hacer logística a menos que incluya otras variables y calcule la razón de posibilidades.

Con un predictor binario, ¿no sería suficiente el cálculo de probabilidad vs razón de probabilidades?

keval
fuente

Respuestas:

26

En este caso, puede contraer sus datos para donde es el número de instancias para e con . Supongamos que hay observaciones en general. Sijx=iy=ji,j{0,1}n

XY0 010 0S00S011S10S11
SyojX=yoy=jyo,j{0 0,1}norte

Si ajustamos el modelo (donde es nuestra función de enlace) nosotros ' Descubriré que es el logit de la proporción de éxitos cuando y es el logit de la proporción de éxitos cuando . En otras palabras, y g β 0 xpagyo=sol-1(XyoTβ)=sol-1(β0 0+β11Xyo=1)solβ^0 0β 0 + β 1 x i = 1 β 0 = g ( S 01Xyo=0 0β^0 0+β^1Xyo=1 β 0+ β 1=g(S11

β^0 0=sol(S01S00+S01)
β^0 0+β^1=sol(S11S10+S11).

Vamos a ver esto es R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Entonces, los coeficientes de regresión logística son exactamente transformaciones de proporciones provenientes de la tabla.

El resultado es que ciertamente podemos analizar este conjunto de datos con una regresión logística si tenemos datos provenientes de una serie de variables aleatorias de Bernoulli, pero resulta que no es diferente a analizar directamente la tabla de contingencia resultante.


Quiero comentar por qué esto funciona desde una perspectiva teórica. Cuando estamos ajustando una regresión logística, estamos usando el modelo que . Luego decidimos modelar la media como una transformación de un predictor lineal en , o en los símbolos . En nuestro caso, solo tenemos dos valores únicos de y, por lo tanto, solo hay dos valores únicos de , digamos y . Debido a nuestra suposición de independencia, tenemos y YyoEl |XyoBerna(pagyo)Xyopagyo=sol-1(β0 0+β1Xyo)Xyopagyopag0 0pag1

yo:Xyo=0 0Yyo=S01Compartimiento(norte0 0,pag0 0)
yo:Xyo=1Yyo=S11Compartimiento(norte1,pag1).
Tenga en cuenta cómo estamos usando el hecho de que , y a su vez y , no son aleatorios: si este no fuera el caso, entonces estos no serían necesariamente binomiales.Xyonorte0 0norte1

Esto significa que

S01/ /norte0 0=S01S00+S01pagpag0 0 y S11/ /norte1=S11S10+S11pagpag1.

La idea clave aquí: nuestros RV de Bernoulli son mientras que nuestros RV binomiales son , pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la cual estas proporciones de la tabla de contingencia estiman lo mismo que una regresión logística a nivel de observación. No es solo una coincidencia con la tabla: es una consecuencia directa de los supuestos de distribución que hemos hecho.YyoEl |Xyo=jBerna(pagj)Sj1Compartimiento(nortej,pagj)

jld
fuente
1

Cuando tiene más de un predictor y todos los predictores son variables binarias, puede ajustar un modelo utilizando Regresión lógica [1] (tenga en cuenta que es "Lógica", no "Logística"). Es útil cuando cree que los efectos de interacción entre sus predictores son prominentes. Hay una implementación en R ( LogicRegpaquete).

[1] Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2003). Regresión lógica Revista de estadística computacional y gráfica, 12 (3), 475-511.

horaceT
fuente
1
La pregunta es específicamente sobre un regresor, por lo tanto, su respuesta serviría mejor como un comentario.
Richard Hardy