Realicé una regresión lineal de aceptación en la universidad contra los puntajes del SAT y los antecedentes familiares / étnicos. Los datos son ficticios. Este es un seguimiento de una pregunta anterior, ya respondida. La pregunta se centra en la recopilación e interpretación de las razones de posibilidades al dejar a un lado los puntajes del SAT por simplicidad.
Las variables son Accepted
(0 o 1) y Background
("rojo" o "azul"). Configuré los datos para que las personas con antecedentes "rojos" tuvieran más probabilidades de ingresar:
fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit)))
Odds_Ratio_RedvBlue 2.5 % 97.5 %
(Intercept) 0.7088608 0.5553459 0.9017961
Backgroundred 2.4480042 1.7397640 3.4595454
Preguntas:
¿Es 0.7 la proporción impar de una persona con antecedentes "azules" aceptada? Lo pregunto porque también obtengo 0.7 para "
Backgroundblue
" si en su lugar ejecuto el siguiente código:fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit)))
¿No debería aceptarse la odds ratio de "rojo" ( ) solo el recíproco: ( O d d s B l u e = 1 / O d d s R e d )?
fuente
R
que llama explícitamente los coeficientes (a través de la funcióncoef
) está llamando a la "razón de posibilidades" en su salida. Eso sugiere que es posible que desee revisar la distinción entre los dos.Respuestas:
He estado trabajando para responder mi pregunta calculando manualmente las probabilidades y las razones de probabilidades:
Entonces, el Odds Ratio de ingresar a la escuela de Red over Blue es:
Y este es el
Backgroundred
regreso de:(Intercept)
Si en cambio, ejecuto:
Los retornos son precisamente las probabilidades de ser 'azul':
Backgroundblue
(0.7089) y las probabilidades de ser aceptado como 'rojo':Backgroundred
(1.7353). No hay odds ratio allí. Por lo tanto, no se espera que los dos valores de retorno sean recíprocos.Finalmente, ¿cómo leer los resultados si hay 3 factores en el regresor categórico?
Mismo cálculo manual versus [R]:
Creé un conjunto de datos ficticios diferente con la misma premisa, pero esta vez había tres orígenes étnicos: "rojo", "azul" y "naranja", y ejecuté la misma secuencia:
Primero, la tabla de contingencia:
Y calculé las probabilidades de entrar para cada grupo étnico:
Además de las diferentes Odds Ratios :
Y procedió con la regresión logística ahora rutinaria seguida de exponenciación de coeficientes:
Ceder las probabilidades de obtener "blues" como
(Intercept)
, y las Odds Ratios de Orange versus Blue inBackgroundorange
, y el OR de Red v Blue inBackgroundred
.Por otro lado, la regresión sin intercepción predeciblemente devolvió solo las tres probabilidades independientes :
fuente