¿Es apropiado hacer una regresión logística donde las variables dependientes e independientes son binarias? por ejemplo, la variable dependiente es 0 y 1 y los predictores son variables codificadas por contraste -1 y 1?
14
No hay razón para no hacer esto, pero dos pensamientos de advertencia:
Mantenga un seguimiento cuidadoso durante el análisis de cuál es cuál. En proyectos grandes, puede ser fácil perderse y producir resultados erróneos.
Si elige informar estimaciones de regresión, en lugar de razones de probabilidades, deje claro su esquema de codificación en su informe , para que los lectores no produzcan OR inexactos por su cuenta, suponiendo que ambos estén codificados 0,1.
Puede parecer básico, pero he visto que ambos problemas aparecen en artículos publicados.
Para mayor claridad: el término "binario" generalmente se reserva a la codificación 1 vs 0 solamente. La palabra más general adecuada para cualquier codificación de 2 valores es "dicotómica". Los predictores dicotómicos son, por supuesto, bienvenidos a la regresión logística, como la regresión lineal, y, debido a que tienen solo 2 valores, no importa si ingresarlos como factores o covariables.
fuente
Por lo general, ayuda a la interpretación si codifica sus predictores 0-1, pero aparte de eso (y teniendo en cuenta que no es obligatorio), no hay nada de malo en esto. Existen otros enfoques (basados en tablas de contingencia), pero si recuerdo correctamente, estos resultan equivalentes a (alguna forma de) regresión logística.
En resumen: no veo ninguna razón para no hacer esto.
fuente
Además, si tiene más de dos predictores, es más probable que haya un problema de multicolinealidad incluso para la regresión logística o múltiple. Sin embargo, no es perjudicial utilizar la regresión logística con todas las variables binarias (es decir, codificadas (0,1)).
fuente