Regresión logística con variables binarias dependientes e independientes.

14

¿Es apropiado hacer una regresión logística donde las variables dependientes e independientes son binarias? por ejemplo, la variable dependiente es 0 y 1 y los predictores son variables codificadas por contraste -1 y 1?

por encima de
fuente

Respuestas:

6

No hay razón para no hacer esto, pero dos pensamientos de advertencia:

  1. Mantenga un seguimiento cuidadoso durante el análisis de cuál es cuál. En proyectos grandes, puede ser fácil perderse y producir resultados erróneos.

  2. Si elige informar estimaciones de regresión, en lugar de razones de probabilidades, deje claro su esquema de codificación en su informe , para que los lectores no produzcan OR inexactos por su cuenta, suponiendo que ambos estén codificados 0,1.

Puede parecer básico, pero he visto que ambos problemas aparecen en artículos publicados.

Fomite
fuente
Entonces, ¿también sería apropiado separar un archivo de datos en 6 casos separados y realizar comparaciones individuales dentro de cada conjunto de datos con predictores codificados por restricción?
Upabove
Sinceramente, no estoy seguro de lo que estás pidiendo en este segundo momento. ¿Puedes clarificar lo que esperas lograr?
Fomite
Tengo un conjunto de datos con 3 entre 4 y dentro de las condiciones del tema. Me gustaría probar todos y cada uno de los efectos, pero una única regresión con todas las interacciones pierde mucha información que me interesa. En cambio, dividiría los datos por condición en conjuntos de datos separados y ejecutaría regresiones logísticas enfocadas en cada conjunto de datos con contraste códigos de codificación de las diferencias que estoy interesado.
upabove
para obtener más información sobre cómo codifico los
upabove
11

Para mayor claridad: el término "binario" generalmente se reserva a la codificación 1 vs 0 solamente. La palabra más general adecuada para cualquier codificación de 2 valores es "dicotómica". Los predictores dicotómicos son, por supuesto, bienvenidos a la regresión logística, como la regresión lineal, y, debido a que tienen solo 2 valores, no importa si ingresarlos como factores o covariables.

ttnphns
fuente
5

Por lo general, ayuda a la interpretación si codifica sus predictores 0-1, pero aparte de eso (y teniendo en cuenta que no es obligatorio), no hay nada de malo en esto. Existen otros enfoques (basados ​​en tablas de contingencia), pero si recuerdo correctamente, estos resultan equivalentes a (alguna forma de) regresión logística.

En resumen: no veo ninguna razón para no hacer esto.

Nick Sabbe
fuente
¡Gracias! Y si tengo 3 predictores codificados por contraste y los codifico todos 0-1, entonces no serán ortogonales. Por ejemplo, tengo 4 categorías y mis tres códigos son L1: 1, -1,0,0 L2: 0,1, -1,0, L3: 0,0,1, -1. ¿Es eso un problema?
Upabove
Su ejemplo de matriz L (L1, L2, L3) son los contrastes repetidos por los cuales cada categoría se compara con la siguiente categoría. Ni estos predictores de contraste son ortogonales ni binarios (codificados como 0-1). De hecho, sus valores son .75 vs -.25 (primera variable), .5 vs -.5 (segunda variable), .25 vs -.75 (tercera variable)
ttnphns
3

Además, si tiene más de dos predictores, es más probable que haya un problema de multicolinealidad incluso para la regresión logística o múltiple. Sin embargo, no es perjudicial utilizar la regresión logística con todas las variables binarias (es decir, codificadas (0,1)).

estadísticas de amor
fuente