Tengo que hacer una regresión logística binaria con muchas variables independientes. La mayoría de ellos son binarios, pero algunas de las variables categóricas tienen más de dos niveles.
¿Cuál es la mejor manera de lidiar con tales variables?
Por ejemplo, para una variable con tres valores posibles, supongo que se deben crear dos variables ficticias. Entonces, en un procedimiento de regresión gradual, ¿ es mejor probar ambas variables ficticias al mismo tiempo, o probarlas por separado?
Usaré SPSS, pero no lo recuerdo muy bien, entonces: ¿cómo maneja SPSS esta situación?
Además, para una variable categórica ordinal, ¿es bueno usar variables ficticias que recrean la escala ordinal? (Por ejemplo, utilizando tres variables ficticias para una variable ordinal 4-estado, puesto 0-0-0
para el nivel , para el nivel 2 , para el nivel 3 y para el nivel 4 , en lugar de , , y para los 4 niveles.)1-0-0
1-1-0
1-1-1
0-0-0
1-0-0
0-1-0
0-0-1
Respuestas:
El sitio web de UCLA tiene un montón de excelentes tutoriales para cada procedimiento desglosado por el tipo de software con el que está familiarizado. Consulte la salida de SPSS anotada: Regresión logística : la variable SES que mencionan es categórica (y no binaria). SPSS creará automáticamente las variables indicadoras para usted. También hay una página dedicada a Predictores categóricos en regresión con SPSS que tiene información específica sobre cómo cambiar las codificaciones predeterminadas y una página específica para Regresión logística .
fuente
La regresión logística es un método bastante flexible. Se puede utilizar fácilmente como variables independientes variables categóricas. La mayoría de los programas que usan regresión logística deberían permitirle usar variables categóricas.
Como ejemplo, supongamos que una de sus variables categóricas es la temperatura definida en tres categorías: frío / templado / caliente. Como sugiere, podría interpretarlo como tres variables ficticias separadas, cada una con un valor de 1 o 0. Pero, el software debería permitirle usar una sola variable categórica en su lugar con un valor de texto frío / leve / caliente. Y, la regresión logit derivaría el coeficiente (o constante) para cada una de las tres condiciones de temperatura. Si uno no es significativo, el software o el usuario podrían eliminarlo fácilmente (después de observar t stat y p value).
El principal beneficio de agrupar categorías de variables categóricas en una sola variable categórica es la eficiencia del modelo. Una sola columna en su modelo puede manejar tantas categorías como sea necesario para una sola variable categórica. Si, por el contrario, utiliza una variable ficticia para cada categoría de una variable categórica, su modelo puede crecer rápidamente hasta tener numerosas columnas superfluas dada la alternativa mencionada.
fuente
Hasta donde tengo entendido, es bueno usar una variable ficticia para datos categóricos / nominales, mientras que para datos ordinales podemos usar una codificación de 1,2,3 para diferentes niveles. Para la variable ficticia, codificaremos 1 si es cierto para una preservación particular y 0 en caso contrario. También las variables ficticias serán 1 menos que el no. De niveles, por ejemplo en binario tenemos 1. Una observación de todo '0' en la variable ficticia automáticamente hará 1 para el ficticio no codificado.
fuente