Inesperadas singularidades en el error de la matriz de Hesse en la regresión logística multinomial

8

He estado haciendo análisis de regresión logística multinomial usando SPSS 19. He encontrado el siguiente problema cuando ejecuto el procedimiento de análisis:

"Se encuentran singularidades inesperadas en la matriz de Hesse. Esto indica que algunas variables predictoras deberían excluirse o algunas categorías deberían fusionarse".

Un poco de información sobre mis datos utilizados. Tengo cuatro predictores categóricos con dos niveles cada uno, 1 o 2. La variable de respuesta en mi modelo es una variable categórica de tres niveles. Usé el último nivel como categoría de referencia. Traté de comparar los coeficientes de la intersección con los de los cuatro predictores en los dos logits para encontrar qué nivel de la variable de respuesta puede causar este problema. Las grandes diferencias en los coeficientes entre la intersección y tres de los predictores sugieren que podría ser la categoría de referencia la que tiene el problema. Sin embargo, no pude combinar los niveles de la variable de respuesta (que no estoy autorizado para mi investigación).

También he tratado de excluir los predictores uno por uno, pero aún tengo el mismo problema.

¿Podría alguien decirme qué debo hacer para resolver este problema?

Kate
fuente
1
Una primera verificación sería calcular el rango de su matriz de diseño. Si es menor que la cantidad de columnas, probablemente necesite combinar y / o recodificar adecuadamente.
cardenal
Dado que todas las variables son categóricas, una opción alternativa es utilizar métodos de tabla de contingencia. Es decir, tienes una tabla de contingencia de cinco vías. Esto se puede hacer usando un poisson glm (modelo log-lineal), que puede ser más estable (aunque no lo sea). También podría ser un "problema de separación" - su respuesta puede predecirse perfectamente a partir de las covariables - hace que las computadoras se asusten cuando esto sucede porque la varianza es cero.
probabilityislogic
En realidad, combinar niveles de la variable de respuesta es una forma recomendada de abordar los problemas en la regresión logística multinomial. Al combinar los dos niveles inferiores y luego los dos niveles superiores, puede aproximar los resultados multinomiales por medio de dos regresiones logísticas (más simples). Estas regresiones logísticas y sus diagnósticos pueden indicar qué está sucediendo mal.
whuber

Respuestas:

4

La clave que puede estar buscando se puede encontrar en el sitio web de UCLA para Regresión logística multinomial, donde dice:

Predicción perfecta: la predicción perfecta significa que solo un valor de una variable predictora está asociado con solo un valor de la variable de respuesta. A partir del resultado de los coeficientes de regresión, se puede decir que algo está mal. Luego puede hacer una tabulación bidireccional de la variable de resultado con la variable problemática para confirmar esto y luego volver a ejecutar el modelo sin la variable problemática.

Recomendaría ejecutar una tabla de dos vías para cada uno de los predictores (frente a la respuesta) para determinar si un nivel de la respuesta ocurre con solo un nivel de su predictor.

M. Tibbits
fuente