Estoy tratando de estimar un modelo de elección ocupacional con tres opciones. ¿Hay alguna alternativa al uso de la regresión logística multinomial cuando se manejan resultados categóricos tan desordenados?
Cuando se trata de variables dependientes binarias, parece haber varias opciones, como el modelo LPM y el modelo binario probit y logit. Sin embargo, cuando se trata con variables categóricas desordenadas, la literatura sigue recomendando el modelo logit multinomial sin compararlo con alternativas.
Respuestas:
Hay una variedad de modelos disponibles para modelar modelos multinomiales.
Recomiendo Cameron & Trivedi Microeconometrics Using Stata para una introducción fácil y excelente o eche un vistazo a las diapositivas de la conferencia Imbens & Wooldridge o aquí, que están disponibles en línea.
Los modelos ampliamente utilizados incluyen:
regresión logística multinomial o mlogit en Stata
logit condicional multinomial (permite incluir fácilmente no solo predictores individuales sino también predictores específicos de elección) o asclogit en Stata
logit anidado (relaje la independencia del supuesto de alternativas irrelevantes (IIA) agrupando / clasificando las opciones de forma jerárquica) o nlogit en Stata
logit mixto (relaja la suposición del IIA suponiendo, por ejemplo, parámetros distribuidos normales) o mixlogit en Stata.
modelo probit multinomial (puede relajar aún más la suposición de IIA pero debe tener predictores específicos de elección disponibles) logit mixto (relaja la suposición de IIA suponiendo, por ejemplo, parámetros distribuidos normales), usar asmprobit en Stata (mprobit no permite usar predictores específicos de elección pero debe usarlos para relajar la asunción del IIA )
fuente
Si desea opciones bastante diferentes de una regresión logística, podría usar una red neuronal. Por ejemplo, el
nnet
paquete de R tiene unamultinom
función. O podría usar un bosque aleatorio (randomForest
paquete de R y otros). Y hay varias otras alternativas de Machine Learning, aunque las opciones como un SVM tienden a no estar bien calibradas, lo que hace que sus resultados sean inferiores, en mi opinión, a una regresión logística.[En realidad, las neuronas de la red neuronal probablemente utilizan un logit debajo del capó. Entonces es bastante diferente, pero no muy diferente al mismo tiempo.]
fuente
Además, piense que las redes neuronales (con activación softmax), los árboles de decisión (o los bosques aleatorios) no requieren que se cumpla la suposición del IIA considerando la poca confiabilidad de estas pruebas relacionadas con la verificación de la suposición del IIA. Por lo tanto, esto podría ser una ventaja en comparación con la logística multinomial si todo lo que nos preocupa son solo predicciones.
Alternativamente, se pueden construir múltiples modelos logísticos para las categorías K-1 con la categoría Kth como referencia. Esto también permite conectar diferentes predictores para cada una de las ecuaciones en contraste con el multinomio
fuente