Regresión logística multinomial versus regresión logística binaria de uno contra resto

36

Digamos que tenemos una variable dependiente con pocas categorías y un conjunto de variables independientes. Y

¿Cuáles son las ventajas de la regresión logística multinomial sobre el conjunto de regresiones logísticas binarias (es decir, esquema de uno contra el resto )? Por conjunto de regresión logística binaria quiero decir que para cada categoría construimos un modelo de regresión logística binaria separado con target = 1 cuando y 0 en caso contrario.yiYY=yi

Tomek Tarczynski
fuente
3
Matemáticamente, un modelo logit multinomial es un conjunto de modelos logit binarios, todos comparados con una alternativa base. Pero debido a que puede colapsar los parámetros genéricos y tal vez combinar algunos otros, el MNL siempre será al menos tan eficiente (y probablemente más). No veo ninguna razón para usar una serie de modelos binomiales.
gregmacfarlane
2
@gmacfarlane: He intentado simular datos donde MNL sería mejor que una serie de regresiones logísticas binarias, pero cada vez en promedio la calidad era la misma. Estaba comparando tablas de elevación y después de promediar los resultados de algunas simulaciones, miraron casi lo mismo. ¿Quizás tiene una idea de cómo generar datos para que MNL supere las regresiones logísticas binarias? Aunque MNL tenía una gran ventaja, sus puntajes podrían interpretarse como probabilidad.
Tomek Tarczynski
La regresión logística multinomial es la extensión de la regresión logit binaria. Se usa cuando las variables dependientes del estudio son tres o más, mientras que el logit binario se usa cuando las variables dependientes del estudio son dos.
Para el lector: recomiendo comenzar con la respuesta de @ julieth y seguir leyendo ttnphns '. Creo que el primero responde más directamente a la pregunta original, pero el segundo agrega un contexto interesante. ttnphns también muestra las diferentes características que están disponibles para ambos en una rutina de software popular, lo que podría constituir una razón para usar una sobre la otra (ver la declaración de gregmacfarlane).
Ben Ogorek

Respuestas:

21

Si tiene más de dos categorías, su pregunta sobre la "ventaja" de una regresión sobre la otra probablemente no tenga sentido si desea comparar los parámetros de los modelos, porque los modelos serán fundamentalmente diferentes:Y

para cadailogística binariade regresión, ylogP(i)P(not i)=logiti=linear combinationi

para cadacategoríaienregresiónlogística múltiple,siendorla categoría de referencia elegida (ir).logP(i)P(r)=logiti=linear combinationirir

Sin embargo, si su objetivo es sólo para predecir la probabilidad de cada categoría uno u otro enfoque se justifica, aunque se pueden dar diferentes estimaciones de probabilidad. La fórmula para estimar una probabilidad es genérica:yo

, dondei,j,,rson todas las categorías , y sise eligiórcomo referencia, suexp(logP(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr)i,j,,rr . Entonces, para la logística binaria, esa misma fórmula se convierte en P ( i ) = e x p ( l o g i t i )exp(logit)=1 . La logística multinomial se basa en el supuesto (no siempre realista) deindependencia de alternativas irrelevantes,mientras que una serie de predicciones logísticas binarias no.P(i)=exp(logiti)exp(logiti)+1


Y

Los modelos de regresión logística binaria se pueden ajustar utilizando el procedimiento de Regresión logística o el procedimiento de Regresión logística multinomial. Cada procedimiento tiene opciones no disponibles en el otro. Una distinción teórica importante es que el procedimiento de Regresión logística produce todas las predicciones, residuales, estadísticas de influencia y pruebas de bondad de ajuste utilizando datos a nivel de caso individual, independientemente de cómo se ingresen los datos y si el número de patrones covariables es menor que el número total de casos, mientras que el procedimiento de Regresión logística multinomial agrega internamente casos para formar subpoblaciones con patrones de covariables idénticos para los predictores, produciendo predicciones, residuos y pruebas de bondad de ajuste basadas en estas subpoblaciones.

La regresión logística proporciona las siguientes características únicas:

• Prueba de bondad de ajuste de Hosmer-Lemeshow para el modelo

• Análisis paso a paso.

• Contrastes para definir la parametrización del modelo.

• Puntos de corte alternativos para la clasificación.

• Parcelas de clasificación

• Modelo instalado en un conjunto de cajas en un conjunto de cajas extendido

• Guarda predicciones, residuos y estadísticas de influencia

La regresión logística multinomial proporciona las siguientes características únicas:

• Pruebas de chi-cuadrado de Pearson y de desviación para la bondad de ajuste del modelo.

• Especificación de subpoblaciones para la agrupación de datos para pruebas de bondad de ajuste.

• Listado de conteos, conteos pronosticados y residuales por subpoblaciones

• Corrección de las estimaciones de varianza para la dispersión excesiva.

• Matriz de covarianza de las estimaciones de parámetros.

• Pruebas de combinaciones lineales de parámetros.

• Especificación explícita de modelos anidados.

• Ajuste 1-1 modelos de regresión logística condicional coincidentes utilizando variables diferenciadas

ttnphns
fuente
Sé que estos modelos serán diferentes, pero no sé cuál es mejor en qué situación. Haré la pregunta de otra manera. Si se le asignó una tarea: para cada persona, prediga la probabilidad de que alguna compañía de telefonía móvil sea la favorita (supongamos que todas tienen una compañía de telefonía móvil favorita). ¿Cuál de esos métodos usaría y cuáles son las ventajas sobre el segundo?
Tomek Tarczynski
@Tomek amplié mi respuesta un poco
ttnphns
Aunque creo que @julieth es la mejor respuesta a la pregunta original de OP, le debo la introducción a la suposición de Independencia de alternativas irrelevantes. Una pregunta que todavía tengo es si la logística separada realmente lo evita; el artículo de Wikipedia que vinculó con el probit mencionado y el "logit anidado" que permite violaciones del IIA
Ben Ogorek
iriir
13

Debido al título, supongo que "ventajas de la regresión logística múltiple" significa "regresión multinomial". A menudo hay ventajas cuando el modelo se ajusta simultáneamente. Esta situación particular se describe en Agresti (Análisis de datos categóricos, 2002) pág. 273. En resumen (parafraseando a Agresti), se espera que las estimaciones de un modelo conjunto sean diferentes a un modelo estratificado. Los modelos logísticos separados tienden a tener errores estándar más grandes, aunque puede no ser tan malo cuando el nivel más frecuente del resultado se establece como el nivel de referencia.

julio
fuente
¡Gracias! Intentaré encontrar este libro, desafortunadamente google.books proporciona contenido solo hasta la página 268.
Tomek Tarczynski
@TomekTarczynski Resumí la información relevante del párrafo, por lo que es posible que no obtenga más información relacionada con esta pregunta al mirar el libro (aunque el libro es excelente, por lo que obtendrá otra buena información).
julio
44
Cita del libro de Agresti: "Las estimaciones de ajuste por separado difieren de las estimaciones de ML para el ajuste simultáneo de los logits J-1. Son menos eficientes y tienden a tener errores estándar más grandes. Sin embargo, Begg y Gray 1984 mostraron que la pérdida de eficiencia es menor cuando la categoría de respuesta con mayor prevalencia es la línea de base ".
Franck Dernoncourt