Digamos que tenemos una variable dependiente con pocas categorías y un conjunto de variables independientes.
¿Cuáles son las ventajas de la regresión logística multinomial sobre el conjunto de regresiones logísticas binarias (es decir, esquema de uno contra el resto )? Por conjunto de regresión logística binaria quiero decir que para cada categoría construimos un modelo de regresión logística binaria separado con target = 1 cuando y 0 en caso contrario.
logistic
categorical-data
multinomial
Tomek Tarczynski
fuente
fuente
Respuestas:
Si tiene más de dos categorías, su pregunta sobre la "ventaja" de una regresión sobre la otra probablemente no tenga sentido si desea comparar los parámetros de los modelos, porque los modelos serán fundamentalmente diferentes:Y
para cadailogística binariade regresión, ylogP(i)P(not i)=logiti=linear combination i
para cadacategoríaienregresiónlogística múltiple,siendorla categoría de referencia elegida (i≠r).logP(i)P(r)=logiti=linear combination i r i≠r
Sin embargo, si su objetivo es sólo para predecir la probabilidad de cada categoría uno u otro enfoque se justifica, aunque se pueden dar diferentes estimaciones de probabilidad. La fórmula para estimar una probabilidad es genérica:i
, dondei,j,…,rson todas las categorías , y sise eligiórcomo referencia, suexp(logP′(i)=exp(logiti)exp(logiti)+exp(logitj)+⋯+exp(logitr) i,j,…,r r . Entonces, para la logística binaria, esa misma fórmula se convierte en P ′ ( i ) = e x p ( l o g i t i )exp(logit)=1 . La logística multinomial se basa en el supuesto (no siempre realista) deindependencia de alternativas irrelevantes,mientras que una serie de predicciones logísticas binarias no.P′(i)=exp(logiti)exp(logiti)+1
fuente
Debido al título, supongo que "ventajas de la regresión logística múltiple" significa "regresión multinomial". A menudo hay ventajas cuando el modelo se ajusta simultáneamente. Esta situación particular se describe en Agresti (Análisis de datos categóricos, 2002) pág. 273. En resumen (parafraseando a Agresti), se espera que las estimaciones de un modelo conjunto sean diferentes a un modelo estratificado. Los modelos logísticos separados tienden a tener errores estándar más grandes, aunque puede no ser tan malo cuando el nivel más frecuente del resultado se establece como el nivel de referencia.
fuente