¿Alguien puede proporcionar una lista clara de las diferencias entre la regresión log-lineal y la regresión logística? Entiendo que el primero es un modelo de regresión lineal simple, pero no tengo claro cuándo se debe usar cada uno.
fuente
¿Alguien puede proporcionar una lista clara de las diferencias entre la regresión log-lineal y la regresión logística? Entiendo que el primero es un modelo de regresión lineal simple, pero no tengo claro cuándo se debe usar cada uno.
El nombre es un poco inapropiado. Los modelos log-lineales se utilizaron tradicionalmente para el análisis de datos en un formato de tabla de contingencia. Si bien los "datos de conteo" no necesariamente tienen que seguir una distribución de Poisson, el modelo log-lineal es en realidad solo un modelo de regresión de Poisson. De ahí el nombre "log" (los modelos de regresión de Poisson contienen una función de enlace "log").
Una "variable de resultado transformada logarítmicamente" en un modelo de regresión lineal no es un modelo logarítmico lineal (tampoco es una variable de resultado exponencial, como sugeriría "logarítmica lineal"). Tanto los modelos log-lineales como las regresiones logísticas son ejemplos de modelos lineales generalizados , en los cuales la relación entre un predictor lineal (como log-odds o log-rates) es lineal en las variables del modelo. No son "modelos de regresión lineal simple" (o modelos que usan el formato habitual ).
A pesar de todo eso, es posible obtener una inferencia equivalente en las asociaciones entre variables categóricas utilizando la regresión logística y la regresión de Poisson. Es solo que en el modelo de Poisson, las variables de resultado se tratan como covariables. Curiosamente, puede configurar algunos modelos que toman prestada información entre grupos de una manera muy similar a un modelo de probabilidades proporcionales, pero esto no se entiende bien y rara vez se usa.
Ejemplos de obtención de inferencia equivalente en modelos de regresión logística y de Poisson usando R ilustrado a continuación:
y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)
## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)
## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)
Interesante, la falta de asociación entre y significa que la razón de posibilidades es 1 en el modelo de regresión logística y, del mismo modo, el término de interacción es 0 en el modelo loglineal. Le da una idea de cómo medimos la independencia condicional en los datos de la tabla de contingencia.x
No creo que llamaría a ninguno de ellos un "modelo de regresión lineal simple". Aunque es posible usar las transformaciones log o logit como la función de enlace para varios modelos diferentes, se entiende que estos se refieren a modelos específicos. Por ejemplo, se entiende por "regresión logística" un modelo lineal generalizado (GLiM) para situaciones en las que la variable de respuesta se distribuye como un binomio . Además, se entiende por "regresión logarítmica lineal" un Poisson GLiM aplicado a tablas de contingencia de múltiples vías.. En otras palabras, más allá del hecho de que ambos son modelos de regresión / GLiM, no los veo necesariamente como muy similares (hay algunas conexiones entre ellos, como señala @AdamO, pero los usos típicos son bastante distintos). La mayor diferencia sería que la regresión logística supone que la respuesta se distribuye como un binomio y la regresión logarítmica lineal supone que la respuesta se distribuye como Poisson . De hecho, la regresión lineal logarítmica es bastante diferente de la mayoría de los modelos de regresión en que la variable de respuesta no es realmente una de sus variables (en el sentido habitual), sino el conjunto de conteos de frecuencia asociados con las combinaciones de sus variables en la tabla de contingencia multidireccional.
fuente
Para aclarar, una regresión logística "binaria" tiene una variable dependiente con dos resultados. Tengo entendido que también existe la opción de utilizar una regresión logística "multinomial" si su variable de resultado dependiente tiene más de 2 categorías. Ver aquí .
fuente