¿Todos los modelos log-lineales tienen una regresión logística perfectamente equivalente?

8

Estoy tratando de ajustar un modelo logarítmico lineal a una gran cantidad de variables de los datos de la encuesta. Hay algunas razones por las que podría ser preferible ajustar las regresiones logísticas a esos datos. Varias autoridades sugieren que estos son equivalentes. Sin embargo, tengo algunas razones para dudar de esto.

  1. Los modelos log-lineales tratan todas las variables de manera equivalente, mientras que la regresión logística requiere que una variable se identifique como la variable de respuesta.
  2. En el contexto de mínimos cuadrados, generalmente no se da el caso de que para Y = a + bX + ε versus X = c + dY + ε el parámetro d sea aproximadamente igual a 1 / b. Esto se debe a que la primera ecuación minimiza el error vertical, mientras que la segunda minimiza el error horizontal. Estos serán iguales solo si los errores son simétricos alrededor de la línea estimada. Por lo tanto, me preocupa que esto también sea cierto para la regresión logística. (2) es en realidad solo una forma específica de (1), es decir, una posible asimetría en el formato de regresión a partir de la elección de una variable particular como respuesta.

  3. Si todas las variables en el modelo log-lineal están involucradas en uno o más términos de interacción, no veo cómo una regresión logística puede ser equivalente. ¿Cómo expresaría las interacciones en las que la variable respuesta está involucrada en el contexto de una regresión logística?

En respuesta a Bill Huber, estoy usando el término modelo log-lineal en un sentido considerablemente más restringido que Wikipedia. Me refiero a modelos de datos de recuento categórico u ordinal, organizados en tablas, donde los coeficientes son el recuento total de tablas, los recuentos marginales para cada factor dividido por el recuento total de tablas (que sirven como indicadores de probabilidades) y varios términos de interacción. Este es el sentido utilizado en Agresti, "Análisis de datos categóricos", entre otros.

andrewH
fuente
Mi comprensión del "modelo loglineal", que está bastante bien alineado con la definición de Wikipedia , aunque es un poco más general, no me permite dar sentido a esta pregunta. ¿Podría decirnos qué significa este término para usted?
whuber
2
Wikipedia lo llama análisis loglineal: en.wikipedia.org/wiki/Loglinear_analysis
Jeremy Miles
1
Existen varias formas de análisis loglineal: general, logit, etc. El análisis loglinear logit es para situaciones en las que tiene variables dependientes y algunos predictores. Hasta donde yo sé, da el mismo resultado (estimaciones de parámetros) que la regresión logística nominal.
ttnphns

Respuestas:

4

La respuesta es no'. El modelo loglineal es más general que el modelo de regresión logística. Ver Fienberg, 1980, Análisis de datos categóricos clasificados cruzados, sección 6.2 sobre cómo especificar un modelo loglineal para que corresponda a la regresión logística.

En realidad, lo contrario es cierto: si todas las variables son categóricas, entonces cada modelo de regresión logística corresponde a algún modelo loglineal.

Stef van Buuren
fuente
Entonces, esto es lo que pensaba, pero no lo que esperaba. En R, que es la herramienta principal que uso, hay varios paquetes contribuidos o rutinas disponibles para ajustar el diseño de muestreo de encuestas complejas para los modelos lm y GLM. No he encontrado nada equivalente para los modelos log-lineales.
andrewH
No sé si es útil para sus propósitos, pero la función loglm () de MASS puede adaptarse a modelos lineales de registro. Además, es posible que desee consultar el paquete ACD.
Stef van Buuren
Además, con un Poisson GLM puede ajustar modelos log-lineales. Ver Agresti: Análisis de datos categóricos Sección 8.6.7.
Momo