Relaciones en regresión, también conocidas como preguntas sobre Kronmal

14

Recientemente, las preguntas de exploración aleatoria activaron un recuerdo de comentarios fuera de la mano de uno de mis profesores hace unos años, advirtiendo sobre el uso de proporciones en los modelos de regresión. Entonces comencé a leer sobre esto, y finalmente llegué a Kronmal 1993.

Quiero asegurarme de que estoy interpretando correctamente sus sugerencias sobre cómo modelarlas.

  1. Para un modelo con una relación con el mismo denominador tanto en el lado dependiente como en el independiente:
    Z-1Y=Z-11norteβ0 0+Z-1XβX+βZ+Z-1ϵ

    • Proporción de regresión dependiente de la variable del denominador (inverso) además de las otras proporciones
    • Peso por la variable del denominador (inverso)

  2. Y=β0 0+βXX+Z1norteα0 0+ZXαX+Z-1ϵ

    • Regresión del numerador por variables originales, denominador y denominador multiplicado por variables originales [¿qué pasa con las variables categóricas?]
    • Peso por denominador (inverso)
  3. Y=β0 0+XβX+Z-11norteβZ-1+WβW+Z-1WβZ-1W+ϵ

    • Incluya numerador y denominador (inverso) como efectos principales, relación como término de interacción.

¿Son correctas mis interpretaciones aquí?

Afín
fuente

Respuestas:

1

Realmente deberías haberte vinculado al documento de Kronmal (y haber explicado tu notación, que se toma directamente del documento). Tu lectura del documento es demasiado literal. Específicamente, no da consejos sobre la ponderación, sino que dice que la ponderación se puede hacer de la manera habitual, por lo que no es necesario discutir. Solo se menciona como una posibilidad. Lea sus casos más como ejemplos, especialmente como ejemplos de cómo analizar tales situaciones.

En la sección 6, da algunos consejos generales, que citaré aquí:

El mensaje de este artículo es que las variables de razón solo deben usarse en el contexto de un modelo lineal completo en el que se incluyen las variables que conforman la razón y el término de intercepción también está presente. La práctica común de usar proporciones para la variable dependiente o la independiente en el análisis de regresión puede conducir a inferencias engañosas, y rara vez resulta en una ganancia. Sin embargo, esta práctica está muy extendida y arraigada, y puede ser difícil convencer a algunos investigadores de que deberían renunciar a su índice o índice más preciado.

El artículo utiliza el ejemplo (ficticio) de Neyman sobre nacimientos y cigüeñas. Para jugar con ese ejemplo, puedes acceder a él desde R

data(stork, package="TeachingDemos")

Dejaré la diversión para los lectores, pero una trama interesante es esta coplot:

diagrama de acondicionamiento para el ejemplo de las cigüeñas Neyman

kjetil b halvorsen
fuente