¿Qué puede hacer cuando tiene variables predictoras basadas en promedios grupales con diferentes tamaños de muestra?

Considere un problema de análisis de datos clásico en el que tiene un resultado y cómo se relaciona con varios predictores . El tipo básico de aplicación en mente aquí es que $Y_{i}$ $X_{i1}, ..., X_{ip}$

$Y_{i}$ es un resultado a nivel de grupo, como la tasa de criminalidad en la ciudad . $i$
Los predictores son características a nivel de grupo, como las características demográficas de la ciudad . $i$

El objetivo básico es ajustar un modelo de regresión (quizás con efectos aleatorios, pero olvídalo por ahora):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

¿Surgen algunas dificultades técnicas cuando uno (o más) de los predictores son el resultado de una encuesta que tiene diferentes tamaños de muestra para cada unidad? Por ejemplo, supongamos que es un puntaje resumido para la ciudad que es la respuesta promedio de una muestra de individuos de la ciudad pero los tamaños de muestra en los que se basaron estos promedios son muy diferentes: $X_{i1}$ $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

Dado que las variables predictoras no tienen el mismo significado, en cierto sentido, para cada ciudad, me temo que el condicionamiento de estas variables en un modelo de regresión como si todas fueran "creadas de la misma manera" podría causar algunas inferencias engañosas.

¿Hay un nombre para este tipo de problema? Si es así, ¿hay investigaciones sobre cómo manejar esto?

Mi pensamiento es tratarlo como una variable predictora medida con error y hacer algo en este sentido, pero hay heterocedasticidad en los errores de medición, por lo que sería muy complicado. Podría estar pensando en esto de manera incorrecta o podría estar haciendo esto más complicado de lo que es, pero cualquier discusión aquí sería útil.

regression measurement-error errors-in-variables Macro
fuente

Esto se llama el problema de "errores heterocedásticos en variables". (Esta frase es un buen objetivo para una búsqueda en Google). Recientemente (2007), Delaigle y Meister propusieron un estimador no paramétrico de densidad de kernel en un artículo de JASA . Un resumen sobre algunos métodos paramétricos (método de momentos y MLE) sugiere algunos enfoques adicionales: sciencedirect.com/science/article/pii/S1572312709000045 . (No estoy lo suficientemente familiarizado con la investigación para darle una respuesta autorizada sobre cómo manejar su conjunto de datos en particular.)

whuber

@whuber +1 para ambos comentarios. Creo que "errores en variables" era la palabra clave que faltaba que estaba buscando. Si nadie da una respuesta contundente a continuación que pueda aceptar, buscaré en la literatura y volveré a publicar lo que termine haciendo como respuesta.

Macro

Respuestas:

El documento "Un modelo de errores estructurales heterocedasticos en variables con error de ecuación" se puede descargar en la página del autor:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

básicamente debe tener en cuenta la variabilidad de ambas variables para evitar estimadores inconsistentes, pruebas de hipótesis no confiables e intervalos de confianza.

Alexandre Patriota
fuente

$σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

Michael R. Chernick
fuente

Eso parece razonable aunque esperaba evitar tener que modelar el error de medición. Si fuera en esa dirección, ¿qué usarías para estimar el efecto de un predictor medido con error? He usado un método llamado SIMEX, pero esto parece poco común y me pregunto si hay otras opciones.

Macro

@Macro No estoy familiarizado con el software específico para modelar regresión con una función de varianza para estimar.

Michael R. Chernick

Macro, como regla general en la regresión de errores homoscedasticos en variables, si los errores en los IV son pequeños en comparación con los errores en el DV, puede ignorar con seguridad el primero y recurrir a la regresión ordinaria. Eso le brinda una forma rápida y sencilla de resolver el problema.

whuber

@whuber, gracias, eso es útil. Parece que si esa regla general tiene sentido, entonces tendría sentido en el caso heteroscedastico usar "si la mayor varianza de error en el IV es pequeña en comparación con la varianza de error en el DV, puede ignorar el problema de forma segura" sería Una regla general razonable que es una condición que puede cumplirse en los datos que estoy viendo.

Macro

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$