¿Es la homogeneidad de la muestra un supuesto de análisis de regresión?

8

Supuse (es decir, creo que me enseñaron, hace más tiempo de lo que puedo recordar) que los análisis de regresión suponen que una muestra es homogénea. Si no es así, entonces lo más apropiado es agregar variables ficticias al código para los diferentes grupos incluidos en la muestra o realizar un ANCOVA para probar si los parámetros del grupo son iguales. ¿Ignorar la heterogeneidad de una muestra invalida un análisis de regresión?

TAD
fuente

Respuestas:

8

Por lo general, se supone que la muestra es homogénea en el sentido de que los términos de error ϵi en la ecuación yi=β0+β1x1+β2x2++ϵi satisface las siguientes condiciones:

  1. Todos tienen media cero: E(ϵi)=0 para todos i,
  2. No están correlacionados: Cov(ϵi,ϵj)=0 para ij,
  3. Todos tienen la misma varianza: Cov(ϵi)=σ2 para todos i.

Estas se conocen como las condiciones de Gauss-Markov y aseguran que el estimador ordinario de mínimos cuadrados funcione bien (imparcialidad, mejor estimador imparcial lineal ...).

Tenga en cuenta que estas condiciones pueden cumplirse incluso si tiene observaciones de diferentes grupos. A menudo, sin embargo, ese no es el caso. Si hay diferencias en la media entre los grupos, se violan las condiciones primera y segunda. Si hay correlaciones dentro de los grupos, se viola la segunda condición. Si los grupos difieren en varianza, se viola el tercero.

La violación de las condiciones de Gauss-Markov puede causar todo tipo de problemas. Para algunas de las consecuencias de la varianza no constante, consulte la página de Wikipedia sobre heterocedasticidad .

Las transformaciones pueden ser útiles cuando no se cumple la tercera condición, pero si los diferentes grupos causan problemas con las condiciones uno y dos, parece más razonable agregar una variable ficticia de grupo o usar ANCOVA.

MånsT
fuente
1
+1. Si hay diferencias entre las medias del grupo y se ignora en el ajuste del modelo, entonces el modelo se ajustará a la mejor aproximación (dentro del subespacio que obliga a los grupos a ser homogéneos) que todavía tieneE(ε)=0, que efectivamente promediará los coeficientes sobre los grupos. Por supuesto, cuando los medios grupales son diferentes, este ajuste de modelo no es terriblemente útil, a menos que esté tratando de hacer inferencia sobre una persona seleccionada al azar cuya membresía grupal no conoce.
Macro
Estoy eliminando mi respuesta no porque algo esté mal, sino porque la última respuesta de MansT la cubre más completamente, excepto por la parte sobre el modelado de la función de varianza como se describe en el libro de Ray Carroll.
Michael R. Chernick