¿Cómo combinar modelos de regresión?

8

Digamos que tengo tres conjuntos de datos de tamaño cada uno:n

y1 = altura de personas de EE. UU. solamente

y2 = alturas de hombres de todo el mundo

y3 = alturas de mujeres de todo el mundo

Y construyo un modelo lineal para cada uno con factores , :xii=1,...,k

y^j=β0+β1x1+β2x2+ϵj

con tiene las propiedades habituales para OLS. Y puedo usar un factor en más de una regresión. ϵxi


Mi pregunta es: ¿cómo podría combinar las regresiones de manera que pueda obtener estimaciones para:

y12 = altura de hombres de los EE. UU. solamente

y13 = altura de mujeres de los EE. UU. solamente

para lo cual no tengo datos


Pensé en algún tipo de ponderación:

y^12=w1y^1+(1w1)y^2

pero entonces no sabría qué usar para .w1

J4y
fuente
1
No tengo nada lo suficientemente sólido como para ser una respuesta, pero como comentario: lo primero que me viene a la mente es usar una única regresión jerárquica (mixta). Pero realmente no puedo entender cuáles serían los efectos aleatorios, por lo que tal vez no funcionaría. Sin embargo, pensé en lanzar la idea por ahí.
Wayne
Gracias por la sugerencia. Sí, parecería que para el modelo jerárquico tendría que hacerlo en ely12datos, no?
J4y
Mi pensamiento inicial fue sobre una intercepción por sexo, algo así como height ~ f1 + f2 + f3 + (1 | sex)en el paquete Rlmer
Wayne

Respuestas:

1

No está claro si desea estimar la altura para cada hombre y mujer (más un problema de clasificación) o para caracterizar la distribución de las alturas de cada sexo. Asumiré lo último. Tampoco especifica qué información adicional está utilizando en su modelo, por lo que me limitaré a abordar el caso en el que solo tiene datos de estatura (y datos de sexo, en el caso de ciudadanos no estadounidenses).

Recomiendo simplemente ajustar una mezcla de distribuciones a los datos de altura de los EE. UU. Solamente , porque las distribuciones de altura en hombres y mujeres son razonablemente diferentes. Esto estimaría los parámetros de dos distribuciones que, cuando se suman, describen mejor la variación en los datos. Los parámetros de estas distribuciones (media y varianza, ya que una distribución gaussiana debería funcionar bien) le brindan la información que busca. Los paquetes R mixtoolsy mixdistte permiten hacer esto; Estoy seguro de que hay muchos más también.

Esta solución puede parecer extraña, ya que omite toda la información que tiene fuera de los EE. UU., Donde conoce el sexo y la estatura de cada individuo. Pero creo que está justificado porque:

1) Tenemos una expectativa previa muy fuerte de que los hombres son en promedio más altos que las mujeres. La Lista de Wikipedia de la altura humana promedio en todo el mundo muestra ni siquiera un país o región donde las mujeres son más altas que los hombres. Por lo tanto, la identidad de la distribución con la mayor altura media no está realmente en duda.

2) La integración de información más específica de los datos no estadounidenses probablemente implicará asumir que la covarianza entre el sexo y la altura es la misma fuera de los EE. UU. Que dentro. Pero esto no es del todo cierto: la misma lista de Wikipedia indica que la proporción de alturas masculinas a femeninas varía entre aproximadamente 1.04 y 1.13.

3) Sus datos internacionales pueden ser mucho más complicados de analizar porque las personas en diferentes países también tienen una amplia variación en las distribuciones de altura. Por lo tanto, es posible que deba considerar el modelado de mezclas de mezclas de distribuciones. Esto también puede ser cierto en los EE. UU., Pero es probable que sea un problema menor que un conjunto de datos que incluye los holandeses (altura media: 184 cms) e indonesios (altura media: 158 cms). Y esos son promedios a nivel de país; Las subpoblaciones difieren en un grado uniforme.

mkt - Restablecer a Monica
fuente