Digamos que tengo tres conjuntos de datos de tamaño cada uno:
= altura de personas de EE. UU. solamente
= alturas de hombres de todo el mundo
= alturas de mujeres de todo el mundo
Y construyo un modelo lineal para cada uno con factores , :
con tiene las propiedades habituales para OLS. Y puedo usar un factor en más de una regresión.
Mi pregunta es: ¿cómo podría combinar las regresiones de manera que pueda obtener estimaciones para:
= altura de hombres de los EE. UU. solamente
= altura de mujeres de los EE. UU. solamente
para lo cual no tengo datos
Pensé en algún tipo de ponderación:
pero entonces no sabría qué usar para .
height ~ f1 + f2 + f3 + (1 | sex)
en el paquete Rlmer
Respuestas:
No está claro si desea estimar la altura para cada hombre y mujer (más un problema de clasificación) o para caracterizar la distribución de las alturas de cada sexo. Asumiré lo último. Tampoco especifica qué información adicional está utilizando en su modelo, por lo que me limitaré a abordar el caso en el que solo tiene datos de estatura (y datos de sexo, en el caso de ciudadanos no estadounidenses).
Recomiendo simplemente ajustar una mezcla de distribuciones a los datos de altura de los EE. UU. Solamente , porque las distribuciones de altura en hombres y mujeres son razonablemente diferentes. Esto estimaría los parámetros de dos distribuciones que, cuando se suman, describen mejor la variación en los datos. Los parámetros de estas distribuciones (media y varianza, ya que una distribución gaussiana debería funcionar bien) le brindan la información que busca. Los paquetes R
mixtools
ymixdist
te permiten hacer esto; Estoy seguro de que hay muchos más también.Esta solución puede parecer extraña, ya que omite toda la información que tiene fuera de los EE. UU., Donde conoce el sexo y la estatura de cada individuo. Pero creo que está justificado porque:
1) Tenemos una expectativa previa muy fuerte de que los hombres son en promedio más altos que las mujeres. La Lista de Wikipedia de la altura humana promedio en todo el mundo muestra ni siquiera un país o región donde las mujeres son más altas que los hombres. Por lo tanto, la identidad de la distribución con la mayor altura media no está realmente en duda.
2) La integración de información más específica de los datos no estadounidenses probablemente implicará asumir que la covarianza entre el sexo y la altura es la misma fuera de los EE. UU. Que dentro. Pero esto no es del todo cierto: la misma lista de Wikipedia indica que la proporción de alturas masculinas a femeninas varía entre aproximadamente 1.04 y 1.13.
3) Sus datos internacionales pueden ser mucho más complicados de analizar porque las personas en diferentes países también tienen una amplia variación en las distribuciones de altura. Por lo tanto, es posible que deba considerar el modelado de mezclas de mezclas de distribuciones. Esto también puede ser cierto en los EE. UU., Pero es probable que sea un problema menor que un conjunto de datos que incluye los holandeses (altura media: 184 cms) e indonesios (altura media: 158 cms). Y esos son promedios a nivel de país; Las subpoblaciones difieren en un grado uniforme.
fuente