Me gustaría realizar un análisis multivariado a nivel individual en pequeños niveles de agregación geográfica (distritos de recolección de censo de Australia). Claramente, el censo no está disponible en estos pequeños niveles de agregación por razones de privacidad, por lo que estoy investigando otras alternativas. Casi todas las variables de interés son categóricas. Tengo dos conjuntos de datos a mi disposición:
La muestra del censo del 1% está disponible en un nivel mucho mayor de agregación espacial (un área con una población de ~ 190,000 y una gran segregación espacial de la demografía).
Tablas de frecuencias para las variables que me interesan a nivel de área pequeña (500 áreas pequeñas, media pop = 385, sd = 319, mediana = 355).
¿Cómo puedo usar estos dos conjuntos de datos para simular una distribución de la población en el nivel de área pequeña que esté lo más cerca posible de la población real del área pequeña?
Aprecio que bien puede haber métodos de rutina para hacer esto; de ser así, un puntero a un libro de texto o artículos de revistas relevantes sería muy apreciado.
Respuestas:
El mapeo dasimétrico se centra principalmente en la interpolación de estimaciones de población en áreas más pequeñas que las disponibles en los datos actualmente difundidos (consulte esta pregunta para obtener una serie de referencias útiles sobre el tema). Con frecuencia esto se hizo simplemente identificando áreas (basadas en las características de la tierra) en las que obviamente no existe población, y luego volviendo a estimar las densidades de población (omitiendo esas áreas). Un ejemplo podría ser si hay un cuerpo de agua en una ciudad, otro podría ser si identifica parcelas industriales que no pueden tener ninguna población residencial. Los enfoques más recientes para el mapeo dasimétrico incorporan otros datos auxiliares en un marco probabilístico para asignar estimaciones de población (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).
Ahora es fácil ver la relación con su pregunta en cuestión. Desea las estimaciones de población de las áreas pequeñas. Pero, también debe quedar claro cómo puede estar a la altura de sus objetivos. No solo desea los datos de la población, sino también las características de esas poblaciones. Uno de los términos utilizados para describir esta situación es el problema del cambio de apoyo (Cressie, 1996; Gotway y Young, 2002). Tomando prestado de la literatura geoestadística en la que uno intenta hacer predicciones de una determinada característica en un área amplia a partir de muestras puntuales, el trabajo reciente ha intentado interpolar datos de área a diferentes zonas objetivo. Gran parte del trabajo de Pierre Goovaerts se centra en tales métodos de kriging de área a punto, un artículo reciente en la revista Geographical Analysis tiene varios ejemplos del método aplicado a diferentes materias (Haining et al., 2010), y una de mis aplicaciones favoritas está en este artículo (Young et al., 2009).
Sin embargo, lo que cito no debería verse como una panacea para el problema. En última instancia, muchos de los mismos problemas con la inferencia ecológica y el sesgo de agregación se aplican también a los objetivos de la interpolación regional. Es probable que muchas de las relaciones entre los datos de nivel micro simplemente se pierdan en el proceso de agregación, y tales técnicas de interpolación no podrán recuperarlas. Además, el proceso a través del cual los datos se interpolan empíricamente (a través de la estimación de variogramas a partir de los datos de nivel agregado) a menudo está bastante lleno de pasos ad-hoc que deberían hacer que el proceso sea cuestionable (Goovaerts, 2008).
Desafortunadamente, publico esto en una respuesta separada ya que la literatura de inferencia ecológica y la literatura sobre mapeo dasimétrico y kriging de área a punto no se superponen. Aunque la literatura sobre inferencia ecológica tiene muchas implicaciones para estas técnicas. Las técnicas de interpolación no solo están sujetas al sesgo de agregación, sino que las técnicas dasimétricas inteligentes (que utilizan los datos agregados para ajustar modelos para predecir las áreas más pequeñas) probablemente sospechen un sesgo de agregación. El conocimiento de las situaciones en las que se produce el sesgo de agregación debe ser esclarecedor en cuanto a las situaciones en las que la interpolación de área y el mapeo dasimétrico fallarán en gran medida (especialmente en lo que respecta a la identificación de correlaciones entre diferentes variables a nivel desagregado).
Citas
fuente
El trabajo de Gary King, en particular su libro "Una solución al problema de inferencia ecológica" (los dos primeros capítulos están disponibles aquí ), sería de interés (así como el software que lo acompaña para la inferencia ecológica). King muestra en su libro cómo se pueden mejorar las estimaciones de los modelos de regresión que utilizan datos agregados al examinar los límites potenciales que las agrupaciones de nivel inferior se han basado en los datos agregados disponibles. El hecho de que sus datos sean principalmente agrupaciones categóricas los hace susceptibles a esta técnica. (¡Aunque no se deje engañar, no es tanto una solución general como podría esperar dado el título!) Existe un trabajo más actual, pero el libro de King es IMO el mejor lugar para comenzar.
Otra posibilidad sería representar los límites potenciales de los datos mismos (en mapas o gráficos). Entonces, por ejemplo, puede informar la distribución por sexo a nivel agregado (digamos 5,000 hombres y 5,000 mujeres), y sabe que este nivel agregado abarca 2 unidades diferentes de pequeñas áreas de poblaciones 9,000 y 1,000 individuos. Entonces podría representar esto como una tabla de contingencia del formulario;
Aunque no tiene la información en las celdas para las agregaciones de nivel inferior, a partir de los totales marginales podemos construir valores potenciales mínimos o máximos para cada celda. Entonces, en este ejemplo, la
Men X Unit1
celda solo puede tomar valores entre 4,000 y 5,000 (cada vez que las distribuciones marginales sean más desiguales, menor será el intervalo de valores posibles que tomarán las celdas). Aparentemente obtener los límites de la tabla es más difícil de lo que esperaba ( Dobra y Fienberg, 2000 ), pero parece que hay una función disponible en laeiPack
biblioteca en R ( Lau et al., 2007, p. 43 ).El análisis multivariado con datos de nivel agregado es difícil, ya que inevitablemente se produce un sesgo de agregación con este tipo de datos. (En pocas palabras, solo describiría el sesgo de agregación ya que muchos procesos diferentes de generación de datos a nivel individual podrían dar como resultado asociaciones de nivel agregado) Una serie de artículos en la American Sociological Reviewen la década de 1970 son algunas de mis referencias favoritas para los temas (Firebaugh, 1978; Hammond, 1973; Hannan y Burstein, 1974), aunque pueden ser fuentes canónicas sobre el tema (Fotheringham y Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Creo que representar los límites potenciales que podrían tomar los datos podría ser incitante, aunque realmente está limitado por las limitaciones de los datos agregados para realizar análisis multivariados. Sin embargo, eso no impide que nadie lo haga en las ciencias sociales (¡para bien o para mal!)
Tenga en cuenta (como dijo Charlie en los comentarios) que la "solución" de King ha recibido una buena cantidad de crítica (Anselin y Cho, 2002; Freedman et al., 1998). Aunque estos critisicmos no son por decir sobre las matemáticas del método de King, más aún con respecto a qué situaciones en las que el método de King todavía no tiene en cuenta el sesgo de agregación (y estoy de acuerdo con Freedman y Anselin en las situaciones en las que los datos para las ciencias sociales aún son sospechosas, son mucho más comunes que las que cumplen con los supuestos de King). Esta es en parte la razón por la que sugiero simplemente examinar los límites (no hay nada de malo en eso), pero hacer inferencias sobre las correlaciones de nivel individual a partir de dichos datos requiere muchos más saltos de fe que en última instancia no están justificados en la mayoría de las situaciones.
Citas
fuente
No estoy seguro de que exista una respuesta bien definida en la literatura para esto, dado que la búsqueda de Google proporciona básicamente tres referencias utilizables en la estimación multivariada de áreas pequeñas. Pfeffermann (2002) analiza las variables de respuesta discreta en la sección 4 del documento, pero estos serán modelos univariados. Por supuesto, con los métodos jerárquicos bayesianos ( Rao 2003, Cap. 10 ), puedes hacer cualquier tipo de maravillas, pero si al final te encuentras simplemente replicando tus antecedentes (porque tienes muy pocos datos), esto sería terrible. resultado de su ejercicio de simulación. Además, Rao solo trata variables continuas.
Supongo que el mayor desafío será la descomposición de la matriz de covarianza en los componentes entre y dentro del área pequeña. Con una muestra del 1%, solo tendrá 3 observaciones de su SAE, por lo que puede ser difícil obtener una estimación estable del componente interno.
Si estuviera en su lugar, probaría una extensión multivariada del modelo de Pfeffermann con un efecto aleatorio multivariante del área pequeña. De hecho, puede terminar con un modelo bayesiano jerárquico para esto, si nada funciona basado en el diseño.
ACTUALIZACIÓN (para abordar el comentario de Andy a esta respuesta): los métodos de arranque para la estimación de áreas pequeñas ( Lahiri 2003 ) recrean específicamente una población plausible del estudio. Si bien el objetivo del ejercicio de arranque es estimar las variaciones de las estimaciones de área pequeña, los procedimientos deben ser de interés y relevancia para el problema publicado.
fuente