Se puede usar una base de datos de (población, área, forma) para mapear la densidad de población asignando un valor constante de población / área a cada forma (que es un polígono como un bloque del Censo, tramo, condado, estado, lo que sea). Sin embargo, las poblaciones generalmente no están distribuidas uniformemente dentro de sus polígonos. El mapeo dasimétrico es el proceso de refinar estas estimaciones de densidad por medio de datos auxiliares. Es un problema importante en las ciencias sociales como lo indica esta revisión reciente .
Supongamos, entonces, que tenemos disponible un mapa auxiliar de la cobertura del suelo (o cualquier otro factor discreto). En el caso más simple, podemos usar áreas obviamente inhabitables como cuerpos de agua para delinear dónde no está la población y, en consecuencia, asignar toda la población a las áreas restantes. Más generalmente, cada unidad del censo está tallada en k porciones que tienen áreas de superficie x j i , i = 1 , 2 , ... , k . Nuestro conjunto de datos se aumenta así a una lista de tuplas
donde es la población (supuestamente medida sin error) en la unidad j y, aunque esto no es estrictamente el caso, podemos suponer que cada x j i también se mide exactamente. En estos términos, el objetivo es dividir cada y j en una suma
donde cada y z j i estima la población dentro de la unidad j que reside en la clase de cobertura del suelo i . Las estimaciones deben ser imparciales. Esta partición refina el mapa de densidad de población mediante la asignación de la densidad z j i / x j i a la intersección de la j ésimo polígono censo y la i ª clase de cobertura.
Este problema difiere de la configuración de regresión estándar en formas destacadas:
- La partición de cada debe ser exacta.
- Los componentes de cada partición deben ser no negativos.
- No hay (por supuesto) ningún error en ninguno de los datos: todas las poblaciones cuentan y todas las áreas x son correctas.
Hay muchos enfoques para una solución, como el método de " mapeo dasymetric inteligente ", pero todos los que he leído tienen elementos ad hoc y un potencial obvio de sesgo. Estoy buscando respuestas que sugieran métodos estadísticos creativos, manejables computacionalmente. La aplicación inmediata se refiere a una colección de c. - 10 6 Unidades censales con un promedio de 40 personas cada una (aunque una fracción considerable tiene 0 personas) y alrededor de una docena de clases de cobertura del suelo.
fuente
Respuestas:
Es posible que desee comprobar el trabajo de Mitchel Langford en el mapeo dasimétrico.
Construye rásteres que representan la distribución de la población de Gales y algunos de sus enfoques metodológicos podrían ser útiles aquí.
Actualización: También puede echar un vistazo al trabajo de Jeremy Mennis (especialmente estos dos artículos).
fuente
dónde,
La suposición de error de distribución en el término de error tiene fines ilustrativos. Si es necesario, podemos cambiarlo según corresponda.
Denote el vector apilado dezj i por zj y los términos deterministas apilados de F( xj i, β) por Fj . Por lo tanto, tenemos:
where,
The first indicator constraint captures the idea that the sum of the deterministic terms should sum toyj and the second one captures the idea that the error residuals should sum to 0.
Model selection is trickier as we are decomposing the observedyj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2 .
Edit 1
Thinking some more the above formulation can be simplified as it has more constraints than needed.
where,
Denote the stacked vector ofzji by zj and the stacked deterministic terms of f(xji,β) by fj . Thus, we have:
where,
The constraint onzj ensures an exact decomposition.
fuente