Modelo para la estimación de la densidad de población.

14

Se puede usar una base de datos de (población, área, forma) para mapear la densidad de población asignando un valor constante de población / área a cada forma (que es un polígono como un bloque del Censo, tramo, condado, estado, lo que sea). Sin embargo, las poblaciones generalmente no están distribuidas uniformemente dentro de sus polígonos. El mapeo dasimétrico es el proceso de refinar estas estimaciones de densidad por medio de datos auxiliares. Es un problema importante en las ciencias sociales como lo indica esta revisión reciente .

Supongamos, entonces, que tenemos disponible un mapa auxiliar de la cobertura del suelo (o cualquier otro factor discreto). En el caso más simple, podemos usar áreas obviamente inhabitables como cuerpos de agua para delinear dónde no está la población y, en consecuencia, asignar toda la población a las áreas restantes. Más generalmente, cada unidad del censo está tallada en k porciones que tienen áreas de superficie x j i , i = 1 , 2 , ... , k . Nuestro conjunto de datos se aumenta así a una lista de tuplasjkxjii=1,2,,k

(yj,xj1,xj2,,xjk)

donde es la población (supuestamente medida sin error) en la unidad j y, aunque esto no es estrictamente el caso, podemos suponer que cada x j i también se mide exactamente. En estos términos, el objetivo es dividir cada y j en una sumayjjxjiyj

yj=zj1+zj2++zjk

donde cada y z j i estima la población dentro de la unidad j que reside en la clase de cobertura del suelo i . Las estimaciones deben ser imparciales. Esta partición refina el mapa de densidad de población mediante la asignación de la densidad z j i / x j i a la intersección de la j ésimo polígono censo y la i ª clase de cobertura. zji0zjijizji/xjijthith

Este problema difiere de la configuración de regresión estándar en formas destacadas:

  1. La partición de cada debe ser exacta. yj
  2. Los componentes de cada partición deben ser no negativos.
  3. No hay (por supuesto) ningún error en ninguno de los datos: todas las poblaciones cuentan y todas las áreas xyj son correctas. xji

Hay muchos enfoques para una solución, como el método de " mapeo dasymetric inteligente ", pero todos los que he leído tienen elementos ad hoc y un potencial obvio de sesgo. Estoy buscando respuestas que sugieran métodos estadísticos creativos, manejables computacionalmente. La aplicación inmediata se refiere a una colección de c. - 10 6 Unidades censales con un promedio de 40 personas cada una (aunque una fracción considerable tiene 0 personas) y alrededor de una docena de clases de cobertura del suelo.105106

whuber
fuente
Problema de formato ahora corregido. Fue un error
Rob Hyndman
@Rob Gracias, y gracias a todas las personas que vieron esto: vi sus comentarios antes de que fueran eliminados y estoy agradecido por sus esfuerzos.
whuber
1
También este: P. A Zandbergen y D. A Ignizio, “Comparación de técnicas de mapeo dasimétrico para estimados de población de área pequeña”, Cartografía e información geográfica, 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Lo que parece requerir una mezcla.
fgregg
1
Este documento podría ser útil: Hwahwan Kim y Xiaobai Yao, "Interpolación pirofiláctica revisitada: integración con el método de mapeo dasimétrico", International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
fgregg
1
Ya sabes, el mapeo dasimétrico en última instancia como un problema de inferencia ecológica. El trabajo reciente de K. Imai podría ser útil: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg

Respuestas:

4

Es posible que desee comprobar el trabajo de Mitchel Langford en el mapeo dasimétrico.

Construye rásteres que representan la distribución de la población de Gales y algunos de sus enfoques metodológicos podrían ser útiles aquí.

Actualización: También puede echar un vistazo al trabajo de Jeremy Mennis (especialmente estos dos artículos).

radek
fuente
2
Gracias. Ese trabajo proporciona un puntero a una red de investigaciones recientes sobre mapeo dasimétrico.
whuber
2

xji . Denota esta relación de la siguiente manera:

zji=f(xji,β)

f(.) Será, en el mejor de los casos, una aproximación a la relación real y, por lo tanto, la necesidad de incorporar el error en la ecuación anterior. Por lo tanto, lo anterior se convierte en:

zji=f(xji,β)+ϵji

dónde,

ϵjiN(0,σ2)

La suposición de error de distribución en el término de error tiene fines ilustrativos. Si es necesario, podemos cambiarlo según corresponda.

yjif(.)

iϵji=0

yoF(Xjyo,β)=yj

Denote el vector apilado de zjyo por zj y los términos deterministas apilados de F(Xjyo,β) por Fj. Por lo tanto, tenemos:

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

where,

e is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to yj and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed yj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2.

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

zji=f(xji,β)+ϵji

where,

ϵjiN(0,σ2)

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(zje=yj)

where,

e is a vector of ones of appropriate dimension.

The constraint on zj ensures an exact decomposition.


fuente
2
@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.
whuber