Valores nulos en el análisis de regresión ponderada geográficamente

12

Algunas de mis variables explicativas tienen algunos valores nulos para ciertos polígonos.

¿Puede el análisis de regresión ponderado geográficamente manejar estos, o debería eliminar todo el polígono y todos los datos (variables dependientes e independientes para ese polígono en particular)?

I Heart Beats
fuente
¿Qué representan estos nulos? ¿Que un valor no es aplicable o que existe pero es desconocido? Si es esto último, ¿por qué se desconoce? (La principal preocupación es si la razón por la que se desconoce un valor está relacionada de alguna manera con el valor en sí mismo; por ejemplo, si está estudiando hidrología y utiliza la cobertura del suelo como una variable explicativa, entonces si la cobertura del suelo es desconocida debido a las inundaciones, esa es información importante y significa mucho más que un simple valor perdido.)
whuber
1
Gracias whuber, algunos de los valores nulos representan datos que se omitieron por confidencialidad debido a pequeñas unidades de agregación, otros simplemente no estaban disponibles, pero no como resultado de las variables explicativas que afectan a otras varibales. Tengo valores cero verdaderos, por lo que el cero no representa ningún evento / tasa para ese polígono en particular y también tengo algunos valores nulos donde faltan los datos. Como tengo alrededor de 29 variables explicativas para comenzar, si elimino los polígonos donde para las filas que contienen nulos, estoy perdiendo 8 polígonos de 279 y esperaba no tener que hacerlo. ¡Gracias!
I Heart Beats
Me alegra que tenga información y teorías sobre la falta. Es posible que desee ser un poco cauteloso con esas unidades pequeñas, ya que los valores de casi cualquier variable podrían estar relacionados con el tamaño de la región que representa, creando así un sesgo potencial en el patrón de falta.
whuber
2
Puede incorporar valores nulos introduciendo variables para indicar su presencia y codificando todos los resultados nulos originales con un valor común (el valor que elija realmente no importa). Necesitará un indicador separado para cada variable que contenga valores nulos. Hagas lo que hagas, ¡no reemplaces los nulos por ceros (o cualquier otra constante)! Un nulo significa algo completamente diferente a cero.
whuber
1
@whuber Parece que puede haber suficiente en tus comentarios para escribir una respuesta sobre este.
PolyGeo

Respuestas:

1

Puede intentar adivinar los valores 'nulos' de los datos circundantes. Eso sería mejor que dejarlos fuera, porque de esa manera no perderá datos. Por supuesto, debes tener cuidado al adivinar los valores. Porque si su suposición es parcial, su modelo también lo estará.

ver también: http://handbook.cochrane.org/chapter_16/16_1_2_general_principles_for_dealing_with_missing_data.htm

y:

Precaución:

Siempre que use shapefiles, tenga en cuenta que no pueden almacenar valores nulos. En consecuencia, las herramientas u otros procedimientos que crean archivos de forma a partir de entradas que no sean de archivo pueden almacenar valores nulos como cero o como un número negativo muy pequeño (-DBL_MAX = -1.7976931348623158e + 308). Esto puede conducir a resultados inesperados. Consulte también: Consideraciones de geoprocesamiento para la salida del archivo shape. ( http://desktop.arcgis.com/en/arcmap/10.3/tools/spatial-statistics-toolbox/geographically-weighted-regression.htm )

LMB
fuente