Me dan una cuadrícula de valores enteros positivos. Estos números representan una intensidad que debería corresponder a la fuerza de creencia de una persona que ocupa esa ubicación de la cuadrícula (un valor más alto indica una creencia más alta). En general, una persona tendrá influencia sobre varias celdas de la cuadrícula.
Creo que el patrón de intensidades debería "verse gaussiano" en el sentido de que habrá una ubicación central de alta intensidad, y luego las intensidades disminuirán radialmente en todas las direcciones. Específicamente, me gustaría modelar los valores como provenientes de un "Gaussiano escalado" con un parámetro para la varianza y otro para el factor de escala.
Hay dos factores complicados:
- la ausencia de una persona no corresponderá a un valor cero, debido al ruido de fondo y otros efectos, pero los valores deberían ser menores. Sin embargo, pueden ser erráticos, y en una primera aproximación puede ser difícil de modelar como simple ruido gaussiano.
- El rango de intensidad puede variar. Para una instancia, los valores pueden variar entre 1 y 10, y en otra, entre 1 y 100.
Estoy buscando una estrategia de estimación de parámetros adecuada, o punteros a la literatura relevante. También se agradecerán los indicios de por qué estoy abordando este problema de la manera incorrecta :). He estado leyendo sobre kriging y los procesos gaussianos, pero esa parece ser una maquinaria muy pesada para mi problema.
fuente
Respuestas:
Puede usar este módulo de la biblioteca pysal python para los métodos de análisis de datos espaciales que analizo a continuación.
Su descripción de cómo la actitud de cada persona está influenciada por las actitudes de las personas que la rodean puede representarse mediante un modelo espacial autorregresivo (SAR) (también vea mi explicación SAR simple de esta respuesta SE 2 ). El enfoque más simple es ignorar otros factores y estimar la fuerza de la influencia de cómo las personas que los rodean afectan las actitudes de los demás mediante el uso de la estadística I de Moran .
Si desea evaluar la importancia de otros factores al estimar la fuerza de la influencia de las personas que lo rodean, una tarea más compleja, puede estimar los parámetros de una regresión: . Vea los documentos aquí . (Los métodos para estimar este tipo de regresión provienen del campo de la econometría espacial y pueden ser mucho más sofisticados que la referencia que proporcioné).y=bx+rhoWy+e
Su desafío será construir una matriz de pesos espaciales ( ). Creo que cada elemento de la matriz debe ser 1 o 0 en función de si la persona está dentro de cierta distancia, usted siente que es necesario para influir en la otra persona .w i j i jW wij i j
Para tener una idea intuitiva del problema, a continuación ilustramos cómo un proceso de generación de datos autorregresivo espacial (DGP) creará un patrón de valores. Para las 2 redes de valores simulados, los bloques blancos representan valores altos y los bloques oscuros representan valores bajos.
En la primera red debajo de los valores de la cuadrícula han sido generados por un proceso aleatorio normalmente distribuido (o gaussiano), donde es cero.rho
En la siguiente red debajo de los valores de la cuadrícula han sido generados por un proceso espacial autorregresivo, donde se ha establecido en algo alto, digamos .8.rho
fuente
Aquí hay una idea simple que podría funcionar. Como he dicho en los comentarios, si tiene una cuadrícula con intensidades, ¿por qué no ajustar la densidad de la distribución bivariada?
Aquí está el gráfico de muestra para ilustrar mi punto:
Cada punto de la cuadrícula se muestra como un cuadrado, coloreado de acuerdo con la intensidad. Superpuesta en el gráfico está el gráfico de contorno del gráfico de densidad normal bivariado. Como puede ver, las líneas de contorno se expanden en la dirección de intensidad decreciente. El centro estará controlado por la media de la bivariada normal y la propagación de la intensidad según la matriz de covarianza.
Para obtener las estimaciones de la media y la matriz de covarianza, se puede utilizar una optimización numérica simple, compare las intensidades con los valores de la función de densidad utilizando la media y la matriz de covarianza como parámetros. Minimizar para obtener las estimaciones.
Por supuesto, esto no es estrictamente una estimación estadística, pero al menos le dará una idea de cómo continuar.
Aquí está el código para reproducir el gráfico:
fuente
Su modelo es un campo aleatorio bidimensional , y está tratando de estimar la distribución conjunta de las variables aleatorias de valores enteros . Deberá asumir la estacionariedad espacial: es decir, la distribución conjunta de es la misma que la distribución conjunta de . En particular, la distribución marginal es la misma para cada celda. Una pregunta simple es la estructura de autocorrelación del campo. Es decir, ¿qué es dada la distancia ? Representamos esto como una funciónX[i,j] X[i,j] (X[i1,j1],...,X[im,jm]) (X[i1+k,j1+l]...,X[im+k,jm+l]) corr(X[i1,j1],X[i2,j2]) d([i1,j1],[i2,j2]) ρ(d) . Un modelo simple para la estructura de autocorrelación es , donde es una constante.ρ(d)=kd−1 k
Un efecto 'gaussiano' corresponde a una función de distancia cuadrática, pero hay muchas otras funciones de distancia que debe considerar, como la norma de taxi. Una vez que haya decidido una función de distancia y la forma de su modelo de autocorrelación, es lo suficientemente simple como para estimar por ejemplo, a través de la máxima probabilidad. Para obtener más ideas, busque "campo aleatorio".ρ ( d )d([i1,j1],[i2,j2])=|i1−i2|+|j1−j2| ρ(d)
fuente