¿Análogo 2D de desviación estándar?

19

Considere el siguiente experimento: un grupo de personas recibe una lista de ciudades y se les pide que marquen las ubicaciones correspondientes en un mapa del mundo (sin etiqueta). Para cada ciudad, obtendrá una dispersión de puntos centrados aproximadamente en la ciudad respectiva. Algunas ciudades, por ejemplo, Estambul, exhibirán menos dispersión que otras, según Moscú.

Supongamos que para una ciudad determinada, obtenemos un conjunto de muestras 2D , que representan la posición (x, y) de la ciudad (por ejemplo, en un sistema de coordenadas local) en el mapa asignado por la prueba sujeto i . Me gustaría expresar la cantidad de "dispersión" de los puntos en este conjunto como un solo número en las unidades apropiadas (km).{(xi,yi)}(x,y)i

Para un problema 1D, elegiría la desviación estándar, pero ¿hay un análogo 2D que pueda elegirse razonablemente para la situación descrita anteriormente?

koletenbert
fuente
haciendo una conquista?
RockScience
Agregué la etiqueta espacial dado que el ejemplo es explícitamente espacial. Si usted (o cualquier otra persona) siente que no es necesario, no dude en revertir esa adición.
Andy W

Respuestas:

12

Una cosa que podría usar es una medida de distancia desde un punto central, , como la media muestral de los puntos , o quizás el centroide de los puntos observados. Entonces, una medida de dispersión sería la distancia promedio desde ese punto central:( ¯ x , ¯ y )c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

donde . Hay muchas opciones potenciales para una medida de distancia, pero la norma (por ejemplo, la distancia euclidiana) puede ser una opción razonable: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Sin embargo, hay muchas otras posibles opciones. Ver http://en.wikipedia.org/wiki/Norm_%28mathematics%29

Macro
fuente
Si bien la distancia será distinta de cero, esta es una opción extraña, ya que no está de acuerdo en el caso degenerado con la desviación estándar habitual en una dimensión. Entonces considere lugar. zyo-C2
Alex R.
6

Una buena referencia sobre métricas para la distribución espacial de patrones de puntos es el manual de CrimeStat (en particular para esta pregunta, el Capítulo 4 será de interés). Similar a la Macro métrica sugerida, la Desviación de distancia estándar es similar a una desviación estándar 2D (la única diferencia es que se dividiría entre "n-2" no "n" en la primera fórmula que Macro dio).

Su ejemplo de experimento en realidad me recuerda un poco a cómo los estudios evalúan el Perfil Geográfico del Delincuente y, por lo tanto, las métricas utilizadas en esos trabajos pueden ser de interés. En particular, los términos precisión y exactitud se utilizan bastante y serían pertinentes para el estudio. Las conjeturas podrían tener una pequeña desviación estándar (es decir, precisa) pero aún así tener una precisión muy baja.

Andy W
fuente
1

Creo que debería usar 'Distancia de Mahalanobis' en lugar de normas de distancia euclidiana, ya que tiene en cuenta la correlación del conjunto de datos y es 'invariante de escala'. Aqui esta el link:

http://en.wikipedia.org/wiki/Mahalanobis_distance

También puedes usar 'Half-Space Depth'. Es un poco más complicado pero comparte muchas propiedades atractivas. La profundidad del espacio medio (también conocida como profundidad de ubicación) de un punto dado en relación con un conjunto de datos P es el número mínimo de puntos de P que se encuentran en cualquier medio plano cerrado determinado por una línea a través de a. Aquí están los enlaces:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

VitalStatistix
fuente
1
Entiendo el uso de distancias de Mahalanobis cuando intentas saber si puntos particulares "pertenecen" al conjunto, pero no es la distancia euclidiana promedio del centroide más estrechamente relacionada con el concepto habitual de varianza / desviación estándar que se usa en un ajuste univariante?
Macro
2
¿Le importaría elaborar las afirmaciones "tiene en cuenta la correlación de los datos" y "es invariante en la escala"? ¿Qué pertinencia tiene cualquiera de estas cosas para la pregunta en cuestión?
Andy W
La extensión habitual de la desviación estándar a una dimensión superior es, por supuesto, una forma de calcular la distancia de un punto en particular desde el centro de los datos, pero aquí estamos normalizando cada punto, lo que facilita la realización de análisis de conglomerados o detección de valores atípicos. Además, la distancia de Mahalanobis es más adaptativa a los casos en que la distribución de puntos no es esférica. Para casos esféricamente simétricos, es igual a la desviación estándar extendida habitual, donde la matriz de covarianza de los puntos de datos se reduce a matriz de identidad.
VitalStatistix
1

De hecho, me encontré con un problema similar recientemente. Parece que quiere una forma de medir qué tan bien están dispersos los puntos en el área. Por supuesto, para una medición dada, tendría que darse cuenta de que si todos los puntos están en línea recta, la respuesta es cero, ya que no hay una variedad bidimensional.

De los cálculos que hice, esto es lo que se me ocurrió:

SXXSyy-SXy²

En este caso, Sxx y Syy son las varianzas de x y de y respectivamente, mientras que Sxy es algo así como la varianza mixta de x e y.

Para elaborar, suponiendo que hay n elementos, y representa el valor medio de x e representa la media de y:Xμyμ

SXX=1norteyo=1norte(X-Xμ)²
Syy=1norteyo=1norte(y-yμ)²
SXy=1norteyo=1norte(X-Xμ)(y-yμ)

Espero que esto funcione para ti.

Además, si se pregunta cómo hacerlo en dimensiones más altas, como medir la dispersión de volumen o el volumen de surteron en 4 dimensiones, debe formar una matriz como esta:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Y continúe por las dimensiones que necesite. Debería poder calcular los valores S dadas las definiciones proporcionadas anteriormente, pero para diferentes variables.

Una vez que se forma la matriz, toma el determinante, encuentra la raíz cuadrada y listo.

Máquina de matemáticas
fuente
0

Para este ejemplo específico , donde hay una respuesta "correcta" predeterminada, volvería a trabajar las coordenadas x / y para que sean coordenadas polares alrededor de la ciudad que se les pidió que marcaran en el mapa. La precisión se mide contra el componente radial (media, sd, etc.). Un "ángulo promedio" también podría usarse para medir el sesgo.

Para mí, todavía estoy buscando una buena solución para cuando no hay un punto central predeterminado, y no me gusta la idea de un paso previo sobre los datos para crear un centroide.

dsz
fuente