Considere el siguiente experimento: un grupo de personas recibe una lista de ciudades y se les pide que marquen las ubicaciones correspondientes en un mapa del mundo (sin etiqueta). Para cada ciudad, obtendrá una dispersión de puntos centrados aproximadamente en la ciudad respectiva. Algunas ciudades, por ejemplo, Estambul, exhibirán menos dispersión que otras, según Moscú.
Supongamos que para una ciudad determinada, obtenemos un conjunto de muestras 2D , que representan la posición (x, y) de la ciudad (por ejemplo, en un sistema de coordenadas local) en el mapa asignado por la prueba sujeto i . Me gustaría expresar la cantidad de "dispersión" de los puntos en este conjunto como un solo número en las unidades apropiadas (km).
Para un problema 1D, elegiría la desviación estándar, pero ¿hay un análogo 2D que pueda elegirse razonablemente para la situación descrita anteriormente?
fuente
Respuestas:
Una cosa que podría usar es una medida de distancia desde un punto central, , como la media muestral de los puntos , o quizás el centroide de los puntos observados. Entonces, una medida de dispersión sería la distancia promedio desde ese punto central:( ¯ x , ¯ y )c=(c1,c2) (x¯¯¯,y¯¯¯)
donde . Hay muchas opciones potenciales para una medida de distancia, pero la norma (por ejemplo, la distancia euclidiana) puede ser una opción razonable: L 2zi={xi,yi} L2
Sin embargo, hay muchas otras posibles opciones. Ver http://en.wikipedia.org/wiki/Norm_%28mathematics%29
fuente
Una buena referencia sobre métricas para la distribución espacial de patrones de puntos es el manual de CrimeStat (en particular para esta pregunta, el Capítulo 4 será de interés). Similar a la Macro métrica sugerida, la Desviación de distancia estándar es similar a una desviación estándar 2D (la única diferencia es que se dividiría entre "n-2" no "n" en la primera fórmula que Macro dio).
Su ejemplo de experimento en realidad me recuerda un poco a cómo los estudios evalúan el Perfil Geográfico del Delincuente y, por lo tanto, las métricas utilizadas en esos trabajos pueden ser de interés. En particular, los términos precisión y exactitud se utilizan bastante y serían pertinentes para el estudio. Las conjeturas podrían tener una pequeña desviación estándar (es decir, precisa) pero aún así tener una precisión muy baja.
fuente
Creo que debería usar 'Distancia de Mahalanobis' en lugar de normas de distancia euclidiana, ya que tiene en cuenta la correlación del conjunto de datos y es 'invariante de escala'. Aqui esta el link:
http://en.wikipedia.org/wiki/Mahalanobis_distance
También puedes usar 'Half-Space Depth'. Es un poco más complicado pero comparte muchas propiedades atractivas. La profundidad del espacio medio (también conocida como profundidad de ubicación) de un punto dado en relación con un conjunto de datos P es el número mínimo de puntos de P que se encuentran en cualquier medio plano cerrado determinado por una línea a través de a. Aquí están los enlaces:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
fuente
De hecho, me encontré con un problema similar recientemente. Parece que quiere una forma de medir qué tan bien están dispersos los puntos en el área. Por supuesto, para una medición dada, tendría que darse cuenta de que si todos los puntos están en línea recta, la respuesta es cero, ya que no hay una variedad bidimensional.
De los cálculos que hice, esto es lo que se me ocurrió:
En este caso, Sxx y Syy son las varianzas de x y de y respectivamente, mientras que Sxy es algo así como la varianza mixta de x e y.
Para elaborar, suponiendo que hay n elementos, y representa el valor medio de x e representa la media de y:Xμ yμ
Espero que esto funcione para ti.
Además, si se pregunta cómo hacerlo en dimensiones más altas, como medir la dispersión de volumen o el volumen de surteron en 4 dimensiones, debe formar una matriz como esta:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
... ... ... ...
Y continúe por las dimensiones que necesite. Debería poder calcular los valores S dadas las definiciones proporcionadas anteriormente, pero para diferentes variables.
Una vez que se forma la matriz, toma el determinante, encuentra la raíz cuadrada y listo.
fuente
Para este ejemplo específico , donde hay una respuesta "correcta" predeterminada, volvería a trabajar las coordenadas x / y para que sean coordenadas polares alrededor de la ciudad que se les pidió que marcaran en el mapa. La precisión se mide contra el componente radial (media, sd, etc.). Un "ángulo promedio" también podría usarse para medir el sesgo.
Para mí, todavía estoy buscando una buena solución para cuando no hay un punto central predeterminado, y no me gusta la idea de un paso previo sobre los datos para crear un centroide.
fuente