¿Entonces qué? ¿Si no, porque no?
Para una muestra en la línea, la mediana minimiza la desviación absoluta total. Parece natural extender la definición a R2, etc., pero nunca la he visto. Pero entonces, he estado en el jardín izquierdo durante mucho tiempo.
multivariate-analysis
spatial
median
phv3773
fuente
fuente
Respuestas:
No estoy seguro de que haya una definición aceptada para una mediana multivariada. Con el que estoy familiarizado es con el punto medio de Oja , que minimiza la suma de volúmenes de simplices formados sobre subconjuntos de puntos. (Consulte el enlace para obtener una definición técnica).
Actualización: El sitio al que se hace referencia para la definición de Oja anterior también tiene un buen artículo que cubre una serie de definiciones de una mediana multivariada:
fuente
Como @Ars dijo que no hay una definición aceptada (y este es un buen punto). Existen familias de alternativas generales de formas de generalizar cuantiles en , creo que las más significativas son:Rd
Generalizar el proceso cuantil Seala medida empírica (= la proporción de observaciones en). Luego, conun subconjunto bien elegido de los conjuntos de Borel enyuna medida de valor real, puede definir la función de cuantil empírica:A A R d λPn(A) A A Rd λ
Suponga que puede encontrar un que le da el mínimo. Entonces el conjunto (o un elemento del conjunto) le da la mediana cuando se hace lo suficientemente pequeño. La definición de la mediana se recupera cuando se usa y . La respuesta de Ars cae en ese marco, supongo ... la ubicación del medio espacio de tukey se puede obtener usando y (con , ).At A1/2−ϵ∩A1/2+ϵ ϵ A=(]−∞,x]x∈R) λ(]−∞,x])=x A(a)=(Hx=(t∈Rd:⟨a,t⟩≤x) λ(Hx)=x x∈R a∈Rd
definición variacional y estimación M La idea aquí es que la -quantilede una variable aleatoriaense puede definir a través de una igualdad variacional.α Qα Y R
La definición más común es usar la función de regresión cuantil (también conocida como pérdida de pinball, ¿adivina por qué?) . El caso day puede generalizar eso a una dimensión más alta usando distancias como se hace en @Srikant Answer . Esta es una mediana teórica pero le da una mediana empírica si reemplaza la expectativa por la expectativa empírica (media).ρα Qα=arginfx∈RE[ρα(Y−x)] α=1/2 ρ1/2(y)=|y| l1
Pero Kolshinskii propone utilizar la transformación Legendre-Fenchel: desde donde para . Él da muchas razones profundas para eso (ver el documento;)). Generalizar esto a dimensiones más altas requiere trabajar con un y reemplazar por pero puede tomar .Qα=Argsups(sα−f(s)) f(s)=12E[|s−Y|−|Y|+s] s∈R α sα ⟨s,α⟩ α=(1/2,…,1/2)
Obviamente hay puentes entre las diferentes formulaciones. No todos son obvios ...
fuente
Hay distintas formas de generalizar el concepto de mediana a dimensiones superiores. Una que aún no se menciona, pero que se propuso hace mucho tiempo, es construir un casco convexo, despegarlo e iterar todo el tiempo que pueda: lo que queda en el último casco es un conjunto de puntos que todos son candidatos a ser " medianas ".
"Golpearse la cabeza" es otro intento más reciente (c. 1980) de construir un centro robusto en una nube de puntos 2D. (El enlace es a documentación y software disponible en el Instituto Nacional del Cáncer de EE. UU.)
La razón principal por la que hay múltiples generalizaciones distintas y ninguna solución obvia es que R1 se puede ordenar pero R2, R3, ... no se pueden ordenar.
fuente
La mediana geométrica es el punto con la distancia euclidiana promedio más pequeña desde las muestras.
fuente
La mediana del espacio medio de Tukey se puede extender a> 2 dimensiones usando DEEPLOC, un algoritmo debido a Struyf y Rousseeuw; ver aquí para más detalles.
El algoritmo se utiliza para aproximar el punto de mayor profundidad de manera eficiente; Los métodos ingenuos que intentan determinar exactamente esto generalmente están en conflicto con (la versión computacional de) "la maldición de la dimensionalidad", donde el tiempo de ejecución requerido para calcular una estadística crece exponencialmente con el número de dimensiones del espacio.
fuente
Una definición que se acerca a ella, para distribuciones unimodales, es la mediana del espacio medio de tukey
fuente
No sé si existe tal definición, pero intentaré extender la definición estándar de la mediana a . Usaré la siguiente notación:R2
Para extender la definición de la mediana a , elegimos y para minimizar lo siguiente:R2 mx my
El problema ahora es que necesitamos una definición de lo que queremos decir con:
Lo anterior es, en cierto sentido, una métrica de distancia y son posibles varias definiciones posibles.
Eucliedan Metric
Calcular la mediana bajo la métrica euclidiana requerirá calcular la expectativa de lo anterior con respecto a la densidad articular .f(x,y)
Taxicab Metric
Calcular la mediana en el caso de la métrica del taxi implica calcular la mediana de e separado, ya que la métrica es separable en e .X Y x y
fuente