Usando la mediana para calcular la varianza

10

Tengo una variable aleatoria 1-D que es extremadamente sesgada. Para normalizar esta distribución, quiero usar la mediana en lugar de la media. mi pregunta es esta: ¿puedo calcular la varianza de la distribución usando la mediana en la fórmula en lugar de la media?

es decir, puedo reemplazar

Var(X)=[(Ximean(X))2]/n

con

Var(X)=[(Ximedian(X))2]/n

Mi razonamiento detrás de esto es que, dado que la varianza es una medida de propagación con la tendencia central de una distribución, no debería ser un problema, pero estoy buscando validar esta lógica.

Rahul Singh
fuente
1
Al centrar la mediana de sus variables y luego dividirla por el MAD (desviación absoluta media), puede crear una distribución estandarizada mediana.
Mike Hunter
44
¡Puedes hacerlo! Pero creo que es justo llamarlo altamente no estándar y sugerir que necesita teoría y / o simulaciones para respaldarlo y no solo su intuición. Sospecho que será menos resistente que el estimador estándar. Por ejemplo, en un caso común sesgado a la derecha, la mediana será menor que la media, por lo que las desviaciones al cuadrado más grandes (de la mediana) ¡serán aún mayores! El punto principal es que si la varianza es muy poco confiable, es posible que deba pensar en medir la propagación de manera bastante diferente, en lugar de diferentes versiones de la varianza.
Nick Cox
1
Punto ortogonal: ¿"normalizar" significa escala de alguna manera, por ejemplo (valor ubicación) / escala, o significa acercarse a lo normal (gaussiano)?
Nick Cox
1
Este enfoque es inherentemente incoherente, porque los problemas que se abordan al reemplazar la media por la mediana se magnifican mediante el uso de la varianza en lugar de un estimador robusto de la propagación.
whuber

Respuestas:

8

La media minimiza el error al cuadrado (o la norma L2, ver aquí o aquí ), por lo que la elección natural de la varianza para medir la distancia de la media es usar el error al cuadrado (ver aquí por qué lo elevamos al cuadrado). Por otro lado, la mediana minimiza el error absoluto (norma L1), es decir, es un valor que está en el "medio" de sus datos, por lo que la distancia absoluta de la mediana (llamada Desviación Absoluta Mediana o MAD) parece ser un valor mejor medida del grado de variabilidad alrededor de la mediana. Puede leer más sobre estas relaciones en este hilo .

En pocas palabras, la variación difiere de MAD en cómo definen el punto central de sus datos y esto influye en la forma en que medimos la variación de los puntos de datos a su alrededor. Al cuadrar los valores, los valores atípicos tienen una mayor influencia en el punto central (media), mientras que en el caso de la mediana, todos los puntos tienen el mismo impacto, por lo que la distancia absoluta parece más apropiada.

Esto se puede mostrar también mediante una simple simulación. Si compara los valores de las distancias al cuadrado de la media y la mediana, entonces la distancia al cuadrado total es casi siempre menor de la media que de la mediana. Por otro lado, la distancia absoluta total es menor de la mediana, luego de la media. El código R para realizar la simulación se publica a continuación.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

En el caso de usar la mediana en lugar de la media para estimar tal "varianza", esto conduciría a estimaciones más altas, que con el uso de la media como se hace tradicionalmente.

Por cierto, las relaciones de las normas L1 y L2 pueden considerarse también en el contexto bayesiano, como en este hilo .

Tim
fuente