Tengo una variable aleatoria 1-D que es extremadamente sesgada. Para normalizar esta distribución, quiero usar la mediana en lugar de la media. mi pregunta es esta: ¿puedo calcular la varianza de la distribución usando la mediana en la fórmula en lugar de la media?
es decir, puedo reemplazar
con
Mi razonamiento detrás de esto es que, dado que la varianza es una medida de propagación con la tendencia central de una distribución, no debería ser un problema, pero estoy buscando validar esta lógica.
Respuestas:
La media minimiza el error al cuadrado (o la norma L2, ver aquí o aquí ), por lo que la elección natural de la varianza para medir la distancia de la media es usar el error al cuadrado (ver aquí por qué lo elevamos al cuadrado). Por otro lado, la mediana minimiza el error absoluto (norma L1), es decir, es un valor que está en el "medio" de sus datos, por lo que la distancia absoluta de la mediana (llamada Desviación Absoluta Mediana o MAD) parece ser un valor mejor medida del grado de variabilidad alrededor de la mediana. Puede leer más sobre estas relaciones en este hilo .
En pocas palabras, la variación difiere de MAD en cómo definen el punto central de sus datos y esto influye en la forma en que medimos la variación de los puntos de datos a su alrededor. Al cuadrar los valores, los valores atípicos tienen una mayor influencia en el punto central (media), mientras que en el caso de la mediana, todos los puntos tienen el mismo impacto, por lo que la distancia absoluta parece más apropiada.
Esto se puede mostrar también mediante una simple simulación. Si compara los valores de las distancias al cuadrado de la media y la mediana, entonces la distancia al cuadrado total es casi siempre menor de la media que de la mediana. Por otro lado, la distancia absoluta total es menor de la mediana, luego de la media. El código R para realizar la simulación se publica a continuación.
En el caso de usar la mediana en lugar de la media para estimar tal "varianza", esto conduciría a estimaciones más altas, que con el uso de la media como se hace tradicionalmente.
Por cierto, las relaciones de las normas L1 y L2 pueden considerarse también en el contexto bayesiano, como en este hilo .
fuente