Error estándar de la mediana

¿Es correcta la siguiente fórmula si quiero medir el error estándar de la mediana en el caso de una muestra pequeña con distribución no normal (estoy usando python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

standard-error median María
fuente

Respuestas:

Basado en algunos de los comentarios de @ mary, creo que lo siguiente es apropiado. Parece que está seleccionando la mediana porque la muestra es pequeña.

Si estaba seleccionando mediana porque es una muestra pequeña, no es una buena justificación. Selecciona mediana porque la mediana es un valor importante. Dice algo diferente de la media. También puede seleccionarlo para algunos cálculos estadísticos porque es robusto frente a ciertos problemas como valores atípicos o sesgos. Sin embargo, el tamaño de muestra pequeño no es uno de esos problemas contra los que es robusto. Por ejemplo, cuando el tamaño de la muestra se reduce, en realidad es mucho más sensible al sesgo que la media.

John
fuente

Gracias John! En realidad, elegí usar la mediana en lugar de la media por la razón que acabas de escribir. Tengo diferentes muestras, todas ellas con distribución no gaussiana. Hay muestras que contienen más de 50 puntos, otras que contienen menos de 10 puntos, pero para todos ellos creo que su comentario es válido, ¿no?

Mary

Con tan pocos puntos, no estoy seguro de lo que puede decir sobre la distribución subyacente. Si está comparando muestras que contienen menos de 10 con muestras que contienen 50 y la distribución subyacente no es simétrica, una mediana mostrará un efecto incluso si no hay uno porque tendrá más sesgo en la muestra pequeña que en la grande. La media no lo hará.

John

En el futuro, desarrolle mejor sus preguntas y pregunte más sobre lo que realmente necesita saber. Di por qué has hecho lo que has hecho hasta ahora y describe los datos que tienes bien. Obtendrás respuestas mucho mejores.

John

" un tamaño de muestra pequeño no es uno de esos problemas contra los que es robusto " vale un +1 por sí solo; el resto es un extra

Glen_b -Reinstate a Monica

De hecho, Huber señala en su libro que no existe un concepto único de robustez. Hay robustez en los valores atípicos (y para eso es robusta la mediana). Sin embargo, otra visión es la robustez del error de medición, y para eso es robusta la media, ya que promedia estos errores de medición. Sin embargo, la mediana es altamente susceptible a las fluctuaciones de error de medición, ya que pueden afectar el centro de la distribución tanto como las colas.

StasK

Sokal y Rohlf dan esta fórmula en su libro Biometry (página 139). En "Comentarios sobre aplicabilidad" escriben: Muestras grandes de poblaciones normales. Por lo tanto, me temo que la respuesta a su pregunta es no. Ver también aquí .

Una forma de obtener el error estándar y los intervalos de confianza para la mediana en muestras pequeñas con distribuciones no normales sería el arranque. Esta publicación proporciona enlaces a paquetes de Python para bootstrapping.

Advertencia

@whuber señaló que el arranque de la mediana en pequeñas muestras no es muy informativo ya que las justificaciones del arranque son asintóticas (ver comentarios a continuación).

COOLSerdash
fuente

¡gracias por tu respuesta! Sé que el bootstrapping sería una alternativa, solo estaba adivinando si hay una manera de medir el error de la mediana de una manera diferente. ¿La respuesta es no también para el error estándar en el MEAN (la misma pequeña muestra no gaussiana)?

Mary

@mary Para el error estándar de la media, Sokal y Rohl escriben que es aplicable para "cualquier [...] población con variación finita". Entonces, la respuesta para el error estándar de la media parece ser sí, puede calcularlo. Nota al margen: aunque existen distribuciones (por ejemplo, la distribución de Cauchy) que no tienen una varianza o media definida y, en tales casos, no se puede calcular el SEM.

COOLSerdash

t

$t$

t

$t$

@whuber Gracias por tu comentario. Es bueno saberlo. Eliminé el consejo para iniciar la mediana en pequeñas muestras de mi respuesta.

COOLSerdash

No estaba tratando de sugerir que fuera un mal consejo: solo quería señalar sus limitaciones (inevitables). Aprender mucho de pequeñas muestras es difícil. Pero el arranque de muestras pequeñas es doblemente tenso, porque no existe una justificación teórica que lo respalde (toda la justificación es asintótica).

whuber

UN s . V un r . [\hat{metro}] = \frac{1}{4 4 F (metro)^{2} norte}

${\rm As. Var.}[\hat m] = \frac1{4f(m)^2 n}$ dónde

m

$m$ es la verdadera mediana, y

f (m)

$f(m)$ es la verdadera densidad en ese punto.

Para cualquier distribución que no sea la normal (y Mary admite que esto es dudoso en sus datos), tendría un factor diferente. Obteniendo la estimación mediana $\hat m$ no es un gran problema, aunque puede comenzar a agonizar sobre los valores medios para el número par de observaciones frente a invertir el cdf o algo así. El valor de densidad relevante puede estimarse mediante estimadores de densidad del núcleo , si es necesario. En general, esto, por supuesto, es relativamente dudoso ya que se están tomando tres aproximaciones:

Que la fórmula asintótica para la varianza funciona para la muestra pequeña;
Que la mediana estimada es lo suficientemente cercana a la mediana verdadera;
Que el estimador de densidad del núcleo da un valor preciso.

Cuanto menor es el tamaño de la muestra, más dudoso se vuelve.

StasK
fuente

Quizás valga la pena agregar que el número mágico es

\sqrt{\frac{π}{2}} \approx 1.253314

$\sqrt{\dfrac{\pi}{2}} \approx 1.253314$

Henry