Estimación robusta de curtosis?

11

Estoy usando el estimador habitual para la curtosis, , pero noto que incluso pequeños 'valores atípicos' en mi distribución empírica , es decir, pequeños picos lejos del centro, lo afectan enormemente. ¿Existe un estimador de curtosis que sea más robusto?

K^=μ^4σ^4
yoki
fuente

Respuestas:

8

Hay varios. Encontrará una comparación exhaustiva en este enlace a una versión sin delegar del documento (referencia adecuada al final de esta respuesta).

Debido a las limitaciones del problema, el desglose del algoritmo más robusto (el L / RMC) es como máximo del 12,5%. Una ventaja del L / RMC es que se basa en cuantiles y sigue siendo interpretable incluso cuando la distribución subyacente no tiene momentos. Otra ventaja es que no asume la simetría de la distribución de la parte no contaminada de los datos para medir el peso de la cola: de hecho, el algoritmo devuelve dos números: el RMC para el peso de la cola derecha y el LMC para el peso de la cola izquierda.

La robustez de un estimador se puede medir por su punto de ruptura. Sin embargo, la noción de punto de ruptura es complicada en este contexto. Intuitivamente, significa que un adversario necesitaría controlar al menos el 12.5% ​​de su muestra para hacer que este estimador tome valores arbitrarios (eso debe entenderse como un valor arbitrario dentro del rango de valores que el estimador puede devolver, ya que la medida del peso de la cola siempre está en por construcción: ninguna cantidad de contaminación puede, por ejemplo, hacer que el algoritmo regrese -1!). En la práctica, se encuentra que se puede reemplazar aproximadamente el 5% de la muestra con valores atípicos incluso muy patológicos sin causar que las estimaciones más afectadas (siempre hay dos) se aparten demasiado del valor que tenía en la muestra no contaminada.[0,1]

El L / RMC también está ampliamente implementado. Por ejemplo, puede encontrar una implementación de R aquí . Como se explica en el artículo vinculado anteriormente, para calcular el L / RMC, debe calcular el MC (el estimador implementado en el enlace) por separado en la mitad izquierda y derecha de sus datos. Aquí, la mitad derecha (izquierda) son las submuestras formadas por la observación (más pequeña) más grande que la mediana de su muestra original.

  • Brys, Hubert, Struyf. (2006) Medidas robustas del peso de la cola.
usuario603
fuente
2
¿No son estas medidas alternativas de peso de la cola en lugar de estimadores robustos de curtosis por decir? Esto puede ser lo que realmente quiere. pero no es exactamente lo que pidió. ¿Alguno / todos estos estimadores convergen a curtosis para muestras grandes?
AndrewH
Resumen del artículo: en los datos no contaminados que satisfacen las condiciones del orden convexo de Van Zwet (bajo el cual la medida de curtosis es significativa) convergen en una función monótona de curtosis.
usuario603
1
La curtosis de Pearson mide valores atípicos (observaciones extremas raras), simple y llanamente. Entonces, ¿qué estás buscando en su lugar? ¿Una medida de "pico"? Primero, eso no es en absoluto lo que mide la curtosis de Pearson. En segundo lugar, si desea una medida de "pico", primero debe definir lo que eso significa. Si puede definirlo, puede estimarlo. Una posibilidad es la segunda derivada del pdf de los datos estandarizados, evaluados en el pico. (De nada). Estoy seguro de que hay otros.
Peter Westfall
1
En realidad, doy tres teoremas matemáticos que relacionan la curtosis con las colas de la distribución, por lo que no se pueden falsificar: (i) Para todas las distribuciones con cuarto momento finito, la curtosis está entre E (Z ^ 4 * I (| Z |> 1 )) y E (Z ^ 4 * I (| Z |> 1)) +1. (ii) En la subclase para la cual la densidad de Z ^ 2 es continua y disminuye en (0,1), el "+1" puede reemplazarse por "+.5". (iii) Para cualquier secuencia de distribuciones que tengan curtosis -> infinito, E (Z ^ 4 * I (| Z |> b)) / curtosis -> 1, para cualquier b real. Todo está aquí: ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall el