Comparación de las colas de dos distribuciones de muestra.

13

Tengo dos conjuntos de datos que se centran aproximadamente en cero, pero sospecho que tienen colas diferentes. Conozco algunas pruebas para comparar la distribución con una distribución normal, pero me gustaría comparar directamente las dos distribuciones.

¿Existe una prueba simple para comparar la gordura de la cola de 2 distribuciones ?

Gracias
fred

RockScience
fuente
¿Es realmente significativa la etiqueta "colas gruesas" (para futuras preguntas)?
chl
@chl Dime, ciertamente no tengo tanta experiencia como tú en estadísticas. Pero la OMI es un sesgo clásico para subestimar la importancia de las colas. ¿Has leído el trabajo de Mandelbrot? Las colas gruesas son muy importantes en las estadísticas aplicadas para las finanzas y la crisis crediticia de 2008 se debió en parte a algunos modelos de precios que asumían la normalidad y subestimaban las colas gruesas de alguna distribución de correlación. Podemos discutir eso en otro hilo :)
RockScience
1
Esta pregunta es potencialmente interesante, pero alguna aclaración sería bienvenida. ¿Te preocupa una cola o ambas? ¿Cómo se mide la "gordura"? (¿Está dispuesto a cambiar y reescalar las dos distribuciones para hacer la comparación, por ejemplo?) ¿Cómo se miden las desviaciones en la "gordura"? Si contempla una prueba de hipótesis, ¿cuál será la hipótesis alternativa, precisamente?
whuber
@RockScience, tengo dos distribuciones y quiero comparar solo las colas, ¿lograste cómo hacerlo? Sé que puedes calcular la curtosis, pero ¿cómo probaste que ambas colas son diferentes?
usuario2380782

Respuestas:

2

Al construir un umbral, diciendo lambda, podemos probar la igualdad de dos medias o las variaciones de las dos distribuciones restringidas en la región de cola (\ lambda, infinito) en base a dos conjuntos de datos de observaciones que caen en esta región de cola. Por supuesto, la prueba t de dos muestras o la prueba F pueden estar bien pero no ser potentes ya que la variable aleatoria restringida en esta región de cola no es normal, incluso las originales lo son.

Lin-An Chen
fuente
La teoría del valor extremo estudia tales distribuciones truncadas: asintóticamente, la distribución de las colas generalmente pertenece a la familia de Pareto generalizada . También se podría tratar de ajustar los datos a esta familia de distribuciones y comparar los parámetros.
Vincent Zoonekynd
@Vincent Una cola puede tener prácticamente cualquier distribución. La teoría del valor extremo dice poco sobre las colas: se centra en la distribución de los máximos (o mínimos) de las muestras de iid, que es algo muy diferente.
whuber
1

¿Qué hay de ajustar la distribución generalizada de lambda y los intervalos de confianza de bootstrapping en los parámetros tercero y cuarto?

Mike Lawrence
fuente
2
¿Por qué esta familia de distribuciones sería particularmente buena para este problema y no otra familia como las distribuciones de Pearson?
whuber
1

La prueba de Chi cuadrado (prueba de bondad de ajuste) será muy buena para comparar las colas de dos distribuciones, ya que está estructurada para comparar dos distribuciones por segmentos de valores (representados gráficamente por un histograma). Y, las colas consistirán en la mayoría de los cubos.

Aunque esta prueba se centra en toda la distribución, no solo en la cola se puede observar fácilmente cuánto del valor de Chi cuadrado o divergencia se deriva de la diferencia en la gordura de las colas.

Observe que el histograma derivado en realidad puede brindarle visualmente mucha más información con respecto a la respectiva gordura de las colas que cualquier significación estadística relacionada con la prueba. Una cosa es afirmar que la gordura de las colas es estadísticamente diferente. Es otro observarlo visualmente. Dicen que una imagen vale más que mil palabras. A veces también vale mil números (tiene sentido dado que los gráficos encapsulan todos los números).

Sympa
fuente
3
Me parece que la prueba de Chi Square será particularmente pobre para identificar diferencias en las colas. Si las colas están cubiertas por muchos bins, entonces, ¡porque son colas! - puede haber pocos datos en cualquiera de los bins, invalidando la aproximación de chi-cuadrado. Si las colas están cubiertas por pocos contenedores, entonces pierde casi todo el poder para discriminar sus formas, y lo que logra discriminar puede no ser terriblemente relevante o útil. (Uno de los problemas que nos enfrentamos aquí es que "la gordura de la cola" no se ha definido, por lo que la pregunta es realmente demasiado vaga para responder así.)
whuber
@whuber, no puedo decir si estoy de acuerdo con tu comentario porque no entiendo completamente uno de tus puntos. ¿Qué quiere decir exactamente con "invalidar la aproximación de chi-cuadrado"?
Sympa
La prueba de chi-cuadrado se basa en una aproximación de la teoría normal a la distribución verdadera de la estadística de chi-cuadrado. Por lo general, esta aproximación se vuelve pobre cuando las poblaciones de basura caen por debajo de 5.
whuber
@whuber, gracias por la explicación. En vista de ello, creo que la primera frase de su comentario inicial puede no ser tan matizada como le hubiera gustado ("la prueba de Chi Square será particularmente pobre para identificar la diferencia en las colas"). Tal vez la declaración más apropiada hubiera sido "depende ..." Esta prueba tiene varios méritos, incluido el forzarlo a definir los contenedores relevantes. Y, igual de importante, facilitar la construcción de un histograma. Por supuesto, si tiene menos de 5 observaciones en un contenedor, perderá precisión como bien explicó.
Sympa
@Gaetan Agradezco la atención a los matices, pero en este caso el juicio parece justificado. En comparación con los muchos otros métodos disponibles para comparar distribuciones, la prueba Chi Squared no funciona bien. Si "define ubicaciones relevantes" en función de los datos mismos, la prueba no es válida. Además, un histograma no suele ser una forma útil de ver las colas de distribuciones. Sin embargo, soy reacio a proponer alternativas porque el problema está mal definido: ¿qué podría significar que dos distribuciones tengan la misma "gordura de colas"? La curtosis es una posibilidad, pero es una medida cruda.
whuber