Diferencias en la definición de curtosis y su interpretación

Recientemente me di cuenta de que existen diferencias en los valores de curtosis proporcionados por SPSS y Stata.

Ver http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

Tengo entendido que la interpretación de lo mismo, por lo tanto, sería diferente.

¿Algún consejo sobre cómo lidiar con esto?

spss stata interpretation kurtosis Cesare Camestre
fuente

Conocía las dos primeras fórmulas y es bastante fácil distinguirlas; No había visto esa tercera fórmula.

Peter Flom - Restablece a Monica

Respuestas:

Las tres fórmulas

Tres fórmulas para la curtosis generalmente son utilizadas por diferentes programas. Enunciaré las tres fórmulas ( , y ) y los programas que las usan. $g_{2}$ $G_{2}$ $b_{2}$

La primera fórmula y la definición típica utilizada en muchos libros de texto es (esta es la segunda fórmula en el enlace que ha proporcionado) dondedenota losmomentos de muestra:

{sol}_{2} = \frac{{metro}_{4 4}}{{metro}_{2}^{2}}

$g_{2}=\frac{m_{4}}{m_{2}^{2}}$

m_{r}

$m_{r}$

{metro}_{r} = \frac{1}{norte} \sum (X_{yo} - \bar{X})^{r}

$m_{r}=\frac{1}{n}\sum(x_{i}-\bar{x})^{r}$

A veces, se agrega un término de corrección de -3 a esta fórmula para que una distribución normal tenga una curtosis de 0. La fórmula de curtosis con un término de -3 se llama curtosis en exceso (la primera fórmula en el enlace que ha proporcionado).

La segunda fórmula es (utilizada por SAS, SPSS y MS Excel; esta es la tercera fórmula en el enlace que ha proporcionado)

{sol}_{2} = \frac{k_{4 4}}{k_{2}^{2}} = \frac{norte - 1}{(norte - 2) (norte - 3)} [(norte + 1) {sol}_{2} + 6 6]

$G_{2} = \frac{k_{4}}{k_{2}^{2}}= \frac{n-1}{(n-2)(n-3)}\left[(n+1)g_{2}+6\right]$

donde es la curtosis como se define en la primera fórmula. $g_{2}$

La tercera fórmula es (utilizada por MINITAB y BMDP)

{si}_{2} = \frac{{metro}_{4 4}}{s^{4 4}} - 3 = {(\frac{norte - 1}{norte})}^{2} \frac{{metro}_{4 4}}{{metro}_{2}^{2}} - 3

$b_{2}=\frac{m_{4}}{s^{4}}-3=\left(\frac{n-1}{n}\right)^{2}\frac{m_{4}}{m_{2}^{2}}-3$

donde es la varianza muestral imparcial : $s^2$

s^{2} = \frac{1}{norte - 1} \sum (X_{yo} - \bar{X})^{2}

$s^2=\frac{1}{n-1}\sum(x_{i}-\bar{x})^2$

En Rla curtosis se puede calcular utilizando la kurtosisfunción del e1071paquete (enlace aquí ). La opción typedetermina cuál de las tres fórmulas se usa para los cálculos (1 = , 2 = , 3 = ). $g_{2}-3$ $G_{2}$ $b_{2}$

Estos dos documentos discuten y comparan las tres fórmulas: primero , segundo .

Resumen de las diferencias entre las fórmulas.

Usando , una distribución normal tiene un valor de curtosis de 3, mientras que en las fórmulas que involucran un término de corrección -3 (es decir, y ), una distribución normal tiene un exceso de curtosis de 0. $g_{2}$ $G_{2}$ $b_{2}$
es laúnica fórmula que proporcionaestimaciones imparcialespara muestras normales(es decir, la expectativa de bajo normalidad es cero, o ). $G_{2}$ $G_{2}$ $\mathbb{E}(G_{2})=0$
Para muestras grandes, la diferencia entre las fórmulas es insignificante y la elección no importa mucho.
Para muestras pequeñas de una distribución normal, la relación de las tres fórmulas en términos de los errores cuadrados medios (MSE) es: . Entonces tiene el más pequeño y el más grande (aunque solo es imparcial). Esto se debe a que tiene la mayor varianza de las tres fórmulas: $\operatorname{mse}(g_{2})<\operatorname{mse}(b_{2})<\operatorname{mse}(G_{2})$ $g_{2}$ $G_{2}$ $G_{2}$ $G_{2}$ . $\operatorname{Var}(b_{2})<\operatorname{Var}(g_{2})<\operatorname{Var}(G_{2})$
Para muestras pequeñas de distribuciones no normales , la relación de las tres fórmulas en términos de sesgo es: . En términos de errores cuadrados medios: . Entonces tiene el error cuadrático medio más pequeño y el sesgo más pequeño de las tres fórmulas. $\operatorname{bias}(G_{2})<\operatorname{bias}(g_{2})<\operatorname{bias}(b_{2})$ $\operatorname{mse}(G_{2})<\operatorname{mse}(g_{2})<\operatorname{mse}(b_{2})$ $G_{2}$ $b_{2}$ tiene el mayor error cuadrático medio y sesgo.
Para muestras grandes ( ) de distribuciones no normales $n>200$ , la relación de las tres fórmulas en términos de sesgo es: . En términos de errores medios al cuadrado: . $\operatorname{bias}(G_{2})<\operatorname{bias}(g_{2})<\operatorname{bias}(b_{2})$ $\operatorname{mse}(b_{2})<\operatorname{mse}(g_{2})<\operatorname{mse}(G_{2})$

Consulte también la página de Wikipedia y la página de MathWorld sobre curtosis.

COOLSerdash
fuente

Yo llamaría a esto una interpretación agradable y clara de "la historia habitual". Añadiría que los términos leptokurtic, mesokurtic, platykurtic son solo equipaje que deberíamos dejar en el siglo XX: tenemos una medida, en la que debemos pensar cuantitativamente. Más en serio, la interpretación máxima frente a plana simplemente no justifica la gran variación en las posibles formas de distribución, incluso aquellas que son simétricas. Finalmente, el sesgo en la práctica no muerde mucho a menos que esté jugando con muestras inapropiadamente pequeñas, ¡pero la variación realmente lo hace!

Nick Cox

¿Podría por favor aclarar el ítem de resumen # 2? Evidentemente,

es un estadístico de muestra, pero obviamente no es idénticamente cero para ninguna distribución que no sea degenerada. ¿Quizás quisiste decir que su expectativa es cero? (Por cierto, ¿qué es "

" en su fórmula?

quizás?)

G_{2}

$G_2$

γ_{2}

$\gamma_2$

g_{2}

$g_2$

whuber

@whuber: Sí, la expectativa de

es cero, por supuesto. El

fue un relicto de una respuesta anterior y debería ser

(cambiado ahora); He editado mi respuesta bastante pesadamente.

G_{2}

$G_{2}$

γ_{2}

$\gamma_{2}$

g_{2}

$g_{2}$

COOLSerdash

OK, se ve mejor. Lo votaré pero espero que finalmente elimines esa frase "Para una distribución normal

G_{2} = 0

$G_2=0$

whuber

El enlace en cuestión también habla de SAS. Pero, de hecho, nada en esta pregunta, excepto posiblemente el propio enfoque del afiche, lo limita a esos programas nombrados en particular.

Creo que necesitamos separar aquí diferentes tipos de problemas, algunos de los cuales son ilusorios y otros genuinos.

Algunos programas restan 3 y otros no, de modo que la medida de curtosis informada es 3 para variables gaussianas / normales sin resta y 0 con resta. He visto personas desconcertadas por eso, a menudo cuando la diferencia resulta ser 2.999 y no exactamente 3.
Algunos programas usan factores de corrección diseñados para garantizar que la curtosis se calcule sin sesgos. Estos factores de corrección se aproximan a 1 a medida que el tamaño de la muestra aumenta . Como la curtosis no se estima bien en muestras pequeñas de ninguna manera, esto no debería ser motivo de gran preocupación. $n$

Entonces, hay un pequeño problema con las fórmulas, ya que el n. ° 1 es mucho más grande que el n. ° 2, pero ambos son menores si se comprenden. El consejo claramente es mirar la documentación del programa que está utilizando, y si no hay documentación que explique ese tipo de detalles para abandonar ese programa de inmediato. Pero un caso de prueba tan simple como una variable (1, 2) produce una curtosis de 1 o 4 dependiendo del # 1 solo (sin factor de corrección).

La pregunta luego se refiere a la interpretación, pero este es un asunto mucho más abierto y contencioso.

Antes de llegar al área principal de discusión, una dificultad a menudo informada pero poco conocida es que las estimaciones de curtosis están limitadas en función del tamaño de la muestra. Escribí una reseña en Cox, NJ 2010. Los límites de la asimetría de la muestra y la curtosis. Stata Journal 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Resumen: La asimetría de la muestra y la curtosis están limitadas por las funciones del tamaño de la muestra. Los límites, o aproximaciones a ellos, se han redescubierto en varias ocasiones durante las últimas décadas, pero, sin embargo, parecen ser poco conocidos. Los límites imparten sesgo a la estimación y, en casos extremos, implican que ninguna muestra podría dar testimonio exacto de su distribución original. Los principales resultados se explican en una revisión tutorial, y se muestra cómo Stata y Mata pueden usarse para confirmar y explorar sus consecuencias.

Ahora, a lo que comúnmente se considera el meollo del asunto:

Muchas personas traducen la curtosis como pico, pero otros enfatizan que a menudo sirve como una medida del peso de la cola. De hecho, las dos interpretaciones podrían ser ambas palabras razonables para algunas distribuciones. Es casi inevitable que no haya una interpretación verbal simple de la curtosis: nuestro lenguaje no es lo suficientemente rico en las comparaciones de sumas de cuartos poderes de desviaciones de las medias y sumas de segundos poderes de los mismos.

En un clásico menor, que a menudo se pasa por alto, Irving Kaplansky (1945a) llamó la atención sobre cuatro ejemplos de distribuciones con diferentes valores de curtosis y comportamientos no consistentes con algunas discusiones sobre curtosis.

$x$ $c = \sqrt{\pi}$

$(1)\ \ \ (1 / 3c) (9/4 + x^4) \exp(-x^2)$

$(2)\ \ \ (3 / (c \sqrt8)) \exp(-x^2 / 2) - (1 / 6c) (9/4 + x^4) \exp(-x^2)$

$(3)\ \ \ (1 / 6c) (\exp(-x^2 / 4) + 4 \exp(-x^2))$

$(4)\ \ \ (3 \sqrt3 / 16c) (2 + x^2) \exp(-3x^2 / 4)$

$\approx$

Es instructivo trazar estas densidades. Los usuarios de Stata pueden descargar mi kaplanskyprograma desde SSC. Usar una escala logarítmica para la densidad puede ayudar.

Sin revelar todos los detalles, estos ejemplos socavan cualquier historia simple de que la curtosis baja o alta tiene una interpretación clara en términos de pico o incluso de cualquier otro contraste único.

Si el nombre de Irving Kaplansky suena, es probable que conozcas su trabajo en álgebra moderna. Él (1917-2006) fue un matemático canadiense (luego estadounidense) y enseñó e investigó en Harvard, Chicago y Berkeley, con un año de guerra en el Grupo de Matemáticas Aplicadas del Consejo de Defensa Nacional de la Universidad de Columbia. Kaplansky realizó importantes contribuciones a la teoría de grupos, la teoría de los anillos, la teoría de álgebras de operadores y la teoría de campos. Fue un consumado pianista y letrista y un entusiasta y lúcido expositor de las matemáticas. Tenga en cuenta también algunas otras contribuciones a la probabilidad y las estadísticas de Kaplansky (1943, 1945b) y Kaplansky y Riordan (1945).

Kaplansky, I. 1943. Una caracterización de la distribución normal. Annals of Mathematical Statistics 14: 197-198.

Kaplansky, I. 1945a. Un error común con respecto a la curtosis. Revista, Asociación Americana de Estadística 40: 259 solamente.

Kaplansky, I. 1945b. La distribución asintótica de corridas de elementos consecutivos. Anales de Estadística Matemática 16: 200-203.

Kaplansky, I. y Riordan, J. 1945. Emparejamiento múltiple y ejecuciones por el método simbólico. Anales de Estadística Matemática 16: 272-277.

Nick Cox
fuente

+1 Comentarios interesantes sobre Kaplansky, con cuyo trabajo algebraico he estado familiarizado.

whuber

Nick, tu comentario: "De hecho, las dos interpretaciones (pico y cola) podrían ser palabras razonables para algunas distribuciones". es incorrecto y, por lo tanto, no es útil, simplemente porque la curtosis no le dice nada sobre el "pico". En serio, ¿puedes incluso definir qué significa "pico"? Y, un seguimiento, si puedo: dada su definición de "pico" (suponiendo que pueda llegar a uno), ¿cómo se relaciona, matemáticamente, con la curtosis?

Peter Westfall

@Peter Westfall Si podemos estar de acuerdo en que la curtosis es lo que mide la curtosis, entonces mi argumento es solo el argumento de Kaplansky, que se basa en curvas concretas y resultados numéricos, no en enfrentamientos verbales, es decir, que la curtosis más alta a veces va con densidades máximas más altas, y viceversa. curtosis inferior. No soy del todo parcial al término pico, y cuando me veo obligado a simplificar verbalmente, tiendo a afirmar que en la práctica la curtosis es principalmente una historia de peso de la cola. Creo que las fórmulas aquí hacen todo el trabajo y tienen todo el peso estadístico y encuentran las polémicas verbales menos útiles.

Nick Cox

Además, sugiero que no puede haber una caracterización fácil de la curtosis, excepto distribuciones completamente simétricas. No creo que nadie esté obligado a definir el pico en absoluto; la definición que existe es la de curtosis y las preguntas prácticas son cómo pensar sobre ella y hasta qué punto es útil.

Nick Cox

La afirmación "simplemente porque la curtosis no te dice nada sobre el pico" no tiene fundamento. Las referencias faltantes ciertamente incluirían su trabajo en TAS, que es accesible para que las personas interesadas consideren su propia discusión más larga.

Nick Cox