Ejemplos de la vida real de distribuciones con asimetría negativa

20

Inspirado en " ejemplos reales de distribuciones comunes ", me pregunto qué ejemplos pedagógicos utilizan las personas para demostrar asimetría negativa. Hay muchos ejemplos "canónicos" de distribuciones simétricas o normales que se usan en la enseñanza, ¡incluso si algunas como la altura y el peso no sobreviven al escrutinio biológico más cercano! La presión arterial podría estar más cerca de la normalidad. Me gustan los errores de medición astronómicos, de interés histórico, intuitivamente no es más probable que se encuentren en una dirección que en otra, y los errores pequeños son más probables que los grandes.

Ejemplos pedagógicos comunes de asimetría positiva incluyen los ingresos de las personas; kilometraje en autos usados ​​para la venta; tiempos de reacción en un experimento de psicología; precios de la vivienda; número de reclamaciones de accidentes por parte de un cliente de seguros; cantidad de niños en una familia. Su razonabilidad física a menudo se deriva de estar limitada por debajo (generalmente por cero), con valores bajos plausibles, incluso comunes, pero se sabe que ocurren valores muy grandes (a veces órdenes de magnitud más altos).

Para el sesgo negativo, me resulta más difícil dar ejemplos inequívocos y vívidos que un público más joven (estudiantes de secundaria) pueda comprender intuitivamente, tal vez porque menos distribuciones de la vida real tienen un límite superior claro. Un ejemplo de mal gusto que me enseñaron en la escuela fue "número de dedos". La mayoría de la gente tiene diez, pero algunos pierden uno o más en accidentes. ¡El resultado fue "el 99% de las personas tienen un número de dedos superior al promedio"! La polidactilia complica el problema, ya que diez no es un límite superior estricto; Dado que tanto los dedos faltantes como los extra son eventos raros, puede no estar claro para los estudiantes qué efecto predomina.

Usualmente uso una distribución binomial con alto . Pero los estudiantes a menudo encuentran que "el número de componentes satisfactorios en un lote está sesgado negativamente" menos intuitivo que el hecho complementario de que "el número de componentes defectuosos en un lote está sesgado positivamente". (El libro de texto tiene un tema industrial; prefiero huevos rotos e intactos en una caja de doce). Tal vez los estudiantes sientan que el "éxito" debería ser raro.p

Otra opción es señalar que si está sesgado positivamente, entonces está sesgado negativamente, pero colocar esto en un contexto práctico ("los precios negativos de la vivienda están sesgados negativamente") parece condenado al fracaso pedagógico. Si bien hay beneficios de enseñar los efectos de las transformaciones de datos, parece prudente dar un ejemplo concreto primero. Preferiría uno que no parezca artificial, donde el sesgo negativo sea bastante inequívoco, y para el cual la experiencia de vida de los estudiantes les dé una conciencia de la forma de la distribución.- XXX

Silverfish
fuente
44
No es evidente que negar una variable sea una "falla pedagógica", porque existe la opción de agregar una constante sin cambiar la forma de la distribución. Muchas distribuciones sesgadas implican proporciones por ejemplo, y las proporciones complementarias 1 - X suelen ser tan naturales y fáciles de interpretar como las proporciones originales. Incluso con los precios de la vivienda X, los valores C - X, donde C es el precio máximo de la vivienda en el área, pueden ser interesantes y no es difícil de entender. También considere usar registros y transformaciones de potencia negativas para crear sesgo negativo. X1XXCXC
whuber
2
Estoy de acuerdo en que en el caso de los precios de la vivienda sería un poco artificial. Pero 1 / X no lo haría: sería "cantidad de casa que puede comprar por dólar". Sospecho que en cualquier área razonablemente homogénea esto tendría un fuerte sesgo negativo. Tales ejemplos podrían enseñar la lección más profunda de que la asimetría es una función de cómo expresamos los datos. CX1/X
whuber
3
@whuber No se inventaría en absoluto. Los precios potenciales máximos y mínimos en un mercado surgen naturalmente como aquellos que reflejan diferentes evaluaciones de los participantes del mercado. Entre los compradores, existe uno que podría pagar el precio máximo de una casa determinada. Y entre los vendedores hay uno que posiblemente acepte un precio mínimo. Pero esta información no es pública y, por lo tanto, los precios de transacción reales observados se ven afectados por la existencia de información incompleta. (CONT.)
Alecos Papadopoulos
1
CONTINUAR ... El siguiente documento de Kumbhakar y Parmeter (2010) modela exactamente eso (permitiendo también el caso de simetría), y con una aplicación en el mercado interno
Alecos Papadopoulos
3
La edad de la muerte está sesgada negativamente en los países desarrollados.
Nick Cox

Respuestas:

3

En el Reino Unido, precio de un libro. Existe un "precio de venta recomendado", que generalmente será el precio modal, y prácticamente en ninguna parte tendría que pagar más. Pero algunas tiendas tendrán descuentos, y algunas tendrán grandes descuentos.

Además, edad de jubilación. La mayoría de las personas se jubilan a los 65-68 años, que es cuando comienza la pensión estatal, muy pocas personas trabajan más tiempo, pero algunas personas se jubilan a los 50 y bastante a los 60 años.

Entonces, también, el número de personas GCSE obtiene. La mayoría de los niños ingresan por 8-10 y obtienen 8-10. Un pequeño número hace más. Sin embargo, algunos de los niños no aprueban todos sus exámenes, por lo que hay un aumento constante de 0 a 7.

usuario148573
fuente
1
Tal vez esto necesite una explicación de que GCSE es un examen en escuelas secundarias británicas y algunos sistemas relacionados, más comúnmente tomado a los 16 años. El número es de materias tomadas, por ejemplo, las matemáticas son comúnmente una materia.
Nick Cox
18

Nick Cox comentó con precisión que "la edad de la muerte está sesgada negativamente en los países desarrollados", lo que me pareció un gran ejemplo.

Encontré que las cifras más convenientes que pude encontrar provienen de la Oficina Australiana de Estadísticas ( en particular, usé esta hoja de Excel ), ya que sus contenedores de edad eran de hasta 100 años y el hombre australiano más viejo tenía 111 años , así que Me sentí cómodo cortando el contenedor final a los 110 años. Otras agencias estadísticas nacionales a menudo parecían detenerse en 95, lo que hacía que el contenedor final fuera incómodamente ancho. El histograma resultante muestra un sesgo negativo muy claro, así como algunas otras características interesantes, como un pequeño pico en la tasa de mortalidad entre los niños pequeños, que sería muy adecuado para la discusión e interpretación en clase.

Edad a la muerte de varones australianos en 2012

Sigue el código R con datos en bruto, ¡el HistogramTools paquete demostró ser muy útil para el trazado basado en datos agregados! Gracias a esta pregunta de StackOverflow por marcarlo.

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)
Silverfish
fuente
2
Algo relacionado con esta publicación, he oído que las edades de jubilación tienen un sesgo negativo: la mayoría de las personas se jubilan alrededor de la edad nominal (por ejemplo, 65 o 67 en muchos países), pero algunas (por ejemplo, trabajadores en minas de carbón) se jubilan mucho antes.
Christoph Hanck
¿La edad de la muerte sigue alguna distribución conocida empíricamente?
StubbornAtom
11

Aquí están los resultados para los cuarenta atletas que completaron con éxito un salto legal en la ronda clasificatoria del salto de longitud olímpico masculino de 2012, presentado en un diagrama de densidad de granos con un diagrama de alfombra debajo.

Resultados de la ronda de clasificación masculina de salto olímpico de Londres 2012

Parece ser mucho más fácil estar un metro detrás del grupo principal de competidores que estar un metro por delante, lo que explicaría la asimetría negativa.

Sospecho que algunos de los grupos en el extremo superior se deben a la calificación de los atletas (que requirió un resultado de los doce primeros o un resultado de 8.10 metros o más) en lugar de lograr la distancia más larga posible. El hecho de que los dos primeros resultados fueron de 8,11 metros, justo por encima de la calificación automática, es muy sugerente, al igual que la forma en que los saltos ganadores de medallas en la final fueron más largos y más extendidos en 8,31, 8,16 y 8,12 metros. Los resultados en la final tuvieron un ligero sesgo negativo, no significativo.

Para la comparación, los resultados para la Heptathlon olímpico en Seúl 1988 están disponibles en el heptathlonconjunto de datos en el paquete R HSAUR. En esa competencia no hubo una ronda de clasificación, pero cada evento aportó puntos para la clasificación final; Las competidoras mostraron un sesgo negativo pronunciado en los resultados del salto alto y un sesgo algo negativo en el salto largo. Curiosamente, esto no se repitió en los eventos de lanzamiento (tiro y jabalina) a pesar de que también son eventos en los que un número mayor corresponde a un mejor resultado. Las puntuaciones finales también fueron algo negativamente sesgadas.

Datos y codigo

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)
Silverfish
fuente
11

Los puntajes en exámenes fáciles, o alternativamente, los puntajes en exámenes para los cuales los estudiantes están especialmente motivados, tienden a quedar sesgados.

Como resultado, los puntajes SAT / ACT de los estudiantes que ingresan a las universidades solicitadas (y aún más, sus GPA) tienden a quedar sesgados. Hay muchos ejemplos en collegeapps.about.com, por ejemplo, una trama de SAT / ACT y GPA de la Universidad de Chicago está aquí .

Del mismo modo, los GPA de los graduados a menudo son sesgados a la izquierda, por ejemplo, los histogramas a continuación de los GPA de los graduados blancos y negros en una universidad con fines de lucro tomada de la Fig. 5 de Gramling, Tim. " Cómo cinco características de los estudiantes predicen con precisión las probabilidades de graduación universitaria con fines de lucro ". SAGE Open 3.3 (2013): 2158244013497026.

Histograma de GPA que muestra sesgo negativo

(No es difícil encontrar otros ejemplos similares).

Glen_b
fuente
2
Para una clase de estadísticas introductorias, creo que este ejemplo funciona bien pedagógicamente: es algo de lo que es probable que los estudiantes tengan experiencia en la vida real, que puedan razonar intuitivamente y que puedan confirmar con respecto a los conjuntos de datos ampliamente disponibles.
Silverfish
9

En el Análisis estocástico de fronteras, y específicamente en su enfoque históricamente inicial, la producción, la función de producción de una empresa / unidad de producción en general, se especifica estocásticamente como

q=F(X)+tu-w

qF(X)Xtuw desviación de la eficiencia totaldebido a razones que el econométrico puede no saber, pero puede medir a través de esta configuración. Por lo general, se supone que esta variable aleatoria sigue una distribución semi normal o exponencial. Asumiendo la mitad normal (por una razón), tenemos

tunorte(0 0,σtu2),wHnorte(2πσ2,(1-2π)σ22)

σ2

ε=tu-w

Fε(ε)=2s2ϕ(ε/ /s2)Φ((-σ2σtu)(ε/ /s2)),s22=σtu2+σ22

0 0s2(-σ2σtu)ϕΦσtu=1,σ2=3ingrese la descripción de la imagen aquí

Entonces, la asimetría negativa es, diría, el modelo más natural de los esfuerzos de la propia raza humana: siempre se desvía de su ideal imaginado, en la mayoría de los casos va a la zaga (la parte negativa de la densidad), mientras que en relativamente menos casos, trascendiendo sus límites percibidos (la parte positiva de la densidad). Los estudiantes mismos pueden ser modelados como una función de producción. Es sencillo mapear la perturbación simétrica y el error unilateral a aspectos de la vida real. No puedo imaginar cuán más intuitivo puede uno ser al respecto.

Alecos Papadopoulos
fuente
1
Esta respuesta parece hacerse eco de la sugerencia de @ Glen_b de GPA de graduación. ¡El comportamiento humano altamente motivado dirigido a un ideal evasivo ciertamente se ajusta a ese escenario! La eficiencia en general es un gran ejemplo.
Nick Stauner
2
@Nick Stauner El punto importante aquí es que consideramos "real menos objetivo" firmado, no la "distancia" en valores absolutos. Mantenemos el cartel para saber si estamos por encima o por debajo del objetivo. La intuición aquí es, exactamente como usted escribe, que el comportamiento "altamente motivado" empujará "real" más cerca de "objetivo", creando asimetría.
Alecos Papadopoulos
1
@NickStauner De hecho, el propio puesto de la clasificación de salto resultados a largo de pececillos de plata también se refiere al 'comportamiento muy motivado' (teniendo en cuenta los límites de lo que los humanos pueden alcanzar actualmente como una especie de informal 'ideal difícil de alcanzar')
Glen_b -Reinstate Monica
6

La asimetría negativa es común en la hidrología de inundaciones. A continuación se muestra un ejemplo de una curva de frecuencia de inundación (South Creek en Mulgoa Rd, lat -33.8783, lon 150.7683) que tomé de 'Australian Rainfall and Runoff' (ARR), la guía para la estimación de inundaciones desarrollada por Engineers, Australia.

Hay un comentario en ARR:

Con sesgo negativo, que es común con los valores logarítmicos de las inundaciones en Australia, la distribución log Pearson III tiene un límite superior. Esto da un límite superior a las inundaciones que se pueden extraer de la distribución. En algunos casos, esto puede causar problemas en la estimación de inundaciones de baja AEP, pero a menudo no causa problemas en la práctica. [Extraído de Australia Rainfall and Runoff - Volume 1, Book IV Section 2.]

A menudo, se considera que las inundaciones, en un lugar particular, tienen un límite superior llamado 'Inundación máxima probable' (PMF). Hay formas estándar de calcular un PMF.

ingrese la descripción de la imagen aquí

Tony Ladson
fuente
77
+1 Este ejemplo muestra muy bien cuán arbitraria es la pregunta: cuando se miden las inundaciones en términos de pico de descarga, estarán sesgadas positivamente , pero medidas en la descarga logarítmica, (aparentemente) están sesgadas negativamente. Del mismo modo, cualquier variable positiva se puede volver a expresar de una manera simple que sesgue su distribución negativamente (simplemente tomando un parámetro Box-Cox adecuadamente negativo). Todo se reduce a lo que se entiende por "fácil de entender", supongo, pero esa es una pregunta sobre los estudiantes, no sobre estadísticas.
whuber
5

Los cambios en los precios de los activos (retornos) generalmente tienen un sesgo negativo: muchos aumentos de precios pequeños con algunas caídas de precios grandes. El sesgo parece mantenerse para casi todos los tipos de activos: precios de acciones, precios de productos básicos, etc. El sesgo negativo se puede observar en los cambios de precios mensuales, pero es mucho más evidente cuando comienzas a observar los cambios de precios diarios u horarios. Creo que este sería un buen ejemplo porque puedes mostrar los efectos de la frecuencia en el sesgo.

Más detalles: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/

wcampbell
fuente
¡Me gusta mucho este ejemplo! ¿Existe una forma intuitiva de explicarlo: esencialmente, "las perturbaciones a la baja son más probables (o al menos, es probable que sean más graves) que las perturbaciones al alza"?
Silverfish
2
@Silverfish Yo diría que los resultados de mercado negativos extremos son más probables que los resultados de mercado positivos extremos. Los mercados también tienen volatilidad asimétrica. La volatilidad del mercado generalmente aumenta más después de los rendimientos negativos que de los positivos. Esto a menudo se modela con modelos de Garch, como GJR-Garch (consulte la entrada de Arch wikipedia).
John
3
También vi una explicación de que las malas noticias se lanzan en racimos. No he usado GJR-GARCH. Intenté usar el movimiento browniano multifractal (Mandelbrot) para modelar la asimetría, pero no pude hacerlo funcionar.
wcampbell
44
Esto es, en el mejor de los casos, simplista. Por ejemplo, acabo de tomar un conjunto de datos de rendimientos diarios en 31 índices de acciones. Más de la mitad de ellos tienen sesgo positivo (utilizando el sesgo de Pearson) y más del 70% son positivos en la medida 3 * (media - mediana) / stdev. En el caso de los productos básicos, se observa un sesgo aún más positivo, ya que las perturbaciones de la oferta y la demanda pueden elevar los precios rápidamente (por ejemplo, petróleo, gas y maíz en los últimos años).
Chris Taylor
5

La edad gestacional al momento del parto (especialmente para los nacimientos vivos) se deja sesgada. Los bebés pueden nacer vivos muy temprano (aunque las posibilidades de supervivencia continua son pequeñas cuando son demasiado tempranas), alcanzan su punto máximo entre 36-41 semanas y disminuyen rápidamente. Es típico que las mujeres en los EE. UU. Sean inducidas después de 41/42 semanas, por lo que generalmente no vemos muchos partos después de ese punto.

Sara
fuente
4

En la pesca a menudo hay ejemplos de sesgo negativo debido a los requisitos reglamentarios. Por ejemplo, la distribución de tallas de peces liberados en la pesca recreativa; porque a veces hay una longitud mínima que debe tener un pez para retenerlo, se descartan todos los peces por debajo del límite. Pero debido a que las personas pescan donde tiende a haber peces de longitud legal, tienden a ser sesgados y negativos hacia el límite legal superior. Sin embargo, la longitud legal no representa un corte duro. Debido a los límites de la bolsa (o los límites en la cantidad de peces que se pueden devolver al muelle), las personas aún descartarán peces de tamaño legal cuando hayan capturado peces más grandes.

por ejemplo, Sauls, B. 2012. Un resumen de datos sobre la distribución de tallas y la condición de liberación de los descartes de pargo rojo de las encuestas de pesca recreativa en el Golfo de México. SEDAR31-DW11. SEDAR, North Charleston, SC. 29 pp.

jamesfreinhardt
fuente
"Inclinarse hacia tamaños grandes" normalmente se interpretaría como sesgo positivo , no "negativo". ¿Quizás podría aclarar esta respuesta con una ilustración de una distribución típica? Los mecanismos que describa (un límite superior regulatorio y cierta tendencia a excederlo) podrían conducir a un sesgo negativo o positivo, dependiendo de la distribución truncada de los peces pequeños (y de cómo se miden los peces: el sesgo) de su distribución de masa no sería lo mismo que la asimetría de su distribución de longitud).
whuber
3

Se han hecho algunas sugerencias geniales en este hilo. Sobre el tema de la mortalidad relacionada con la edad, las tasas de falla de la máquina son frecuentemente una función de la edad de la máquina y caerían en esta clase de distribuciones. Además de los factores financieros ya señalados, las funciones y distribuciones de pérdidas financieras generalmente se parecen a estas formas, particularmente en el caso de pérdidas de valor extremo, por ejemplo, como se encuentra en las estimaciones del déficit esperado (ES) del BIS III (Banco de Pagos Internacionales), o en BIS II el valor en riesgo (VAR) como insumos para los requisitos reglamentarios para las asignaciones de reservas de capital.

Mike Hunter
fuente
2

La edad de jubilación en los Estados Unidos está sesgada negativamente. La mayoría de los jubilados son mayores y algunos se jubilan relativamente jóvenes.

Ronet Bachman
fuente
2

En la teoría de matrices aleatorias, la distribución de Tracy Widom está sesgada a la derecha. Esta es la distribución del mayor valor propio de una matriz aleatoria. Por simetría, el valor propio más pequeño tiene una distribución negativa de Tracy Widom y, por lo tanto, está sesgado a la izquierda.

Esto se debe aproximadamente al hecho de que los valores propios aleatorios son similares a las partículas cargadas que se repelen entre sí y, por lo tanto, el valor propio más grande tiende a alejarse del resto. Aquí hay una foto exagerada (tomada desde aquí ):

ingrese la descripción de la imagen aquí

Alex R.
fuente
Las distribuciones sesgadas a la derecha tienen un sesgo positivo y, por lo tanto, no responden a la pregunta.
whuber
@whuber: significaba usar el valor propio más pequeño. Corregido
Alex R.