¿Por qué las medidas de dispersión son menos intuitivas que la centralidad?

11

Parece haber algo en nuestra comprensión humana que crea dificultades para comprender intuitivamente la idea de variación. En un sentido estricto, la respuesta es inmediata: la cuadratura nos saca de nuestra comprensión reflexiva. Pero, ¿es solo la varianza la que presenta problemas, o es la idea completa de propagación en los datos? Buscamos refugio en el rango, o simplemente estableciendo el mínimo y el máximo, pero ¿estamos evitando la verdadera dificultad? En la media (moda o mediana) encontramos el centro, el resumen ... una simplificación; la variación extiende las cosas y las hace sentir incómodas El hombre primitivo ciertamente usaría la media para cazar animales triangulando a la oración, pero supongo que fue mucho más tarde cuando sentimos la necesidad de cuantificar la propagación de las cosas. De hecho, el término varianza fue introducido por primera vez por Ronald Fisher en 1918 en el documento "La correlación entre parientes sobre la suposición de la herencia mendeliana".

La mayoría de las personas que siguen las noticias habrían escuchado la historia del desafortunado discurso de Larry Summers sobre las aptitudes matemáticas por género , posiblemente relacionado con su partida de Harvard. En pocas palabras, sugirió una variación más amplia en la distribución de la competencia matemática entre los hombres en comparación con las mujeres, a pesar de que ambos sexos disfrutaron de la misma media. Independientemente de la pertinencia o implicaciones políticas, esto parece estar justificado en la literatura científica .

Más importante aún, tal vez la comprensión de temas como el cambio climático , por favor, perdóneme por mencionar temas que podrían llevar a discusiones completamente incalculables, podría ayudar a la población en general a mejorar la familiaridad con la idea de la variación.

El problema se agrava cuando tratamos de comprender la covarianza, como se muestra en esta publicación , con una respuesta excelente y colorida de @whuber aquí .

Puede ser tentador descartar esta pregunta como demasiado general, pero está claro que la estamos discutiendo indirectamente, como en esta publicación , donde las matemáticas son triviales, pero el concepto sigue siendo difícil de alcanzar, desmintiendo una aceptación más cómoda del rango como opuesto a la varianza de idea más matizada .

En una carta de Fisher a EBFord , refiriéndose a la controversia sobre su sospecha sobre los experimentos mendelianos, leemos: "Ahora, cuando se falsificaron los datos, sé muy bien cómo generalmente la gente subestima la frecuencia de las desviaciones de probabilidad amplia , de modo que la tendencia siempre es hacer que estén muy de acuerdo con las expectativas ... las desviaciones [en los datos de Mendel] son ​​sorprendentemente pequeñas ". El gran RA Fisher está tan interesado en sospechar pequeñas variaciones en muestras pequeñas que escribe : "sigue siendo una posibilidad, entre otras, que Mendel haya sido engañado por un asistente que sabía muy bien lo que se esperaba".

Y es totalmente posible que este sesgo hacia la difusión de la subestimación o la incomprensión persista hoy. Si es así, ¿hay alguna explicación de por qué nos sentimos más cómodos con los conceptos de centralidad que con la dispersión? ¿Hay algo que podamos hacer para internalizar la idea?

eiπ+1=0E=mc2

Nassim Taleb ha hecho una fortuna aplicando su percepción (bueno, realmente de Benoit Mandelbrot ) de la comprensión defectuosa de la varianza para explotar los tiempos de crisis, y ha tratado de hacer que el concepto sea comprensible para las masas con oraciones como "la varianza de la varianza es, epistemológicamente , una medida de falta de conocimiento sobre la falta de conocimiento de la media "- sí, hay más contexto para este bocado ... Y para su crédito, también lo ha simplificado con la idea de Acción de Gracias Turquía . Se puede argumentar que la clave para invertir es comprender la varianza (y la covarianza).

Entonces, ¿por qué es tan resbaladizo y cómo remediarlo? Sin fórmulas ... solo la intuición de años de lidiar con la incertidumbre ... No sé la respuesta, pero no es matemática (necesariamente, eso es): por ejemplo, me pregunto si la idea de curtosis interfiere con la varianza. En la siguiente gráfica tenemos dos histogramas superpuestos con prácticamente la misma varianza; Sin embargo, mi reacción instintiva es que el que tiene las colas más largas y el pico más alto (curtosis más alta) está más "extendido":

Antoni Parellada
fuente
2
La variación es difícil de entender principalmente porque es cuadrada, creo. Las personas no parecen tener demasiadas dificultades con la desviación media absoluta. (Que suelen utilizar esa idea de trabajar hasta la desviación estándar, por ejemplo.)
Gung - Restablecer Mónica
Es difícil desaprender lo que uno ha aprendido, pero no estoy seguro de que la premisa del título sea correcta. Por ejemplo, las diferencias, incluido el rango, de alguna manera parecen más intuitivas que los resúmenes, como la media o la mediana. Las cuentas difieren; pero aunque la media se produce en las matemáticas clásicas, su uso para resumir datos surgió lenta y dolorosamente en el siglo XVII.
Nick Cox
1
Con la esperanza de que las respuestas a esto no se desvíen a detalles que no necesariamente se relacionan con el problema: ¿es esta pregunta más sobre la varianza per se (para la cual la discusión sobre la cuadratura podría ser relevante), o el concepto más general de variabilidad (dispersión, propagación, variación, para lo cual no) [También me pregunto hasta qué punto podemos realmente generalizar sobre el sentido de intuición relativa de otras personas]
Glen_b -Reinstate a Monica el
El último. Debería dejarlo claro. No estoy seguro acerca de la pregunta en general. Siéntase libre de cerrarlo.
Antoni Parellada
@ Antonio ¿Por qué querría cerrarlo? Cualquiera de las dos formas sería una buena pregunta; es solo que las respuestas serían diferentes.
Glen_b -Reinstala a Monica el

Respuestas:

9

Comparto su sensación de que la variación es un poco menos intuitiva. Más importante aún, la varianza como medida está optimizada para ciertas distribuciones y tiene menos valor para las distribuciones asimétricas. La diferencia absoluta de la media con respecto a la media no es mucho más intuitiva en mi opinión, porque requiere que uno elija la media como la medida de la tendencia central. Prefiero la diferencia media de Gini, la diferencia absoluta media sobre todos los pares de observaciones. Es intuitivo, robusto y eficiente. En cuanto a la eficiencia, si los datos provienen de una distribución gaussiana, la diferencia media de Gini con un factor de reescalado apropiado aplicado es 0,98 tan eficiente como la desviación estándar de la muestra. Existe una fórmula informática eficiente para la diferencia de medias de Gini una vez que se ordenan los datos. El código R está abajo.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))
Frank Harrell
fuente
¿Tiende a enfatizar demasiado la dispersión? Estaba jugando con tu código aquí
Antoni Parellada
1
Es una medida válida de dispersión. Si te gusta su definición, no enfatiza demasiado nada.
Frank Harrell
Absolutamente. Aprovecho su publicación como una oportunidad para aprender, y mi comentario fue mi forma de mostrar interés. Solo tengo que leer más al respecto. ¡Gracias!
Antoni Parellada
1
Solo si el vector xya estuviera ordenado.
Frank Harrell
4

Aquí están algunos de mis pensamientos. No aborda todos los ángulos desde los que podría mirar su pregunta, de hecho, hay muchos que no aborda (la pregunta se siente un poco amplia).

¿Por qué es difícil para los laicos entender el cálculo matemático de la varianza?

La variación es esencialmente cuán extendidas están las cosas. Esto es bastante fácil de entender, pero la forma en que se calcula puede parecer contradictorio para un laico.

El problema es que las diferencias con respecto a la media son cuadradas (luego promediadas) y luego enraizadas para obtener la Desviación Estándar. Nosotros entendemos por qué este método es necesario - la cuadratura es hacer que los valores positivos y luego se les arraigada cuadrado para obtener las unidades originales. Sin embargo, es probable que un laico se confunda con la razón por la cual los números son cuadrados y con raíces cuadradas. Parece que se cancela (no lo hace), por lo que parece inútil / extraño.

Lo que les resulta más intuitivo es encontrar la propagación simplemente promediando las diferencias absolutas entre la media y cada punto (llamada desviación absoluta media). Este método no requiere cuadratura y enraizamiento cuadrado, por lo que es mucho más intuitivo.

Tenga en cuenta que el hecho de que la desviación absoluta media sea más sencilla no significa que sea "mejor". El debate sobre si se deben usar los cuadrados o los valores absolutos ha estado ocurriendo durante un siglo con la participación de muchos estadísticos prominentes, por lo que una persona aleatoria como yo no puede aparecer aquí y decir que uno es mejor. (Promediar cuadrados para encontrar la varianza es, por supuesto, más popular)

En pocas palabras: La cuadratura para encontrar la varianza parece menos intuitiva para los laicos que encontrarían que promediar las diferencias absolutas es más sencillo. Sin embargo, no creo que la gente tiene un problema con la comprensión de la idea de propagación propia

Yang Li
fuente
3
+1 por señalar el efecto de la cuadratura. Pero creo que el problema va más allá de la construcción matemática real para medir la propagación. Está a un nivel más radical del tronco encefálico, lejos del centro simplemente no se siente natural; El punto central es.
Antoni Parellada
Ah, ya veo. No estaba seguro de si se trataba de "propagación" o la forma matemática específica de encontrar propagación. Me temo que no puedo ayudarte con lo primero. Personalmente, no creo que la gente tenga tantos problemas para comprender el concepto de propagación ...
Yang Li
Hago. Tengo muchos problemas para comprender el grado de incertidumbre, que en gran medida es inmediatamente una consecuencia de la variación. Simplemente no sé por qué.
Antoni Parellada
3

Aquí va mi opinión sobre tu pregunta.

Comenzaré cuestionando una respuesta antes mencionada para luego tratar de hacer mi punto.

Pregunta a la hipótesis anterior:

¿Es realmente que los cuadrados hacen que las medidas de dispersión como la desviación cuadrática media sean difíciles de entender? Estoy de acuerdo en que el cuadrado lo hace más difícil al aportar complejidad matemática, pero si la respuesta fuera solo los cuadrados, la desviación absoluta media sería tan simple de entender como medidas de centralidad.

Opinión:

Creo que lo que nos dificulta comprender las medidas de dispersión es que la dispersión en sí misma es una información bidimensional. Intentar resumir una información bidimensional en una métrica implica una pérdida parcial de información que, en consecuencia, causa confusión.

Ejemplo:

Un ejemplo que puede ayudar a explicar el concepto anterior es el siguiente. Consigamos 2 conjuntos diferentes de datos:

  1. Sigue una distribución gaussiana
  2. Sigue una distribución desconocida y asimétrica.

Supongamos también que la dispersión en términos de desviación estándar es 1.0.

Mi mente tiende a interpretar la dispersión del conjunto 1 mucho más clara que la del conjunto 2. En este caso específico, la razón de mi mejor comprensión se explica sabiendo que la forma bidimensional de la distribución de antemano me permite comprender la medida de distribución en términos de probabilidad alrededor de la media gaussiana centralizada. En otras palabras, la distribución gaussiana me dio la pista bidimensional que necesitaba para traducir mejor a partir de la medida de dispersión.

Conclusión:

En resumen, no hay una forma tangible de capturar en una desviación Medir todo lo que hay en una información bidimensional. Lo que suelo hacer para comprender la dispersión sin mirar directamente la distribución en sí es combinar muchas medidas que explican una distribución determinada. Establecerán el contexto para que mi mente comprenda mejor la medida de dispersión misma. Si pudiera hacer uso de los gráficos, ciertamente, los gráficos de caja son realmente útiles para visualizarlo.

Gran discusión que me hizo pensar mucho sobre el tema. Estaré encantado de escuchar tu opinión.

fernandosjp
fuente
1
Una respuesta bien pensada +1. Realmente no tengo nada que agregar, excepto que creo que probablemente también hay otras razones que vale la pena considerar.
Yang Li
1

Creo que una razón simple por la que las personas tienen más dificultades con la variabilidad (ya sea varianza, desviación estándar, MAD o lo que sea) es que realmente no se puede entender la variabilidad hasta después de comprender la idea del centro. Esto se debe a que todas las medidas de variabilidad se miden en función de la distancia desde el centro.

Conceptos como la media y la mediana son conceptos paralelos, puede aprender uno primero y algunas personas pueden comprender mejor a una y otras entenderán mejor a la otra. Pero la propagación se mide desde el centro (para alguna definición de centro), por lo que realmente no se puede entender primero.

Greg Snow
fuente
+1 Eso tiene mucho sentido - es un concepto secundario ...
Antoni Parellada
@ Greg Snow: excepto que no es correcto; vea la diferencia de medias de Gini de la respuesta de Frank Harrells, que no mide la desviación de un centro.
kjetil b halvorsen 01 de