Explicar la media, la mediana y la moda en términos simples

10

¿Cómo explicaría el concepto de media, mediana y modo de una lista de números y por qué son importantes para alguien con solo habilidades aritméticas básicas? No mencionemos la asimetría, CLT, tendencia central, sus propiedades estadísticas, etc.

Le he explicado a alguien que eso significa que es solo una forma rápida y sucia de "resumir" una lista de números. Pero mirando hacia atrás, esto apenas es esclarecedor.

¿Alguna idea o ejemplos del mundo real?

Ciudadano preocupado
fuente
Son "tendencia central", también conocido como "resultado más probable" en diferentes dominios. Intensidad, orden y frecuencia, en particular. El mundo real también tiene variación, por lo que cosas como la desviación estándar, el rango intercuartil (o cuantil) y el rango intermodal también son bastante útiles porque indican "tendencia de variación" o "variación típica en los resultados".
EngrStudent
Puede dar un ejemplo de que hay una máquina que genera números al azar. Recopila todos los números que genera dentro de una lista. Ahora desea presentarlo a sus amigos sin citar todos los números de la lista. Por lo tanto, busca medidas que puedan ayudarlo a describirlo. La media / mediana / modo son tres medidas similares que proporcionan información sobre las propiedades básicas de la máquina.
Kevin Pei
@KevinPei Pero, ¿qué significa "significar" en este caso? Mean / Median / Mode no explica mucho en un ejemplo artificial e independiente.
Concerned_Citizen
1
Encontrar la media es un problema para encontrar el punto de pivote que equilibra el balancín después de que los niños (del mismo peso) se hayan embarcado en él en un número arbitrario y en posiciones arbitrarias en la viga. Encontrar la mediana es la misma tarea, solo se dice que los niños se agrupan en solo dos posiciones, ya sea en "este" lado o "ese" lado.
ttnphns
No se puede explicar esto sin la noción de distribución. Con solo habilidades aritméticas básicas, tienes que dibujar imágenes.
Aksakal

Respuestas:

6

Gracias por esta pregunta simple pero profunda sobre los conceptos estadísticos fundamentales de media, mediana y moda. Hay algunos métodos / demostraciones maravillosos disponibles para explicar y comprender una comprensión intuitiva, en lugar de aritmética, de estos conceptos, pero desafortunadamente no son ampliamente conocidos (o enseñados en la escuela, que yo sepa).

Media:

1. Punto de equilibrio: media como punto de apoyo

La mejor manera de entender el concepto de significa pensarlo como el punto de equilibrio en una barra uniforme. Imagine una serie de puntos de datos, como {1,1,1,3,3,6,7,10}. Si cada uno de estos puntos está marcado en una barra uniforme y se colocan pesos iguales en cada punto (como se muestra a continuación), entonces el punto de apoyo debe colocarse en la media de los datos para que la barra se equilibre.

ingrese la descripción de la imagen aquí

Esta demostración visual también conduce a una interpretación aritmética. La razón aritmética para esto es que para que el fulcro se equilibre, la desviación negativa total de la media (en el lado izquierdo del fulcro) debe ser igual a la desviación positiva total de la media (en el lado derecho). Por lo tanto, la media actúa como el punto de equilibrio en una distribución.

Este visual permite una comprensión inmediata de la media en relación con la distribución de los puntos de datos. Otra propiedad de la media que se hace evidente a partir de esta demostración es el hecho de que la media siempre estará entre los valores mínimo y máximo en la distribución. Además, el efecto de los valores atípicos se puede entender fácilmente: que la presencia de valores atípicos cambiaría el punto de equilibrio y, por lo tanto, afectaría la media.

2. Valor de redistribución (participación justa)

Otra forma interesante de entender la media es considerarla como un valor de redistribución . Esta interpretación requiere cierta comprensión de la aritmética detrás del cálculo de la media, pero utiliza una cualidad antropomórfica , es decir, el concepto socialista de redistribución, para comprender intuitivamente el concepto de la media.

El cálculo de la media implica sumar todos los valores en una distribución (conjunto de valores) y dividir la suma por el número de puntos de datos en la distribución.

X¯=(yo=1norteXyo)/ /norte

Una forma de comprender la lógica detrás de este cálculo es pensar en cada punto de datos como manzanas (o algún otro elemento fungible). Usando el mismo ejemplo que antes, tenemos ocho personas en nuestra muestra: {1,1,1,3,3,6,7,10}. La primera persona tiene una manzana, la segunda persona tiene una manzana, y así sucesivamente. Ahora, si uno quiere redistribuir el número de manzanas de modo que sea "justo" para todos, puede usar la media de la distribución para hacer esto. En otras palabras, puede dar cuatro manzanas (es decir, el valor medio) a todos para que la distribución sea justa / igual. Esta demostración proporciona una explicación intuitiva para la fórmula anterior: dividir la suma de una distribución por el número de puntos de datos es equivalente a dividir la totalidad de la distribución por igual en todos los puntos de datos.

3. Visual Mnemonics

Estas siguientes mnemotecnias visuales proporcionan la interpretación de la media de una manera única:

ingrese la descripción de la imagen aquí

Este es un mnemotécnico para la interpretación del valor de nivelación de la media. La altura de la barra transversal de A es la media de las alturas de las cuatro letras.

ingrese la descripción de la imagen aquí

Y esta es otra mnemónica para la interpretación del punto de equilibrio de la media. La posición del fulcro es aproximadamente la media de las posiciones de la M, E y el doble de N.

Mediana

Una vez que se entiende la interpretación de la media como el punto de equilibrio en una barra , la mediana se puede demostrar mediante una extensión de la misma idea: el punto de equilibrio en un collar .

Reemplace la varilla con una cuerda, pero mantenga las marcas y los pesos de los datos. Luego, en los extremos, coloque una segunda cuerda, más larga que la primera, para formar un bucle [como un collar] y coloque el bucle sobre una polea bien lubricada.

ingrese la descripción de la imagen aquí

Supongamos, inicialmente, que los pesos son distintos. La polea y el bucle se equilibran cuando el mismo número de pesos está a cada lado. En otras palabras, el bucle 'equilibra' cuando la mediana es el punto más bajo.

Tenga en cuenta que si uno de los pesos se desliza hacia arriba del bucle creando un valor atípico, el bucle no se mueve. Esto demuestra, físicamente, el principio de que la mediana no se ve afectada por los valores atípicos.

Modo

El modo es probablemente el concepto más fácil de entender, ya que implica la operación matemática más básica: contar. El hecho de que es igual a las que ocurren con mayor frecuencia conduce datos punto a un acrónimo: “ M ost-frecuencia O ccurring D ata E lement”.

El modo también puede pensarse en el valor más típico de un conjunto. (Aunque una comprensión más profunda de "típico" llevaría al valor representativo o promedio. Sin embargo, es apropiado equiparar "típico" con el modo basado en el significado literal de la palabra "típico").


Fuentes:

  • La mediana es un punto de equilibrio - Lynch, The College Mathematics Journal (2009)
  • Hacer que las estadísticas sean memorables: nuevas mnemotecnias y motivaciones: educación estadística menor, JSM (2011)
  • Sobre el uso de la mnemotecnia para la enseñanza de estadísticas: estadísticas y aplicaciones menores asistidas por modelos, 6 (2), 151-160 (2011)
  • ¿Qué significa el medio? - Watier, Lamontagne y Chartier, Journal of Statistics Education, Volumen 19, Número 2 (2011)
  • ¿Típico? Ideas para niños y maestros sobre el promedio - Russell y Mokros, ICOTS 3 (1990) REFERENCIA GENERAL: http://www.amstat.org/publications/jse/v22n3/lesser.pdf
Vishal
fuente
Acabo de encontrar este artículo hoy que arroja algo más de luz sobre esto: priceonomics.com/how-the-average-triumphed-over-the-median
Vishal
1
Un usuario anónimo sugirió también la siguiente referencia general: amstat.org/publications/jse/v22n3/lesser.pdf
gung - Reinstate Monica
3

Tengo que preguntarme si sus criterios son alcanzables, ya que parece querer la máxima efectividad y poder explicativo con materiales mínimos. Pero un ejemplo simple como

1 1 2 2 2 3 3 4 5 6 15

permite el cálculo inmediato del modo (2), la mediana (3) y la media (44/11) = 4 y, por lo tanto, muestra que pueden ser diferentes.

Entonces podría explicar que las ideas del valor más común, el valor en el medio y la media son diferentes. Y presentar complicaciones por

  1. cambiar los valores para mostrar el modo puede ser ambiguo

  2. usando un ejemplo con un número par de valores para explicar la convención para calcular la mediana

  3. valores variables en las colas para enfatizar lo que sucede con la media, y por qué y por qué no puede ser deseable.

  4. utilizando ejemplos más simples en los que coinciden dos o tres de la media, la mediana y la moda.

No he mencionado la tendencia central en mi enseñanza, excepto decir que es un término en varias literaturas. Prefiero hablar sobre el nivel y cómo se puede cuantificar. Por el contrario, no creo que sea posible ningún análisis de datos serio a menos que las personas tengan un sentimiento mínimo de asimetría como más habitual que la simetría.

Nick Cox
fuente
Sí, ajustar los valores cambiará las estadísticas de resumen, pero ¿qué significa "significar" en sí mismo?
Concerned_Citizen
1
1
¿Qué es el rojo ? No siempre necesitamos saber definiciones para usar ideas. Una buena comprensión del rojo probablemente requiera física, fisiología y psicología, pero nunca la he necesitado. Sé mucho sobre cómo funciona la media, pero en un nivel fundamental su definición es solo su fórmula.
Nick Cox
1
@ NickCox muy justo y muy cierto. pero mi experiencia en la universidad es todavía muy reciente, y recuerdo demasiados problemas donde i ciegamente calculó una respuesta sin entender lo que he calculado o por qué lo hice
shadowtalker
1
@ssdecontrol Eso nunca deja de suceder por completo ...
Nick Cox
3

Así es como los explico:

La media (aritmética) es el punto que tiene en cuenta todo el conjunto de datos y se establece en algún lugar "en el medio". Pídales que piensen en una nube de puntos, o una burbuja, en el espacio: la media es el centro de masa de esa nube de puntos.

La mediana es el punto que tiene "el mismo número de puntos en todos los lados" (donde obviamente el concepto de "lado" no está bien definido en más de 2 dimensiones). Esto representa otro tipo de "medio" y, de hecho, un tipo más intuitivo en algún sentido. Pensando en ese mismo blob en el espacio, está claro que si el blob es asimétrico, la media se desplazará. Pero esta desigualdad se puede lograr de una de dos maneras: agrega más puntos en un área o aumenta la dispersión de puntos en esa área. Si aumenta la dispersión de puntos en un área sin aumentar el número de puntos, entonces la mediana todavía tiene el mismo número de puntos "en todos los lados" y no se desplazará de acuerdo con la media.

y=(1,2,3,4 4,5 5)y=(1,2,3,4 4,99)media(y)=mediana(y)media(y)>mediana(y). Pero recomiendo comenzar primero con la explicación geométrica / visual "basada en manchas": en mi experiencia, es más fácil comenzar con una demostración gráfica que agita a mano y luego pasar a ejemplos concretos de juguetes. Me parece que la mayoría de las personas (incluido yo mismo) no están naturalmente orientadas a los números, y comenzar con una explicación numérica es una receta para la confusión. Siempre puedes regresar y enseñar definiciones más precisas más adelante.

El modo es el punto en el que, si se muestrean puntos aleatoriamente de ese blob, es más probable que aparezca (reconociendo que esto es una falsificación de datos continuos). Esto puede estar, pero no tiene que estar, ubicado cerca de la media o la mediana.

Una vez que has explicado estos conceptos, a continuación, puede pasar a una demostración más "de aspecto estadístico":

manifestación

La línea continua es la media. La línea discontinua es la mediana. La línea de puntos es el modo. La media representa las posiciones de los puntos de datos a lo largo del eje x, mientras que la mediana refleja solo el número de puntos de datos a cada lado. El modo es solo el punto de mayor probabilidad, que es diferente de la media y la mediana.

Código R:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
Shadowtalker
fuente
Buenas explicaciones, pero en realidad esto supone mucho más que "habilidades aritméticas básicas": aquí se invoca el pensamiento geométrico, la mecánica elemental, el muestreo aleatorio, la teoría de la probabilidad (incluida la función de densidad). Ese es un comentario, no pretende ser una crítica derribada, ya que creo que la pregunta es difícil.
Nick Cox
@NickCox buenos puntos seguro. Pero ahora que lo estoy pensando, los uso, porque a su vez todos pueden explicarse sin matemáticas (por ejemplo, la explicación "ver-ver" de ttnphns en los comentarios sobre la pregunta principal), o ya están entendido intuitivamente en cierto nivel por mucha gente. La densidad es un poco
difícil
(@ttnphns: etiquetándolos en caso de que quieran sopesarlo. No me dejará etiquetarlos a ambos en un comentario)
shadowtalker
La densidad no es tan abstrusa. La mayoría de las personas deberían recordar la densidad de la física y la densidad de población de la geografía, o simplemente conocimiento general.
Nick Cox
@ NickCox Pensé que eso era lo que querías decir al referirte a la mecánica elemental. Y aparte de la demostración de densidad, tampoco veo cómo se necesita un muestreo aleatorio aquí. En todo caso, me imaginé que el problema sería que un estudiante no técnico se sintiera cómodo con la idea de una nube de puntos. Tal vez tomar esto para chatear?
shadowtalker
2

La " media ", la " mediana " y el " modo " son "tendencia central", también conocido como "resultado más probable" en diferentes dominios. Todas son "mejores apuestas" en diferentes "juegos".

Probability and Statistics es un campo que, en parte, fue construido por jugadores ( enlace , enlace ). Cuando vas a las carreras de caballos o la mesa de póker, quieres saber algo de ciencia que te ayude a ganar. Ellos también lo hicieron y escribieron al respecto, por lo que no tiene que inventarlo usted mismo.

En una carrera de caballos, quieres elegir un ganador. No tiene información futura, pero sí conoce información del pasado. Ya sabes lo rápido que corrió cada caballo en las últimas carreras. Si desea hacer una estimación de la velocidad con la que es probable que corran en su próxima carrera, puede calcular y comparar la media, también conocida como el promedio, los tiempos de carrera.

Otra tendencia central es la "mediana", que es el centro de una lista ordenada. ¿Qué pasa si pongo un error tipográfico horrible en su lista de tiempos de carrera, y el valor fue 1000 veces más largo que todos los demás? Arruinaría tu estimación. Es posible que no apueste por el caballo ganador. ¿Cómo abordas eso? Puede buscar ese valor manualmente o puede usar la "mediana".

¿Qué sucede si está jugando a las cartas, como el " blackjack ", y está tratando de averiguar si necesita otra carta dada las cartas anteriores? La tarjeta que está buscando no es un 3.14 porque los números de las tarjetas son valores enteros. ¿Cómo se da cuenta de cuál es su mejor apuesta cuando "promedio" o mediana no es significativo? En este caso, desea apostar por el "modo", la carta más probable que salga de la pila de crupieres.

En los tres casos, la tendencia central es solo otra forma de decir "mejor apuesta".

Si desea tener en cuenta no solo la tendencia central en sus apuestas, es decir, si desea apostar para poder reducir los impactos de una pérdida mientras maximiza las ganancias, debe considerar las "tendencias de variación". Cosas como la desviación estándar, los rangos intercuantiles o los modos alternativos y sus frecuencias, se utilizan para minimizar las pérdidas máximas y maximizar las ganancias probables.

Estudiante
fuente
0

Creo que es útil explicar este concepto al considerar múltiples medios, medianas y modos. Estos valores no existen por sí mismos en el vacío.

Por ejemplo, así es como explicaría el significado.

Digamos que tienes 2 cajas de sandías (cajas 1 y 2). Está sellado para que no puedas ver las sandías en el interior y, por lo tanto, no conoces sus tamaños. Sin embargo, usted conoce el peso total de las sandías en cada caja y cada una contiene la misma cantidad de sandías. A partir de eso, puede calcular los pesos medios de cada caja de sandías (M1 y M2).

Ahora que tiene dos valores medios diferentes M1 y M2, puede hacer una comparación aproximada de los contenidos individuales. Si M1> M2, las sandías seleccionadas al azar de la caja 1 probablemente sean más pesadas que las recogidas de la caja 2.

Por supuesto, me encantaría comentar sobre esta perspectiva.

Ciudadano preocupado
fuente