Comprender la "varianza" intuitivamente

81

¿Cuál es la forma más limpia y fácil de explicarle a alguien el concepto de varianza? ¿Qué significa intuitivamente? Si uno le explica esto a su hijo, ¿cómo lo haría?

Es un concepto que tengo dificultad para articular, especialmente cuando relaciono la varianza con el riesgo. Lo entiendo matemáticamente y también puedo explicarlo de esa manera. Pero cuando se explican los fenómenos del mundo real, ¿cómo se hace comprender la varianza y su aplicabilidad en el 'mundo real', por así decirlo?

Digamos que estamos simulando una inversión en una acción utilizando números aleatorios (no importa tirar un dado o usar una hoja de Excel). Obtenemos algo de "retorno de la inversión" al asociar cada instancia de la variable aleatoria a "algún cambio" en el rendimiento. P.ej.:

Lanzar un 1 implica un cambio de 0.8 por $ 1 en inversión, un 5 un cambio de 1.1 por $ 1 y así sucesivamente.

Ahora, si esta simulación se ejecuta unas 50 veces (o 20 o 100) obtendremos algunos valores y el valor final de la inversión. Entonces, ¿qué nos dice realmente la "varianza" si la calculamos a partir del conjunto de datos anterior? ¿Qué se "ve"? Si la varianza resulta ser 1.7654 o 0.88765 o 5.2342, ¿qué significa esto? ¿Qué observé / puedo observar sobre esta inversión? ¿Qué conclusiones puedo sacar? En términos de laicos.

¡Siéntase libre de aumentar la pregunta con eso para la desviación estándar también! Aunque siento que es "más fácil" de entender, ¡algo que contribuiría a dejarlo también "intuitivamente" claro sería muy apreciado!

Doctor
fuente
3
¿No deberíamos fusionar esta pregunta con la misma que se hizo el año pasado?
whuber
1
@whuber Creo que deberían fusionarse. Tener varias veces la misma pregunta (incluso si aquí el contexto es diferente) reduce la calidad promedio de las respuestas.
robin girard
2
Estoy de acuerdo con que se fusione, pero sé cómo calcular la varianza y también se usa en estadísticas. Quiero poder articular este concepto a las personas que no sabrían nada al respecto y lleva mucho tiempo hacerlo y de ahí la pregunta. La intención es bastante diferente de la pregunta sobre SD, en mi humilde opinión
PhD
2
No creo que ninguno de ustedes esté haciendo un muy buen trabajo respondiendo esto de una manera que un Layman pueda entender. Veo que se hacen muchas suposiciones y casi cada respuesta termina con algo que necesita ser interpretado. No me quejo, solo trato de señalarlo. Yo tampoco puedo responder la pregunta simplemente. Tal vez es demasiado difícil?
No creo que ninguna de las respuestas a continuación haya respondido la pregunta aquí. La pregunta, tal como la interpreto, es más sobre la varianza como un número, cuando se considera grande o pequeño. La respuesta superior a continuación, por ejemplo, aborda la pregunta de qué significa varianza grande versus varianza pequeña. Si le doy un conjunto de datos que no puede visualizar razonablemente, por lo que debe confiar en los números, ¿cómo puede saber si la varianza es grande / pequeña?
user31415

Respuestas:

70

Probablemente usaría una analogía similar a la que aprendí a dar a los "laicos" al presentar el concepto de sesgo y varianza: la analogía del tablero de dardos. Vea abajo:

ingrese la descripción de la imagen aquí

La imagen particular de arriba es de la Enciclopedia del Aprendizaje Automático , y la referencia dentro de la imagen es la "Introducción a la práctica de la estadística" de Moore y McCabe .

EDITAR:

Aquí hay un ejercicio que creo que es bastante intuitivo: tome una baraja de cartas (fuera de la caja) y deje caer la baraja desde una altura de aproximadamente 1 pie. Pídale a su hijo que recoja las tarjetas y se las devuelva. Luego, en lugar de dejar caer el mazo, tíralo lo más alto que puedas y deja que las cartas caigan al suelo. Pídale a su hijo que recoja las tarjetas y se las devuelva.

La relativa diversión que tienen durante las dos pruebas debería darles una sensación intuitiva de variación :)

stemgal
fuente
1
Así que, qué significa'? Si alguien viera la variación estadística de los dardos en el tablero, ¿qué concluiría? ¿Qué significa tener una varianza baja / alta hablando intuitivamente ...
PhD
1
Yo diría algo como: Digamos que lanzamos 4 dardos. El número de manos necesarias para eliminar los dardos del tablero de una vez aumenta a medida que aumenta la varianza de las posiciones del dardo (Nota: argumento muy informal aquí ya que hay una serie de contraejemplos, como cuando se agrupan 3 dardos y el último dardo es en la pared a 3 pies de la darboard).
2
¡Su diagrama también parece resonar en la forma clásica de distinguir precisión y exactitud también! ¡Simplemente me golpeó!
Doctorado
2
AAAAAAAAAAAH! Buen ejercicio! ¡Buena manera de mostrarle a alguien lo que significa tener una varianza baja / alta! La distancia promedio del valor promedio (promedio) de los puntos de datos :)
PhD
2
(+1) El análogo de tablero de dardos para demostrar la diferencia entre sesgo y varianza es simplemente brillante
steffen
36

Solía ​​enseñarle estadísticas a un laico por bromas, y descubrí que aprenden mucho.

Supongamos que para la varianza o la desviación estándar, la siguiente broma es bastante útil:

Broma

Una vez dos estadísticos de altura 4 pies y 5 pies tienen que cruzar un río de PROMEDIO de profundidad 3 pies. Mientras tanto, un tercer estadístico viene y dice: "¿qué estás esperando? Puedes cruzar el río fácilmente"

Supongo que los legos saben sobre el término "promedio". ¿También puede hacerles la misma pregunta que cruzarían el río en esta situación?

¿Qué se están perdiendo que es 'varianza' para decidir "qué hacer en la situación"?

Se trata de tus habilidades de presentación. Sin embargo, los chistes ayudan mucho al laico que quiere entender las estadísticas. ¡Espero que ayude!

Biostat
fuente
1
Tal vez no soy bueno con los chistes estadísticos (aunque soy bastante bueno con los demás :). Pero no creo entender lo que se entiende por "qué hacer en la situación". ¿Qué 'exactamente' debe hacer uno si tiene una idea de la varianza? ¿Cómo debería uno interpretarlo?
PhD
66
@Nupul: En realidad, "¿qué hacer en la situación" significa que cruzan un río o no? Si conoce la varianza (o SD), entonces podría decidirla fácilmente. Suponga que la varianza es 0.25 (SD = 0.5), entonces pueden cruzar el río de manera segura porque el intervalo de intervalo (no confunda esto con el Intervalo de confianza (IC)) es 3 + 0.5 o 3-0.5, y sus alturas son 4 y 5. Si la varianza es 4 y 5. es 4 entonces mejor no cruzar el río. Por cierto, solo disfruta de los chistes aquí stats.stackexchange.com/questions/1337/statistics-jokes
Biostat
¡Perfecto! ¡Lo tengo! :) Eso tiene mucho sentido. De hecho, combinar las respuestas de varias personas me ayuda a enmarcar mejor la comprensión ...
PhD
O, si los tiburones no comen "en promedio" a las personas, eso es poco consuelo si son muy malhumorados (comportamiento muy variado). En la analogía del río, se trata de si darás un paso que te pondrá por encima de tu cabeza.
Dean Radcliffe el
12

Me centraría en la desviación estándar en lugar de la varianza; la varianza está en la escala incorrecta.

Así como el promedio es un valor típico, el SD es una diferencia típica (absoluta) del promedio. No es diferente de doblar la distribución en el promedio y tomar el promedio de eso.

Karl
fuente
1
Convenido. Digamos que nos centramos en SD. Mi pregunta sigue siendo cómo hacer que alguien entienda la SD de manera intuitiva, aparte de 'la alta SD no parece buena ' ... ¡¿cómo le explicaría la SD a un laico ya que es la raíz cuadrada de la varianza!
Doctorado
@Nupul - Lea mi segundo párrafo: explicaría la SD como la diferencia típica del promedio.
Karl
44
"No es diferente a doblar la distribución en el promedio y tomar el promedio de eso". Ese comentario, como el resto de su publicación, parece describir la desviación absoluta media, no la desviación estándar.
Macro
3
@Macro: sí; al tratar de explicar el SD, lo aproximaría por el MAD. Creo que es mejor no discutir sobre el valor medio cuadrático versus el valor absoluto medio.
Karl
7

No estoy de acuerdo con muchas de las respuestas que recomiendan a las personas que piensen puramente en la variación como propagación. Como han señalado las personas inteligentes (Nassim Taleb), cuando las personas piensan en la variación como propagación, simplemente asumen que es MAD.

La variación es una descripción de qué tan lejos están los miembros de la media, Y juzga la importancia de cada observación por esta misma distancia. Esto significa que las observaciones lejanas se consideran más importantes. De ahí los cuadrados.

Creo que la varianza de una variable uniforme continua es la más fácil de imaginar. Cada observación puede tener un cuadrado dibujado. Apilar estos cuadrados crea una pirámide. Corta la pirámide por la mitad para que la mitad del peso esté en un lado y la otra mitad en el otro. La cara donde la cortas es la varianza.

arthur.00
fuente
2
No sé por qué esta respuesta no se votó más. El punto señalado en el segundo párrafo es crucial para comprender la varianza y diferenciarla de MAD, que, como se señaló correctamente, es lo que las personas piensan intuitivamente cuando se les dice acerca de la "medida de propagación". Y no está más allá de un laico entender la idea de que el peso dado a la distancia de un punto de la media no crece linealmente, incluso si no entienden matemáticamente los cuadrados.
jeremy radcliff
3
"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation para aquellos que se preguntan. No creo que se deba asumir el conocimiento de tales siglas en una pregunta como esta.
5

Quizás esto pueda ayudar. Pido disculpas de antemano porque, como completo aficionado, puedo equivocarme.

Imagine que le pide a 1000 personas que adivinen correctamente cuántos frijoles hay en un frasco lleno de gominolas. Ahora imagine que no está necesariamente interesado en saber la respuesta correcta (que puede ser de alguna utilidad) pero desea comprender mejor cómo las personas estiman la respuesta.

La variación podría explicarse a un laico como la difusión de diferentes respuestas (de mayor a menor). Puede continuar agregando que si se interrogara a suficientes personas, la respuesta correcta debería estar en algún lugar en el medio de la propagación de 'huéspedes invitados'.

Ahora me refiero a algunos de mis colegas más estimados para la adjudicación

Andrew V
fuente
5

Estaba sentado tratando de descifrar la variación y lo que finalmente hizo que encajara en mi lugar fue mirarlo gráficamente.

Digamos que dibujas una recta numérica con cuatro puntos, -7, -1, 1 y 7. Ahora dibuja un eje Y imaginario con los mismos cuatro puntos a lo largo de la dimensión Y, y usa los pares XY para dibujar el cuadrado de cada par de puntos. Terminas con cuatro cuadrados separados que consisten en 49, 1, 1 y 49 cuadrados más pequeños, cada uno. Cada uno de ellos contribuye a una suma total de cuadrados que, en sí, se puede representar como un gran cuadrado de 10 x 10 con 100 cuadrados más pequeños en general.

La varianza es el tamaño del cuadrado promedio que contribuye a ese cuadrado más grande. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Entonces 25 sería la varianza. La desviación estándar sería la longitud de uno de los lados de ese cuadrado promedio, o 5.

Obviamente, esta analogía no cubre el matiz completo del concepto de varianza. Hay muchas cosas que necesitan explicarse, como por qué a menudo usamos un denominador de n-1 para estimar el parámetro de población, en lugar de simplemente usar n. Pero como un concepto básico para vincular el resto de una comprensión detallada de la varianza, simplemente dibujarlo para que pudiera verlo ayudó inmensamente. Ayuda a entender lo que queremos decir cuando decimos que la varianza es la desviación cuadrática promedio de la media. También ayuda a comprender qué relación tiene SD con ese promedio.

Calen
fuente
1
¡Bienvenido a Cross-Validated! Me gusta el enfoque, pero podría ser aún más útil enfatizar que los puntos se extienden 'alrededor' de cero (es decir, tienen una media cero) y que se está midiendo la dispersión en relación con un "átomo" ubicado allí. (+1) y espero ver más respuestas tuyas!
Matt Krause
4

Tener mucha práctica enseñando a los legos sobre la desviación estándar y la varianza.

TL; DR; Es algo así como el promedio de distancias del promedio. (lo cual es un poco confuso y engañoso en una versión tan concisa. Así que lea el artículo completo)

Supongo que el lego sabe sobre el promedio. Doy una charla sobre la importancia de conocer SD y estimar errores (ver PS a continuación). Luego prometo que no se utilizarán conocimientos matemáticos o estadísticos sagrados, solo un razonamiento seco y una lógica pura.

  1. El problema. Digamos que tenemos un termómetro (elijo un dispositivo de medición dependiendo de lo que esté más cerca de lo auditivo).

    Hicimos N mediciones de la misma temperatura y el termómetro nos mostró algo así como 36.5, 35.9, 37.0, 36.6, ... (vea la foto). Sabemos que la temperatura real fue la misma, pero el termómetro nos miente un poco en cada medición.

    ¿Cómo podemos estimar cuánto nos miente esta pequeña escoria?

    Podemos calcular el promedio (ver línea roja en la imagen a continuación). ¿Podemos creerlo? Incluso después del promedio, ¿tiene suficiente precisión para nuestras necesidades?

    Valores del termómetro y su promedio

  2. El enfoque más fácil . Podemos tomar el punto más alejado, calcular la distancia entre él y el promedio (línea roja) y decir que así es como nos miente el termómetro, porque es el error máximo que vemos. Se podría adivinar, no es la mejor estimación. Si miramos la imagen, la mayoría de los puntos están alrededor del promedio, ¿cómo podemos decidir solo por un punto? En realidad, uno puede practicar las razones de numeración por las que dicha estimación es aproximada y generalmente mala.

  3. Varianza . Entonces ... ¡tomemos todas las distancias y calculemos la distancia promedio !

    Por cierto, ¿cómo calcular una distancia? Cuando escuchas la "distancia" en inglés (¿español? ¿Danés?) Se traduce como "restar" en matemáticas. Así, comenzamos nuestra fórmula con donde es el promedio y es una de las medidas.(xix¯)x¯xi

    Entonces uno podría imaginar que la fórmula de la distancia promedio estaría sumando todo y dividiendo entre N:

    (xix¯)N

    Pero hay un problema. Podemos ver fácilmente, por ejemplo. que 36.4 y 36.8 están a la misma distancia de 36.6. pero si ponemos los valores en la fórmula anterior, obtenemos -0.2 y +0.2, y su suma es igual a 0, que no es lo que queremos.

    ¿Cómo deshacerse de la señal? (En este punto, los legos suelen decir "Tomar el valor absoluto", y obtener la sugerencia de que "tomar un valor absoluto es un poco artificial, ¿de qué otra manera?"). ¡Podemos cuadrar los valores! Entonces la fórmula se convierte en:

    (xix¯)2N
    .

    Esta fórmula se llama "variación" en las estadísticas. Y es mucho mejor estimar la extensión de nuestros valores de termómetro (o lo que sea), que tomar solo la distancia máxima.

  4. Desviación estándar . Pero aún hay un problema más. Mira la fórmula de la varianza. Los cuadrados hacen que nuestras unidades de medida ... sean cuadradas. Si el termómetro mide la temperatura en ° C (o ° F), nuestra estimación de error se mide en (o ). ¿Cómo neutralizar los cuadrados? - ¡Usa la raíz cuadrada!°C2°F2

    (xix¯)2N

    Así que aquí llegamos a la fórmula de Desviación Estándar que comúnmente se denota como . Y esa es la mejor manera de estimar la precisión de nuestro dispositivo.σ

En este punto, un laico comprende muy claramente cómo llegamos aquí y cómo funciona la desviación / varianza estándar. Desde este punto, generalmente paso a la regla 68-95-99.7, que describe también sobre el muestreo y la población, el error estándar frente a los términos de desviación estándar, etc.

PD Importancia de saber SD talk ejemplo:

Digamos que tiene algún dispositivo de medición, que costó $ 1 000 000 . Y te da la respuesta: 42. ¿Crees que uno pagó 1 000 000 $ por 42? Phooey! Uno pagó 1000 000 por la precisión de esa respuesta. Porque el valor no cuesta nada sin conocer su error. Pagas por el error, no el valor. Aquí hay un buen ejemplo de vida.

En la vida común, la mayoría de las veces usamos una regla para medir una distancia. La regla te da precisión alrededor de un milímetro (si no estás en los EE. UU.). ¿Qué pasa si tiene que ir más allá del milímetro y medir algo con una precisión de 0.1 mm? - Probablemente usarías una pinza. Ahora, es fácil comprobar que una regla más barata (pero aún con precisión milimétrica) cuesta centavos, mientras que un buen calibrador cuesta la décima parte de los dólares. 2 magnitudes de un precio por 1 magnitud de la precisión. Y eso es muy habitual de cuánto paga por un error.

MajesticRa
fuente
2

Creo que la frase clave que se debe utilizar al explicar tanto la varianza como la desviación estándar es "medida de propagación" . En el lenguaje más básico, la varianza y la desviación estándar nos dicen qué tan bien distribuidos están los datos. Para ser un poco más precisos, aunque todavía se dirigen al lego, nos dicen qué tan bien se distribuyen los datos alrededor de la media. De paso, tenga en cuenta que la media es una "medida de ubicación" . Para concluir la explicación al lego, debe destacarse que la desviación estándar se expresa en las mismas unidades que los datos con los que estamos trabajando y que es por esta razón que tomamos la raíz cuadrada de la varianza. es decir, los dos están vinculados.

Creo que esa breve explicación sería suficiente. Probablemente sea algo similar a una explicación introductoria de un libro de texto de todos modos.

Graeme Walsh
fuente
0

Considero la varianza de la distribución como el momento de inercia con el eje que en la media de la distribución y cada masa como 1. Esta intuición haría concreto el concepto abstracto.

El primer momento es la media de la distribución y el segundo momento es la varianza.

Referencia: un primer curso de probabilidad 8ª edición

Lerner Zhang
fuente
-2

Yo lo llamaría la diferencia positiva promedio del promedio general.

mskw
fuente
1
Hasta que aclare los dos tipos de "promedio" que quiere decir (el primero es el promedio y el segundo es la media aritmética), es casi seguro que su enunciado se interpretará de manera incorrecta. Además, el término "diferencia positiva" es extraño y ambiguo: ¿quiere decir considerar solo los residuos positivos? ¿O para tomar los valores absolutos de los residuos? ¿O algo mas? L2
whuber