Me preguntaba cómo deducir la varianza de una variable usando un diagrama de caja. ¿Es al menos posible deducir si dos variables tienen la misma varianza observando su diagrama de caja?
Recientemente me topé con este artículo sobre un tema similar. Espero que te dé una idea.
Penguin_Knight
Respuestas:
16
No sin muchos supuestos estrictos, no. Si asumiera que la respuesta fue sí (en lugar de preguntar, por lo cual le aplaudo), apuesto a que podría engañarlo con este (contador) ejemplo:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Se ve bastante similar, ¿verdad? ¡Sin embargo, !σ21= 1 , σ22= 1.96
En caso de que no esté claro en el código, la población 2es:
Y no, no se puede deducir que esta población es normal solo porque es exactamente simétrica. Aquí hay una parcela QQ de población 2:
Claro que no me parece normal.
Editar - Respuesta a su comentario:
La varianza es una estadística numérica. Si las variaciones de dos distribuciones son literalmente iguales, eso es todo lo que tienes que decir al respecto. Si dos distribuciones son exactamente normales , nuevamente, hay una definición matemática que ambas encajarán. Si dos distribuciones no son exactamente normales o iguales en varianza, no debe decir lo contrario. Si quiere decir que son aproximadamente iguales o normales, probablemente debería definir "lo suficientemente aproximado" de una manera que se adapte a sus propósitos, que no ha especificado aquí. La sensibilidad a las diferencias de distribución varía ampliamente entre los análisis que generalmente motivan preguntas como la suya. Por ejemplo,tes bastante robusto para las violaciones de este último con tamaños de muestra iguales ), por lo que no recomendaría esa prueba para comparar mi población 2con la población 1(la distribución normal).
Buen ejemplo. Nick está usando R. (Hasta que todos usen R, es una buena práctica mencionar eso.)
Nick Cox
No puedo evitar pensar que sería un buen día para la ciencia en general :)
Nick Stauner
Tengo un largo ensayo sobre eso, pero de alguna manera no cabe en el espacio disponible.
Nick Cox
Buena respuesta. ¿Puede escribir qué información deberíamos informar para decir: "Son normales y la variación es la misma"
Donbeo
Editado para responder.
Nick Stauner
10
Esto ha sido bien respondido. Estos comentarios adicionales son demasiado largos (ACTUALIZACIÓN: ahora demasiado largos) como comentarios.
Estrictamente, todo lo que puede leer en un diagrama de caja sobre la variabilidad de una distribución es su rango intercuartil (la longitud o la altura de la caja) y el rango (la longitud o altura entre los extremos de la pantalla).
Como una aproximación, los gráficos de caja que parecen idénticos probablemente tengan variaciones muy similares, pero ten cuidado. Las parcelas de cajas con posiciones de caja o colas muy diferentes (o ambas) son más improbables de tener variaciones similares, pero no es imposible. Pero incluso si las gráficas de caja parecen idénticas, no se obtiene información en una gráfica de caja simple o vainilla sobre la variabilidad dentro de la caja o la variabilidad dentro de los bigotes (las líneas a menudo se muestran entre la caja y los puntos de datos dentro de 1.5 IQR del cuartil más cercano) . NB existen varias variantes de diagramas de caja; los autores a menudo son pobres para documentar las reglas precisas utilizadas por su software.
La popularidad del diagrama de caja tiene su precio. Los gráficos de caja pueden ser muy útiles para mostrar las características generales de muchos grupos o variables (digamos 20 o 30, a veces incluso más). Como se usa comúnmente para comparar, digamos 2 o 3 grupos, están sobrevendidos, en mi opinión, ya que otras parcelas pueden mostrar muchos más detalles de manera inteligible en el mismo espacio. Naturalmente, esto es ampliamente apreciado, si no universalmente, y varias mejoras del diagrama de caja muestran más detalles.
El trabajo serio con variaciones requiere acceso a datos originales.
Este es un pincel amplio, y se podrían agregar más detalles. Por ejemplo, la posición de la mediana dentro del cuadro a veces da un poco más de información.
ACTUALIZAR
Supongo que muchas más personas están interesadas en los usos (y limitaciones) de las gráficas de caja en general que en la cuestión específica de inferir la varianza de una gráfica de caja (a lo que la respuesta corta es "No puede, excepto indirectamente, aproximadamente, y a veces "), por lo que añadiré más comentarios sobre alternativas, según lo solicite @Christian Sauer.
Los histogramas utilizados con sensatez a menudo son competitivos El texto introductorio clásico moderno de Freedman, Pisani y Purves los usa en todas partes.
Lo que se conocen como diagramas de puntos o franjas (gráficos) (y por muchos otros nombres) son fáciles de entender. Se pueden apilar puntos idénticos, después de la agrupación si se desea. Puede agregar medianas y cuartiles, o intervalos medios y de confianza, al contenido de su corazón.
Las tramas cuantiles son, al parecer, un gusto adquirido, pero en muchos sentidos el más versátil de todos. Incluyo aquí gráficas de valores ordenados nuevamente probabilidad acumulativa (posición de trazado) así como gráficas cuantiles que serían rectas si los datos fueran considerados cualquier distribución de "marca" (normal, exponencial, gamma, lo que sea). (Agradecimientos a @Scortchi por la referencia a "nombre de marca" como lo usa CJ Geyer).
Pero una lista completa no es posible. (Agregaré, por ejemplo, que muy ocasionalmente, una representación de tallo y hoja es exactamente correcta para ver detalles importantes en los datos, como cuando la preferencia de dígitos es desenfrenada). El principio clave es que los mejores tipos de diagrama de distribución permiten la percepción aparentemente imposible de una estructura fina en los datos que podría ser interesante o importante (modalidad, granularidad, valores atípicos, etc.), así como una estructura gruesa (nivel, dispersión, sesgo, etc.).
Los diagramas de caja no son igualmente buenos para mostrar todo tipo de estructura. No pueden ser, y no fueron destinados a ser. Vale la pena señalar que JW Tukey en Análisis de datos exploratorios Reading, MA: Addison-Wesley (1977) dio un ejemplo de datos bimodales de Rayleigh que un diagrama de caja oscurece por completo la estructura principal. Como gran estadístico, sabía muy bien que los diagramas de cajas no siempre eran la respuesta.
Una práctica extraña, generalizada en textos introductorios, es discutir ANOVA al tiempo que invita a los lectores a mirar diagramas de cajas, que muestran medianas y cuartiles, no medios y variaciones (más bien SD). Naturalmente, mirar los datos es mucho mejor que no mirar, pero aun así, una representación gráfica más apropiada es posiblemente una gráfica de los datos en bruto con medias ajustadas +/- algún múltiplo apropiado de SE.
Nick, ¿podrías describir las alternativas a los diagramas de caja para un pequeño número de variables?
Christian Sauer
@ ChristianSauer Gracias por el mensaje: consulte la actualización.
Nick Cox
Gracias por la muy buena actualización. Especialmente me gusta su último párrafo, encuentro los gráficos de caja junto con ANOVA y / o regresión bastante confusos: es como comparar manzanas y naranjas.
Christian Sauer
2
Las estadísticas, como casi cualquier otra ciencia, están llenas de hábitos extraños de terminología, notación y análisis copiados de otros.
Nick Cox
1
Estoy totalmente de acuerdo: en mi tesis de maestría revisé las Variables independientes para su distribución normal ... esa es la mejor forma de estadísticas de culto de carga :(
Christian Sauer
6
Un enfoque ingenuo:
0,67 ⋅ σ1.35 ⋅ σ
yoQ R = 1.35 ⋅ σσ= 0.74 ⋅ IQ R
Y sobre la comparación de las variaciones por diagrama de caja: los cuadros más anchos significan variaciones más grandes, pero eso le da una comprensión exploratoria, y debe tener en cuenta también los bigotes y los valores atípicos. Para la confirmación, debe utilizar el contraste de hipótesis.
Para comparar la varianza, ¿todavía tenemos que suponer que ambas distribuciones son normales? ¿Podemos deducir que la variable es normal si la caja es simétrica con respecto al centro?
Donbeo
1
Suscribo todo lo que dice @Nick_Stauner. Lo que expuse fue asumir que sus poblaciones son normales, lo que requiere, entre otros, pero no solo, simetría y curtosis = 0. Esta suposición se viola con frecuencia.
Rufo
2
La curtosis se define de varias maneras. En otra definición (más simple), un normal (gaussiano) tiene curtosis 3. Debe verificar qué definición usa su software si lo está calculando en la práctica.
Nick Cox
1
Para una distribución normal, eso sería curtosis 3, exceso de curtosis 0 , si no me equivoco. Tengo curiosidad por saber si algún paquete de software popular produce curtosis sin exceso por defecto. Eso probablemente produciría mucha confusión (para no negar que las personas en general están algo confundidas por la omisión del "exceso" en la práctica opuesta) ...
Respuestas:
No sin muchos supuestos estrictos, no. Si asumiera que la respuesta fue sí (en lugar de preguntar, por lo cual le aplaudo), apuesto a que podría engañarlo con este (contador) ejemplo:
set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Se ve bastante similar, ¿verdad? ¡Sin embargo, !σ21= 1 , σ22= 1.96
En caso de que no esté claro en el código, la población
2
es:Y no, no se puede deducir que esta población es normal solo porque es exactamente simétrica. Aquí hay una parcela QQ de población
2
:Claro que no me parece normal.
Editar - Respuesta a su comentario:
La varianza es una estadística numérica. Si las variaciones de dos distribuciones son literalmente iguales, eso es todo lo que tienes que decir al respecto. Si dos distribuciones son exactamente normales , nuevamente, hay una definición matemática que ambas encajarán. Si dos distribuciones no son exactamente normales o iguales en varianza, no debe decir lo contrario. Si quiere decir que son aproximadamente iguales o normales, probablemente debería definir "lo suficientemente aproximado" de una manera que se adapte a sus propósitos, que no ha especificado aquí. La sensibilidad a las diferencias de distribución varía ampliamente entre los análisis que generalmente motivan preguntas como la suya. Por ejemplo,t es bastante robusto para las violaciones de este último con tamaños de muestra iguales ), por lo que no recomendaría esa prueba para comparar mi población
2
con la población1
(la distribución normal).fuente
Esto ha sido bien respondido. Estos comentarios adicionales son demasiado largos (ACTUALIZACIÓN: ahora demasiado largos) como comentarios.
Estrictamente, todo lo que puede leer en un diagrama de caja sobre la variabilidad de una distribución es su rango intercuartil (la longitud o la altura de la caja) y el rango (la longitud o altura entre los extremos de la pantalla).
Como una aproximación, los gráficos de caja que parecen idénticos probablemente tengan variaciones muy similares, pero ten cuidado. Las parcelas de cajas con posiciones de caja o colas muy diferentes (o ambas) son más improbables de tener variaciones similares, pero no es imposible. Pero incluso si las gráficas de caja parecen idénticas, no se obtiene información en una gráfica de caja simple o vainilla sobre la variabilidad dentro de la caja o la variabilidad dentro de los bigotes (las líneas a menudo se muestran entre la caja y los puntos de datos dentro de 1.5 IQR del cuartil más cercano) . NB existen varias variantes de diagramas de caja; los autores a menudo son pobres para documentar las reglas precisas utilizadas por su software.
La popularidad del diagrama de caja tiene su precio. Los gráficos de caja pueden ser muy útiles para mostrar las características generales de muchos grupos o variables (digamos 20 o 30, a veces incluso más). Como se usa comúnmente para comparar, digamos 2 o 3 grupos, están sobrevendidos, en mi opinión, ya que otras parcelas pueden mostrar muchos más detalles de manera inteligible en el mismo espacio. Naturalmente, esto es ampliamente apreciado, si no universalmente, y varias mejoras del diagrama de caja muestran más detalles.
El trabajo serio con variaciones requiere acceso a datos originales.
Este es un pincel amplio, y se podrían agregar más detalles. Por ejemplo, la posición de la mediana dentro del cuadro a veces da un poco más de información.
ACTUALIZAR
Supongo que muchas más personas están interesadas en los usos (y limitaciones) de las gráficas de caja en general que en la cuestión específica de inferir la varianza de una gráfica de caja (a lo que la respuesta corta es "No puede, excepto indirectamente, aproximadamente, y a veces "), por lo que añadiré más comentarios sobre alternativas, según lo solicite @Christian Sauer.
Los histogramas utilizados con sensatez a menudo son competitivos El texto introductorio clásico moderno de Freedman, Pisani y Purves los usa en todas partes.
Lo que se conocen como diagramas de puntos o franjas (gráficos) (y por muchos otros nombres) son fáciles de entender. Se pueden apilar puntos idénticos, después de la agrupación si se desea. Puede agregar medianas y cuartiles, o intervalos medios y de confianza, al contenido de su corazón.
Las tramas cuantiles son, al parecer, un gusto adquirido, pero en muchos sentidos el más versátil de todos. Incluyo aquí gráficas de valores ordenados nuevamente probabilidad acumulativa (posición de trazado) así como gráficas cuantiles que serían rectas si los datos fueran considerados cualquier distribución de "marca" (normal, exponencial, gamma, lo que sea). (Agradecimientos a @Scortchi por la referencia a "nombre de marca" como lo usa CJ Geyer).
Pero una lista completa no es posible. (Agregaré, por ejemplo, que muy ocasionalmente, una representación de tallo y hoja es exactamente correcta para ver detalles importantes en los datos, como cuando la preferencia de dígitos es desenfrenada). El principio clave es que los mejores tipos de diagrama de distribución permiten la percepción aparentemente imposible de una estructura fina en los datos que podría ser interesante o importante (modalidad, granularidad, valores atípicos, etc.), así como una estructura gruesa (nivel, dispersión, sesgo, etc.).
Los diagramas de caja no son igualmente buenos para mostrar todo tipo de estructura. No pueden ser, y no fueron destinados a ser. Vale la pena señalar que JW Tukey en Análisis de datos exploratorios Reading, MA: Addison-Wesley (1977) dio un ejemplo de datos bimodales de Rayleigh que un diagrama de caja oscurece por completo la estructura principal. Como gran estadístico, sabía muy bien que los diagramas de cajas no siempre eran la respuesta.
Una práctica extraña, generalizada en textos introductorios, es discutir ANOVA al tiempo que invita a los lectores a mirar diagramas de cajas, que muestran medianas y cuartiles, no medios y variaciones (más bien SD). Naturalmente, mirar los datos es mucho mejor que no mirar, pero aun así, una representación gráfica más apropiada es posiblemente una gráfica de los datos en bruto con medias ajustadas +/- algún múltiplo apropiado de SE.
fuente
Un enfoque ingenuo:
Y sobre la comparación de las variaciones por diagrama de caja: los cuadros más anchos significan variaciones más grandes, pero eso le da una comprensión exploratoria, y debe tener en cuenta también los bigotes y los valores atípicos. Para la confirmación, debe utilizar el contraste de hipótesis.
fuente