Sé que si puedo tener dos distribuciones con la misma media y varianza, tendré formas diferentes, porque puedo tener una N (x, s) y una U (x, s)
Pero, ¿qué pasa si su min, Q1, mediana, Q3 y max son idénticos?
¿Pueden las distribuciones verse diferentes entonces, o se requerirá que tomen la misma forma?
Mi única lógica detrás de esto es que si tienen exactamente el mismo resumen de 5 números, deben adoptar exactamente la misma forma de distribución.
Respuestas:
El hecho de que el resumen de cinco números sea idéntico no significa que la distribución sea idéntica. ¡Esto le indica cuánta información se pierde cuando presentamos los datos gráficamente en un diagrama de caja!
Quizás la forma más fácil de ver el problema es que el resumen de cinco números no le dice nada acerca de la distribución de los valores entre el cuartil mínimo y el inferior, o entre el cuartil inferior y la mediana, y así sucesivamente. Usted sabe que la frecuencia entre el cuartil mínimo y el inferior debe coincidir con la frecuencia entre el cuartil inferior y la mediana (con las excepciones obvias, por ejemplo, si tenemos datos en un cuartil, o peor, si dos cuartiles están vinculados), pero no sé qué valores de la variable se asignan esas frecuencias. Podemos tener una situación como esta:
Estas dos distribuciones tienen el mismo resumen de cinco números, por lo que sus diagramas de caja son idénticos, pero he elegidoX tener una distribución uniforme entre cada cuartil mientras que Y tiene una distribución con bajas frecuencias cerca de los cuartiles y altas frecuencias en el medio de dos cuartiles. Efectivamente la distribución deY se ha formado tomando la distribución de X y alejar la mayor parte de los datos que están cerca de un cuartil; mi Y y nivelar las frecuencias reasignando datos de los picos para completar los canales.
R
código realmente realiza esto a la inversa, comenzando con la distribución irregular deEDITAR: como dice @Glen_b, esto se vuelve aún más obvio cuando se miran las distribuciones acumulativas. He agregado líneas de cuadrícula para mostrar la ubicación de los cuartiles, que son los mismos para las dos distribuciones, de modo que sus CDF empíricos se cruzan.
Código R
fuente
Esto se responde más claramente considerando la función de distribución (acumulativa).
Al especificar el mínimo, el máximo y los tres cuartiles se especifican exactamente 5 puntos en el cdf, pero el cdf entre esos puntos puede ser cualquier función monótona no decreciente que aún pase por esos puntos:
En el dibujo, los CDF rojos y negros comparten el mismo mínimo, máximo y cuartiles, pero son distribuciones claramente diferentes. Claramente, podría especificarse cualquier número de otros CDF que también pasen por los mismos cinco puntos.
De hecho, todo lo que hemos hecho es restringir nuestra función de distribución a cuatro cuadros:
(siempre que siga satisfaciendo las otras condiciones para un CDF). Eso no es tanta restricción.
Se puede aplicar la misma noción a las cantidades de muestra; sin embargo, dos CDF empíricos diferentes pueden tener el mismo resumen de cinco números.
fuente
No, definitivamente no es el caso. Como un simple ejemplo contrario, compare la distribución uniforme continua en[ 0 , 3 ] con la discreta distribución uniforme en { 0 , 1 , 2 , 3 } .
Un ejemplo relacionado es el conocido cuarteto de Anscombe, donde hay 4 conjuntos de datos con 6 propiedades de muestra idénticas (aunque diferentes de las que menciona) se ven completamente diferentes. Ver: http://en.wikipedia.org/wiki/Anscombe%27s_quartet
fuente