Supongamos que tengo el mínimo, la media y el máximo de algún conjunto de datos, por ejemplo, 10, 20 y 25. ¿Hay alguna manera de:
crear una distribución a partir de estos datos y
saber qué porcentaje de la población probablemente se encuentra por encima o por debajo de la media
Editar:
Según la sugerencia de Glen, supongamos que tenemos un tamaño de muestra de 200.
distributions
standard-deviation
mean
maximum
minimum
usuario132053
fuente
fuente
Respuestas:
Hay un número infinito de posibles distribuciones que serían consistentes con esas cantidades de muestra.
En ausencia de algunas suposiciones probablemente injustificadas, no en general, al menos no con mucho sentido de que será significativo. Los resultados dependerán en gran medida de sus suposiciones (no hay mucha información en los valores mismos, aunque algunos arreglos particulares imparten alguna información útil, ver más abajo).
No es difícil encontrar situaciones en las que las respuestas a la pregunta de proporción pueden ser muy diferentes. Cuando hay respuestas posibles muy diferentes, consistentes con la información, ¿cómo podría saber en qué situación se encuentra?
Más detalles pueden dar pistas útiles, pero tal como están (sin siquiera un tamaño de muestra, aunque presumiblemente es al menos 2 o 3 si la media no está a la mitad entre los puntos finales *), no necesariamente obtendrá mucho valor en esa pregunta . Puede intentar obtener límites, pero en muchos casos no reducirán mucho las cosas.
fuente
Como ya señaló Glen_b , hay infinitas posibilidades. Eche un vistazo a los siguientes gráficos, que muestran ocho distribuciones diferentes que tienen los mismos min, max y mean.
Tenga en cuenta que son muy diferentes entre sí. Primero es uniforme, luego es una mezcla bimodal de distribuciones triangulares, el séptimo tiene la mayor probabilidad de masa concentrada alrededor del centro, pero aún así, min y max son posibles con muy poca probabilidad, ocho es discreto y tiene solo dos valores en min y max, etc. .
Como todos cumplen con sus criterios, puede usar cualquiera de ellos para la simulación. Sin embargo, su elección subjetiva tendría un resultado muy profundo en el resultado de la simulación. Lo que quiero decir es que si min, max y mean son realmente lo único que sabes sobre la distribución, entonces no tienes información suficiente para realizar la simulación si realmente quieres imitar la distribución real (desconocida).
Así que hay que preguntarse lo que no se sabe acerca de la distribución? ¿Es discreto o continuo? ¿Simétrico o sesgado? ¿Unimodal o bimodal? Hay muchas cosas a considerar. Si es continuo, no uniforme y unimodal, y conoce solo el mínimo, máximo y medio, entonces una opción posible es la distribución triangular : es muy poco probable que algo en la vida real tenga esa distribución, pero al menos está usando algo simple y no imponer demasiados supuestos sobre su forma.
fuente
Una regla basada en el rango para calcular la desviación estándar se cita ampliamente en la literatura estadística (aquí hay una referencia ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Básicamente, es (max-min) / 4. Se sabe que es una estimación muy aproximada.
Dada esa información y la voluntad de asumir datos distribuidos normalmente, se pueden generar desviaciones normales a partir de dos números, la desviación estándar y la desviación estándar basada en el rango. Dicho esto, cualquier distribución de uno o dos parámetros podría generarse a partir de estas dos piezas de información, siempre que esa distribución se arraigara en el primer o segundo momento.
También podría producirse un coeficiente de variación aproximado tomando la relación SD / media. Esto proporcionaría un proxy para la variabilidad sin unidades en los datos.
El error se refiere más adecuadamente a la distribución muestral de la población y requiere una declaración del tamaño de la muestra, n , para su estimación. Su descripción no proporciona este detalle.
fuente