Cálculo de la distribución de min, mean y max

10

Supongamos que tengo el mínimo, la media y el máximo de algún conjunto de datos, por ejemplo, 10, 20 y 25. ¿Hay alguna manera de:

  1. crear una distribución a partir de estos datos y

  2. saber qué porcentaje de la población probablemente se encuentra por encima o por debajo de la media

Editar:

Según la sugerencia de Glen, supongamos que tenemos un tamaño de muestra de 200.

usuario132053
fuente
(1) es fácil, porque hay muchas soluciones. (2) se realiza mejor en el contexto de algunos supuestos sobre la forma de distribución, ya que de lo contrario todo lo que puede obtener son límites matemáticos.
whuber
3
Te están tomando literalmente aquí en comentarios y respuestas hasta ahora, pero una precaución necesaria (tácita, creo, en los comentarios de @ whuber) es que hay tantas distribuciones compatibles con dicha información que no debes inferir que tienes suficiente información para hacer esto bien o de manera confiable. En particular, si ni siquiera conoce el tamaño de la muestra, no puede hacer mucho para pensar en la incertidumbre.
Nick Cox
Cuando pregunta acerca de la proporción de la población que "se encuentra por encima o por debajo de la media" ... ¿pregunta en relación con la media de la muestra o la media de la población allí? ¿Estamos hablando de variables continuas o discretas? ¿Conocemos el tamaño de la muestra?
Glen_b -Reinstate Monica

Respuestas:

10

Tengo el mínimo, la media y el máximo de algunos conjuntos de datos, por ejemplo, 10, 20 y 25. ¿Hay alguna manera de:

crear una distribución a partir de estos datos y

Hay un número infinito de posibles distribuciones que serían consistentes con esas cantidades de muestra.

saber qué porcentaje de la población probablemente se encuentra por encima o por debajo de la media

En ausencia de algunas suposiciones probablemente injustificadas, no en general, al menos no con mucho sentido de que será significativo. Los resultados dependerán en gran medida de sus suposiciones (no hay mucha información en los valores mismos, aunque algunos arreglos particulares imparten alguna información útil, ver más abajo).

No es difícil encontrar situaciones en las que las respuestas a la pregunta de proporción pueden ser muy diferentes. Cuando hay respuestas posibles muy diferentes, consistentes con la información, ¿cómo podría saber en qué situación se encuentra?

Más detalles pueden dar pistas útiles, pero tal como están (sin siquiera un tamaño de muestra, aunque presumiblemente es al menos 2 o 3 si la media no está a la mitad entre los puntos finales *), no necesariamente obtendrá mucho valor en esa pregunta . Puede intentar obtener límites, pero en muchos casos no reducirán mucho las cosas.

n

Glen_b -Reinstate a Monica
fuente
2
@DJohnson No creo que sea hiperbólico, es literalmente cierto (aunque nuestra capacidad para enumerarlos realmente podría fallar después de unos pocos miles y nuestra capacidad para cuidar de seguir enumerándolos podría fallar después de unas pocas docenas, no significa no hay otros conjuntos de supuestos bajo los cuales podríamos operar). No hubo intención de condescendencia en mi redacción: se eligió deliberadamente para indicar realmente la verdadera amplitud de posibles conjuntos de suposiciones. ¿Qué te gustaría que escribiera?
Glen_b -Reinstate Monica
3
1. ¿Cuál es una razón para restringir las posibilidades a dos parámetros como máximo? ¿Qué pasaría si los datos se obtuvieran de un parámetro lognormal de tres parámetros, por ejemplo? En muchos casos, no podemos estimar todos los parámetros a partir de los datos, pero ese es parte del problema que estoy tratando de motivar allí (se relaciona con la discusión de supuestos. 2. Johnson y Kotz es un subconjunto de las distribuciones que las personas han nombrado Trabajé con, no remotamente un límite sobre qué supuestos son posibles . He inventado numerosas distribuciones que no están en Johnson y Kotz, y ...
ctd
44
ctd ... Estoy bastante seguro de que no todos están descartados aquí. Incluso sin parámetros no especificados, hay una infinidad de archivos cdf posibles, un subconjunto no finito del cual no se descartaría la información especificada.
Glen_b -Reinstalar Monica
1
@Djohnson Cualquiera que sea el alcance de cualquier desacuerdo restante, agradezco sus útiles comentarios. Consideraré si al menos debo indicar más claramente lo que estoy diciendo realmente (mi reclamo real es capaz de probar, si fuera necesario, pero tal vez al menos pueda decirlo claramente), y si debería expresarse de manera diferente allí.
Glen_b -Reinstate Monica
44
@DJohnson Tome dos distribuciones diferentes que cumplan las condiciones: cualquier mezcla de las dos seguirá satisfaciendo dichas condiciones. Eso es literalmente un infinito: uno no enumerable.
Elvis
8

Como ya señaló Glen_b , hay infinitas posibilidades. Eche un vistazo a los siguientes gráficos, que muestran ocho distribuciones diferentes que tienen los mismos min, max y mean.

Ocho distribuciones diferentes

Tenga en cuenta que son muy diferentes entre sí. Primero es uniforme, luego es una mezcla bimodal de distribuciones triangulares, el séptimo tiene la mayor probabilidad de masa concentrada alrededor del centro, pero aún así, min y max son posibles con muy poca probabilidad, ocho es discreto y tiene solo dos valores en min y max, etc. .

Como todos cumplen con sus criterios, puede usar cualquiera de ellos para la simulación. Sin embargo, su elección subjetiva tendría un resultado muy profundo en el resultado de la simulación. Lo que quiero decir es que si min, max y mean son realmente lo único que sabes sobre la distribución, entonces no tienes información suficiente para realizar la simulación si realmente quieres imitar la distribución real (desconocida).

Así que hay que preguntarse lo que no se sabe acerca de la distribución? ¿Es discreto o continuo? ¿Simétrico o sesgado? ¿Unimodal o bimodal? Hay muchas cosas a considerar. Si es continuo, no uniforme y unimodal, y conoce solo el mínimo, máximo y medio, entonces una opción posible es la distribución triangular : es muy poco probable que algo en la vida real tenga esa distribución, pero al menos está usando algo simple y no imponer demasiados supuestos sobre su forma.

Tim
fuente
Entonces, si supuse una distribución triangular, también podría calcular el modo con mi información actual. ¿Eso ayudaría?
user132053
1
@ user132053 solo necesita min, max y mean. La fórmula para la media de la distribución triangular es (a + b + c) / 3, puede resolverla para el modo usando aritmética simple.
Tim
4

Una regla basada en el rango para calcular la desviación estándar se cita ampliamente en la literatura estadística (aquí hay una referencia ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Básicamente, es (max-min) / 4. Se sabe que es una estimación muy aproximada.

Dada esa información y la voluntad de asumir datos distribuidos normalmente, se pueden generar desviaciones normales a partir de dos números, la desviación estándar y la desviación estándar basada en el rango. Dicho esto, cualquier distribución de uno o dos parámetros podría generarse a partir de estas dos piezas de información, siempre que esa distribución se arraigara en el primer o segundo momento.

También podría producirse un coeficiente de variación aproximado tomando la relación SD / media. Esto proporcionaría un proxy para la variabilidad sin unidades en los datos.

El error se refiere más adecuadamente a la distribución muestral de la población y requiere una declaración del tamaño de la muestra, n , para su estimación. Su descripción no proporciona este detalle.

Mike Hunter
fuente
3
Algunas cosas que vale la pena señalar: (1) La media potencialmente da más información que debería anular la regla (max-min) / 4. (2) Dado que se proporcionan tres piezas de información, el uso de solo una familia de dos parámetros deja un grado de flexibilidad en general.
whuber
@whuber Has hecho dos comentarios alusivos sobre este hilo. Lo que sería grandioso es si tuviera que elaborarlos y especificar una respuesta.
Mike Hunter