Distribuciones simuladas

9

Estoy trabajando en una tarea de Planificación de capacidad y he leído algunos libros. Esto es específicamente sobre distribuciones. Yo uso R.

  1. ¿Cuál es el enfoque recomendado para identificar cuál es mi distribución de datos? ¿Existen métodos estadísticos para identificarlo?

Tengo este diagrama

ENFOQUES PROBABILÍSTICOS: ANÁLISIS DE ESCENARIO, ÁRBOLES DE DECISIÓN Y SIMULACIONES

  1. ¿Cuáles son los enfoques de simulación disponibles con R? Aquí quiero generar datos para una determinada distribución como exponencial. ¿Es r-java el enfoque correcto si quiero integrarlo con Java?

  2. ¿Hay alguna manera de predecir qué distribución tendrá el efecto (uso de CPU, etc.) cuando canalice datos para una distribución particular? ¿Cuáles son los diferentes efectos de enviar ciertas distribuciones de datos?

Por favor considere esto como preguntas para principiantes. ¿Hay libros o material que aborde este tipo de simulaciones?

Notas

El diagrama es del final del documento http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Técnicas de bondad de ajuste que he encontrado

Evaluación de bondad de ajuste

  1. Chi-cuadrado
  2. Kolmogorov-Smirnov,
  3. Gráficos de densidad estadística de Anderson-Darling, cdf, PP y QQ

No estoy seguro de cuál debería ser la interpretación o los próximos pasos si encuentro que mi distribución es normal o exponencial, etc. ¿Qué me permite hacer? ¿Predicción? Espero que esta pregunta sea clara.

Los retrasos exponenciales inducirán fluctuaciones de la cola según mi libro de Planificación de capacidad de Neil Gunther. Entonces sé ese punto.

Mohan Radhakrishnan
fuente
Si cree que su diagrama es importante, entonces debería intentar mejorar la calidad de la imagen ...
ocram
Aprecio el cuidado que se necesita para hacer una buena pregunta. En mi opinión, su punto 2. (que debería ser 3, supongo) necesita aclaración, o incluso podría moverlo a Desbordamiento de pila.
gui11aume
1
Creo que mi última pregunta pertenece aquí. Digamos que identifico mi distribución de datos. ¿Es que predigo que las distribuciones futuras seguirán esta probabilidad? Me falta parte del análisis de datos aquí. Sé que una trama de caja-bigotes muestra fácilmente cuartiles que entiendo. No obtengo la utilidad de una distribución. Que haya propiedades de esta distribución que necesito investigar para predecir.
Mohan Radhakrishnan
@ocram Si la calidad es deficiente, amplíe la página en su navegador: el detalle está ahí. Por cierto, estas imágenes deben ser de parte de la documentación de Crystal Ball .
whuber
@whuber: ¡De hecho, ni siquiera lo intenté! Perdón por el comentario.
ocram

Respuestas:

7

Contestaré su punto sobre las simulaciones con R porque este es el único con el que estoy familiarizado. R tiene muchas distribuciones integradas que puede simular. La lógica de los nombres es que para simular una distribución llamada disserá el nombre rdis.

A continuación están los que uso con más frecuencia.

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Se pueden encontrar algunos complementos en Montaje de distribuciones con R .

Adición: gracias a @jthetzel por proporcionar un enlace con una lista completa de distribuciones y los paquetes a los que pertenecen.

Pero espera, hay más: OK, siguiendo el comentario de @ whuber intentaré abordar los otros puntos. Con respecto al punto 1, nunca uso un enfoque de bondad de ajuste. En cambio, siempre pienso en el origen de la señal, como la causa del fenómeno, si hay algunas simetrías naturales en lo que lo produce, etc. Necesitas varios capítulos de libros para cubrirlo, así que solo daré dos ejemplos.

  1. Si los datos son recuentos y no hay límite superior, pruebo un Poisson. Las variables de Poisson se pueden interpretar como los recuentos de sucesivos independientes durante una ventana de tiempo, que es un marco muy general. Encajo la distribución y veo (a menudo visualmente) si la varianza está bien descrita. Muy a menudo, la varianza de la muestra es mucho mayor, en cuyo caso utilizo un binomio negativo. El binomio negativo se puede interpretar como una mezcla de Poisson con diferentes variables, lo que es aún más general, por lo que esto generalmente se adapta muy bien a la muestra.

  2. Si creo que los datos son simétricos en torno a la media, es decir, que las desviaciones son igualmente positivas o negativas, trato de ajustar un gaussiano. Luego verifico (nuevamente visualmente) si hay muchos valores atípicos, es decir , puntos de datos muy alejados de la media. Si los hay, utilizo una t de Student en su lugar. La distribución t de Student se puede interpretar como una mezcla de gaussiana con diferentes variaciones, lo que de nuevo es muy general.

En esos ejemplos, cuando digo visualmente, quiero decir que uso un gráfico QQ

El punto 3, también merece varios capítulos de libros. Los efectos de usar una distribución en lugar de otra son ilimitados. Entonces, en lugar de pasar por todo, continuaré con los dos ejemplos anteriores.

  1. En mis primeros días, no sabía que el binomio negativo puede tener una interpretación significativa, así que usé Poisson todo el tiempo (porque me gusta poder interpretar los parámetros en términos humanos). Muy a menudo, cuando usa un Poisson, se ajusta muy bien a la media, pero subestima la varianza. Esto significa que no puede reproducir valores extremos de su muestra y considerará tales valores como valores atípicos (puntos de datos que no tienen la misma distribución que los otros puntos) mientras que en realidad no lo son.

  2. Nuevamente en mis primeros días, no sabía que la t de Student también tiene una interpretación significativa y usaría el gaussiano todo el tiempo. Algo similar sucedió. Encajaría bien la media y la varianza, pero aún así no capturaría los valores atípicos porque se supone que casi todos los puntos de datos están dentro de las 3 desviaciones estándar de la media. Lo mismo sucedió, concluí que algunos puntos eran "extraordinarios", mientras que en realidad no lo eran.

gui11aume
fuente
2
Una nota a añadir a la respuesta de gui11aume: Hay una sintaxis "d, p, q, r" para las funciones relacionadas con la distribución en R. Por ejemplo, dnorm, pnorm, qnorm, y rnormson la densidad, la función de distribución acumulativa (CDF), inversa CDF, y funciones generadoras de variables aleatorias para la distribución Normal, respectivamente. Consulte la vista de tareas de distribución de probabilidad para obtener una lista completa de las distribuciones disponibles.
jthetzel
Sí, muchas gracias (+1). Estuve buscando esa lista por mucho tiempo. Lo puse en la respuesta para que sea más visible.
gui11aume
1
Ni siquiera podría decirte cuál es un tercio de esas distribuciones. Mucho más que aprender ... +1, pero no olvidemos el resto de la pregunta, que es fundamental (pero quizás demasiado amplia): ¿qué efectos tienen las elecciones de distribución en una simulación? ¿Cómo debería uno hacer estas elecciones?
whuber
@whuber Agregué el efecto de la distribución exponencial de los retrasos en las fluctuaciones de la cola. Referir. libros sobre CP o colas.
Mohan Radhakrishnan
He leído las distribuciones Fitting con R y también he usado QQ plot una vez. La estimación de máxima verosimilitud comienza con la expresión matemática conocida como función de verosimilitud de los datos de la muestra. Hablando en términos generales, la verosimilitud de un conjunto de datos es la probabilidad de obtener ese conjunto particular de datos dado el modelo de probabilidad elegido. ¿Significa esto que hay una manera de calcular que la distribución puede ocurrir nuevamente? ¿Cuántas medidas se requieren para probar esto?
Mohan Radhakrishnan