¿Cuáles son algunos usos importantes de la generación de números aleatorios en las estadísticas computacionales?

¿Cómo y por qué son importantes los generadores de números aleatorios (RNG) en las estadísticas computacionales?

Entiendo que la aleatoriedad es importante al elegir muestras para muchas pruebas estadísticas para evitar sesgos hacia cualquiera de las hipótesis, pero ¿hay otras áreas de estadística computacional donde los generadores de números aleatorios son importantes?

hypothesis-testing monte-carlo algorithms random-generation computational-statistics Patrick
fuente

Muy relacionado: stats.stackexchange.com/q/135665/35989

Tim

¿Que estas preguntando? Tu pregunta realmente no tiene mucho sentido.

Carl Witthoft

Puede ser que sea mejor pedir las áreas en las que son no importante. Probablemente sería una lista más corta.

John Coleman el

La pregunta es amplia pero el título es atractivo y la respuesta de Matthew es una buena descripción. ¡Voté por reabrir!

Benoit Sanchez

Esto es claramente demasiado amplio para los estándares de SE convencionales, y equivale a una pregunta de 'lista grande' que probablemente acumule muchas respuestas pequeñas, apenas elaboradas, que a menudo duplican las respuestas ya proporcionadas. Sin embargo, parece haber algún valor real aquí. Un compromiso es que esto sea CW y protegido. En el futuro, las respuestas que mencionen algo sin elaboración y / o que los usos duplicados ya mencionados se eliminen rápidamente y sin comentarios.

gung - Restablece a Monica

Respuestas:

Hay muchos, muchos ejemplos. Demasiados para enumerar, y probablemente demasiados para que alguien los conozca por completo (además de posiblemente @whuber, a quien nunca se debe subestimar).

Como mencionas, en los experimentos controlados evitamos el sesgo de muestreo al dividir aleatoriamente a los sujetos en grupos de tratamiento y control.

En bootstrapping , aproximamos el muestreo repetido de una población mediante un muestreo aleatorio con reemplazo de una muestra fija. Esto nos permite estimar la varianza de nuestras estimaciones, entre otras cosas.

En la validación cruzada , estimamos el error fuera de la muestra de una estimación al dividir aleatoriamente nuestros datos en segmentos y al ensamblar conjuntos de entrenamiento y pruebas al azar.

En las pruebas de permutación utilizamos permutaciones aleatorias para muestrear bajo la hipótesis nula, lo que permite realizar pruebas de hipótesis no paramétricas en una amplia variedad de situaciones.

En el ensacado , controlamos la varianza de una estimación realizando repetidamente la estimación en muestras de arranque de datos de entrenamiento y luego promediando los resultados.

En los bosques aleatorios , controlamos aún más la varianza de una estimación mediante el muestreo aleatorio de los predictores disponibles en cada punto de decisión.

En la simulación, le pedimos a un modelo de ajuste que genere aleatoriamente nuevos conjuntos de datos que podamos comparar con los datos de entrenamiento o prueba, lo que ayuda a validar el ajuste y los supuestos en un modelo.

En la cadena de Markov Monte Carlo, tomamos muestras de una distribución explorando el espacio de posibles resultados utilizando una cadena de Markov (gracias a @Ben Bolker por este ejemplo).

Esas son solo las aplicaciones comunes y cotidianas que vienen a la mente de inmediato. Si cavara profundo, probablemente podría duplicar la longitud de esa lista. La aleatoriedad es a la vez un importante objeto de estudio y una herramienta importante para ejercer.

Matthew Drury
fuente

Todo esto es cierto, pero no aborda el problema principal: un PRNG con cualquier tipo de estructura resultante o previsibilidad en la secuencia hará que las simulaciones fallen.

Carl Witthoft

Una de las cosas que merece mención son los costos computacionales y de memoria de generar grandes números de números aleatorios o pseudoaleatorios. Algunas aplicaciones de RNG en estadísticas requieren de cientos a millones de números aleatorios, pero algunas requieren muchos órdenes de magnitud más, lo que tiene en cuenta estos dos costos.

Alexis

Todo esto es cierto, pero no aborda el problema principal: un PRNG con cualquier tipo de estructura resultante o previsibilidad en la secuencia hará que las simulaciones fallen. Carl Witthoft 31 de enero a las 15:51

Si esto le preocupa, quizás el título de la pregunta debería cambiarse a "Impacto de la elección de RNG en los resultados de Monte Carlo" o algo así. En este caso, ya considerado en la validación cruzada SE , aquí hay algunas instrucciones

Si está considerando RNG mal diseñados como el infame RANDU , impactarán claramente negativamente en la aproximación de Monte Carlo. Para detectar deficiencias en los RNG, existen bancos de puntos de referencia como las pruebas Diehard de Marsaglia . (Por ejemplo, se descubrió que Park & Miller (1988) carece del uso del generador congruencial Lehmer con el factor 16807 , para ser reemplazado por 47271 o 69621. Por supuesto, esto ha sido reemplazado por generadores de períodos masivos como el Mersenne Twister PRNG ).
Una pregunta SE sobre matemáticas proporciona un enlace sobre el impacto (o la falta de él) en la estimación y la precisión, si no es una respuesta muy útil.
Jeff Rosenthal (U Toronto) tiene un artículo donde estudia el impacto en un RNG en la convergencia de las cadenas de Markov (Monte Carlo), pero no puedo encontrarlo. Recientemente realicé un pequeño experimento en mi blog sin impacto visible del tipo RNG.
- Por otro lado, un esquema de lotería en Ontario utilizó una generación aleatoria mal diseñada, que fue detectada por un estadístico, Mohan Srivastava de Toronto, Canadá, quien notificó a la Corporación de Lotería y Juegos de Ontario sobre el problema, en lugar de obtener grandes ganancias de este escapatoria.
Aquí hay una ilustración de un caso en el que un simulador de red clásico se ve afectado por una mala elección predeterminada (vinculada a Park y Miller arriba).
Existen problemas específicos con la estructura de los RNG utilizados en la computación paralela . El uso de varias semillas generalmente no es lo suficientemente bueno, especialmente para generadores congruenciales lineales. Se pueden encontrar muchos enfoques en la literatura informática, incluidos los paquetes escalables de generación de números aleatorios paralelos (SPRNG) de Michael Mascagni (incluida una versión R) y el creador dinámico de Matsumoto , un programa en C que proporciona valores iniciales para transmisiones independientes cuando se utiliza el tornado Mersenne . Esto también se ha abordado en el desbordamiento de pila SE .
El año pasado, vi una charla de Paula Whitlock sobre el impacto de la Biblioteca Científica GNU en la convergencia de caminatas aleatorias de alta dimensión, pero no puedo.
Para terminar con una nota ligera, también hay algo de literatura sobre la distinción entre RNG de software y hardware, ¡con afirmaciones de que los psíquicos pueden afectar a los posteriores !

Xi'an
fuente