¿Cómo y por qué son importantes los generadores de números aleatorios (RNG) en las estadísticas computacionales?
Entiendo que la aleatoriedad es importante al elegir muestras para muchas pruebas estadísticas para evitar sesgos hacia cualquiera de las hipótesis, pero ¿hay otras áreas de estadística computacional donde los generadores de números aleatorios son importantes?
Respuestas:
Hay muchos, muchos ejemplos. Demasiados para enumerar, y probablemente demasiados para que alguien los conozca por completo (además de posiblemente @whuber, a quien nunca se debe subestimar).
Como mencionas, en los experimentos controlados evitamos el sesgo de muestreo al dividir aleatoriamente a los sujetos en grupos de tratamiento y control.
En bootstrapping , aproximamos el muestreo repetido de una población mediante un muestreo aleatorio con reemplazo de una muestra fija. Esto nos permite estimar la varianza de nuestras estimaciones, entre otras cosas.
En la validación cruzada , estimamos el error fuera de la muestra de una estimación al dividir aleatoriamente nuestros datos en segmentos y al ensamblar conjuntos de entrenamiento y pruebas al azar.
En las pruebas de permutación utilizamos permutaciones aleatorias para muestrear bajo la hipótesis nula, lo que permite realizar pruebas de hipótesis no paramétricas en una amplia variedad de situaciones.
En el ensacado , controlamos la varianza de una estimación realizando repetidamente la estimación en muestras de arranque de datos de entrenamiento y luego promediando los resultados.
En los bosques aleatorios , controlamos aún más la varianza de una estimación mediante el muestreo aleatorio de los predictores disponibles en cada punto de decisión.
En la simulación, le pedimos a un modelo de ajuste que genere aleatoriamente nuevos conjuntos de datos que podamos comparar con los datos de entrenamiento o prueba, lo que ayuda a validar el ajuste y los supuestos en un modelo.
En la cadena de Markov Monte Carlo, tomamos muestras de una distribución explorando el espacio de posibles resultados utilizando una cadena de Markov (gracias a @Ben Bolker por este ejemplo).
Esas son solo las aplicaciones comunes y cotidianas que vienen a la mente de inmediato. Si cavara profundo, probablemente podría duplicar la longitud de esa lista. La aleatoriedad es a la vez un importante objeto de estudio y una herramienta importante para ejercer.
fuente
Si esto le preocupa, quizás el título de la pregunta debería cambiarse a "Impacto de la elección de RNG en los resultados de Monte Carlo" o algo así. En este caso, ya considerado en la validación cruzada SE , aquí hay algunas instrucciones
fuente