Me gustaría entender el uso de la simulación de Monte Carlo en la chisq.test()
función en R.
Tengo una variable cualitativa que tiene 128 niveles / clases. El tamaño de mi muestra es 26 (no pude probar más "individuos"). Obviamente, tendré algunos niveles con 0 "individuos". Pero el hecho es que solo tengo un número muy pequeño de clases representadas de las 127 posibles. Como he escuchado que para aplicar la prueba de ji cuadrado debemos tener al menos 5 individuos en cada nivel (no entiendo completamente la razón de eso), pensé que tenía que usar la simulate.p.value
opción de usar la simulación de Monte Carlo para estimar la distribución y calcular un valor p. Sin la simulación de Monte Carlo, R me da un valor p < 1e-16
. Con la simulación de Monte Carlo, me da un valor p en 4e-5
.
Traté de calcular el valor p con un vector de 26 unos y 101 ceros, y con la simulación Monte-Carlo, obtengo un valor p en 1.
¿Está bien decir que, incluso si el tamaño de mi muestra es pequeño en comparación con el número de clases posibles, la distribución observada es tal que es muy poco probable que todas las clases posibles existan con la misma probabilidad (1/127) en la población real ?
fuente
Respuestas:
Al buscar, parece que el objetivo de la simulación de Montecarlo es producir una distribución de referencia, basada en muestras generadas aleatoriamente que tendrán el mismo tamaño que la muestra analizada, a fin de calcular los valores p cuando no se cumplan las condiciones de prueba.
Esto se explica en Hope A. J Royal Stat Society Serie B (1968) que se puede encontrar en JSTOR .
Aquí hay una cita relevante del artículo de Hope:
fuente