¿Cómo probaría o comprobaría que el muestreo es IID (Independiente e idénticamente distribuido)? Tenga en cuenta que no me refiero a gaussiano e idénticamente distribuido, solo IID.
Y la idea que me viene a la mente es dividir repetidamente la muestra en dos submuestras de igual tamaño, realizar la prueba de Kolmogorov-Smirnov y verificar que la distribución de los valores p sea uniforme.
Cualquier comentario sobre ese enfoque, y cualquier sugerencia es bienvenida.
Aclaración después de comenzar la recompensa: estoy buscando una prueba general que pueda aplicarse a datos que no sean series temporales.
Respuestas:
Lo que concluye si los datos son IID proviene de información externa, no de los datos en sí. Usted, como científico, debe determinar si es razonable asumir el IID de los datos en función de cómo se recopilaron los datos y otra información externa.
Considere algunos ejemplos.
Escenario 1: generamos un conjunto de datos independientemente de una distribución única que resulta ser una mezcla de 2 normales.
Escenario 2: Primero generamos una variable de género a partir de una distribución binomial, luego dentro de hombres y mujeres generamos de manera independiente datos de una distribución normal (pero las normales son diferentes para hombres y mujeres), luego eliminamos o perdemos la información de género.
En el escenario 1, los datos son IID y en el escenario 2 los datos claramente no están distribuidos de manera idéntica (diferentes distribuciones para hombres y mujeres), pero las 2 distribuciones para los 2 escenarios son indistinguibles de los datos, debe saber cómo los datos fue generado para determinar la diferencia.
Escenario 3: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en la ciudad.
Escenario 4: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en el país.
En el escenario 3, los sujetos serían considerados independientes (muestra aleatoria simple de la población de interés), pero en el escenario 4 no serían considerados independientes porque fueron seleccionados de un pequeño subconjunto de la población de interés y la proximidad geográfica probablemente impondría dependencia. Pero los 2 conjuntos de datos son idénticos, es la forma en que pretendemos usar los datos lo que determina si son independientes o dependientes en este caso.
Por lo tanto, no hay forma de probar usando solo los datos para mostrar que los datos son IID, los gráficos y otros diagnósticos pueden mostrar algunos tipos de no IID, pero la falta de estos no garantiza que los datos sean IID. También puede comparar suposiciones específicas (IID normal es más fácil de refutar que solo IID). Cualquier prueba sigue siendo solo una regla, pero el hecho de no rechazar las pruebas nunca prueba que sea IID.
Las decisiones sobre si está dispuesto a asumir que se cumplen las condiciones de IID deben tomarse en función de la ciencia de cómo se recopilaron los datos, cómo se relacionan con otra información y cómo se utilizarán.
Ediciones:
Aquí hay otro conjunto de ejemplos para no idénticos.
Escenario 5: los datos son residuales de una regresión donde hay heterocedasticidad (las varianzas no son iguales).
Escenario 6: los datos provienen de una mezcla de normales con media 0 pero diferentes variaciones.
En el escenario 5, podemos ver claramente que los residuos no están distribuidos de manera idéntica si graficamos los residuos contra los valores ajustados u otras variables (predictores o predictores potenciales), pero los residuales mismos (sin la información externa) serían indistinguibles del escenario 6.
fuente
Si los datos tienen un orden de índice, puede usar pruebas de ruido blanco para series de tiempo. Esencialmente, eso significa probar que las autocorrelaciones en todos los rezagos distintos de cero son 0. Esto maneja la parte de independencia. Creo que su enfoque está tratando principalmente de abordar la parte idénticamente distribuida de la suposición. Creo que hay algunos problemas con su enfoque. Creo que necesita muchas divisiones para obtener suficientes valores de p para probar la uniformidad. Entonces, cada prueba de KS pierde potencia. Si está utilizando divisiones que se superponen en partes del conjunto de datos, las pruebas se correlacionarán. Con un pequeño número de divisiones, la prueba de uniformidad carece de poder. Pero con muchas divisiones, la prueba de uniformidad puede ser poderosa, pero las pruebas KS no lo serían. También parece que este enfoque no ayudará a detectar la dependencia entre variables.
@ gu11aume No estoy seguro de lo que está pidiendo con una prueba general para series que no son de tiempo. Los datos espaciales proporcionan una forma de datos de series no temporales. Allí se podría mirar la función llamada variograma. Para las secuencias unidimensionales, no veo mucha diferencia entre las secuencias ordenadas por tiempo frente a cualquier otra forma de ordenar los datos. Aún se puede definir y probar una función de autocorrelación. Cuando dice que desea probar la independencia en el muestreo, creo que tiene un orden en el que se recolectan las muestras. Así que creo que todos los casos unidimensionales funcionan de la misma manera.
fuente