Prueba de muestreo IID

16

¿Cómo probaría o comprobaría que el muestreo es IID (Independiente e idénticamente distribuido)? Tenga en cuenta que no me refiero a gaussiano e idénticamente distribuido, solo IID.

Y la idea que me viene a la mente es dividir repetidamente la muestra en dos submuestras de igual tamaño, realizar la prueba de Kolmogorov-Smirnov y verificar que la distribución de los valores p sea uniforme.

Cualquier comentario sobre ese enfoque, y cualquier sugerencia es bienvenida.

Aclaración después de comenzar la recompensa: estoy buscando una prueba general que pueda aplicarse a datos que no sean series temporales.

gui11aume
fuente
¿Son datos de series de tiempo?
danas.zuokas
@ gui11aume, ¿has probado la prueba del "globo ocular"? Es decir, graficar los datos y ver si se ve IID.
Macro
No tengo No estoy seguro de lo que quieres decir: ¿trazar los valores en el orden en que vienen (posiblemente al azar)? ¿Y luego comprobar la ausencia de un patrón llamativo?
gui11aume
1
¿Has echado un vistazo a "la prueba de ejecución"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent
1
Lo siento. Tenía en mente la siguiente prueba de ejecución: apprendre-en-ligne.net/random/run.html (pero esto está escrito en francés)
Stéphane Laurent

Respuestas:

14

Lo que concluye si los datos son IID proviene de información externa, no de los datos en sí. Usted, como científico, debe determinar si es razonable asumir el IID de los datos en función de cómo se recopilaron los datos y otra información externa.

Considere algunos ejemplos.

Escenario 1: generamos un conjunto de datos independientemente de una distribución única que resulta ser una mezcla de 2 normales.

Escenario 2: Primero generamos una variable de género a partir de una distribución binomial, luego dentro de hombres y mujeres generamos de manera independiente datos de una distribución normal (pero las normales son diferentes para hombres y mujeres), luego eliminamos o perdemos la información de género.

En el escenario 1, los datos son IID y en el escenario 2 los datos claramente no están distribuidos de manera idéntica (diferentes distribuciones para hombres y mujeres), pero las 2 distribuciones para los 2 escenarios son indistinguibles de los datos, debe saber cómo los datos fue generado para determinar la diferencia.

Escenario 3: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en la ciudad.

Escenario 4: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en el país.

En el escenario 3, los sujetos serían considerados independientes (muestra aleatoria simple de la población de interés), pero en el escenario 4 no serían considerados independientes porque fueron seleccionados de un pequeño subconjunto de la población de interés y la proximidad geográfica probablemente impondría dependencia. Pero los 2 conjuntos de datos son idénticos, es la forma en que pretendemos usar los datos lo que determina si son independientes o dependientes en este caso.

Por lo tanto, no hay forma de probar usando solo los datos para mostrar que los datos son IID, los gráficos y otros diagnósticos pueden mostrar algunos tipos de no IID, pero la falta de estos no garantiza que los datos sean IID. También puede comparar suposiciones específicas (IID normal es más fácil de refutar que solo IID). Cualquier prueba sigue siendo solo una regla, pero el hecho de no rechazar las pruebas nunca prueba que sea IID.

Las decisiones sobre si está dispuesto a asumir que se cumplen las condiciones de IID deben tomarse en función de la ciencia de cómo se recopilaron los datos, cómo se relacionan con otra información y cómo se utilizarán.

Ediciones:

Aquí hay otro conjunto de ejemplos para no idénticos.

Escenario 5: los datos son residuales de una regresión donde hay heterocedasticidad (las varianzas no son iguales).

Escenario 6: los datos provienen de una mezcla de normales con media 0 pero diferentes variaciones.

En el escenario 5, podemos ver claramente que los residuos no están distribuidos de manera idéntica si graficamos los residuos contra los valores ajustados u otras variables (predictores o predictores potenciales), pero los residuales mismos (sin la información externa) serían indistinguibles del escenario 6.

Greg Snow
fuente
La primera parte de esta respuesta, en particular, me parece un poco confusa (o confusa). Ser iid es una propiedad matemática bien definida de un conjunto finito de variables aleatorias . Sus escenarios 1 y 2 son idénticos si las variables aleatorias en el segundo caso se obtienen "después de perder la información de género". Son iid en ambos casos!
cardenal
Greg: Ahora no estoy completamente de acuerdo con tu afirmación. Es posible que sepa que los datos provienen de una secuencia de variables aleatorias distribuidas de forma idéntica. No sabes exactamente qué modelo lo generó. Puede ser que se generen independientemente o provengan alternativamente de una serie temporal estacionaria. Para decidir cuál es el caso, suponga que sabe que la distribución idéntica es normal. Entonces ambas posibilidades caen dentro de la categoría de una secuencia estacionaria y será si y solo todas las autocorrelaciones de retardo distinto de cero son 0. Es perfectamente razonable probar si la correla
Michael R. Chernick
2
@cardinal, ¿está de acuerdo en que los datos en el escenario 2 no se distribuyen de manera idéntica antes de perder la información de género? Entonces tendríamos un caso en el que no son idénticos, pero la única forma de notar la diferencia es usar información fuera de la variable que se está mirando (género en este caso). Sí, ser IID es una propiedad matemática bien definida, pero también lo es ser un número entero, ¿puede probar si el punto de datos 3. es un número entero almacenado como un número de coma flotante o un valor continuo que se ha redondeado sin información externa sobre dónde vino? desde.
Greg Snow
2
ZXiXj,ijXi|ZXj|ZZZ
Pero todo lo que dices arriba usa información sobre cómo se recopilaron / generaron los datos, no solo los datos en sí. E incluso si tenemos datos que respalden que no hay autocorrelación de series temporales que no nos dice nada sobre la correlación espacial u otros tipos de no independencia. ¿Realmente podemos evaluar cada tipo posible de dependencia y obtener resultados significativos? ¿o deberíamos usar información sobre cómo se recopilaron los datos para guiar qué pruebas tienen mayor probabilidad de ser significativas?
Greg Snow
5

Si los datos tienen un orden de índice, puede usar pruebas de ruido blanco para series de tiempo. Esencialmente, eso significa probar que las autocorrelaciones en todos los rezagos distintos de cero son 0. Esto maneja la parte de independencia. Creo que su enfoque está tratando principalmente de abordar la parte idénticamente distribuida de la suposición. Creo que hay algunos problemas con su enfoque. Creo que necesita muchas divisiones para obtener suficientes valores de p para probar la uniformidad. Entonces, cada prueba de KS pierde potencia. Si está utilizando divisiones que se superponen en partes del conjunto de datos, las pruebas se correlacionarán. Con un pequeño número de divisiones, la prueba de uniformidad carece de poder. Pero con muchas divisiones, la prueba de uniformidad puede ser poderosa, pero las pruebas KS no lo serían. También parece que este enfoque no ayudará a detectar la dependencia entre variables.

@ gu11aume No estoy seguro de lo que está pidiendo con una prueba general para series que no son de tiempo. Los datos espaciales proporcionan una forma de datos de series no temporales. Allí se podría mirar la función llamada variograma. Para las secuencias unidimensionales, no veo mucha diferencia entre las secuencias ordenadas por tiempo frente a cualquier otra forma de ordenar los datos. Aún se puede definir y probar una función de autocorrelación. Cuando dice que desea probar la independencia en el muestreo, creo que tiene un orden en el que se recolectan las muestras. Así que creo que todos los casos unidimensionales funcionan de la misma manera.

Michael R. Chernick
fuente
2
(+1) ya que esto es lo que estaba pensando, pero Re: "Si los datos tienen un orden de índice, puede usar pruebas de ruido blanco para series de tiempo. Esencialmente eso significa probar que las autocorrelaciones en todos los rezagos distintos de cero son 0". - esta lógica solo se aplica cuando se trata de una serie temporal estacionaria, ¿verdad? De lo contrario, podría obtener resultados engañosos sobre las correlaciones rezagadas. Por ejemplo, ¿qué sucede si solo la parte "posterior" de la serie temporal se autocorrelacionó?
Macro
1
@Macro Pensé que eso era lo que tenía en mente en función de su pregunta al OP. Pero no pensé que fuera necesario esperar su respuesta para señalar esto. Se aplica cuando buscas independencia. Pero entiendo tu punto. En la práctica, solo verifica los primeros k rezagos. Si la serie fuera estacionaria, las correlaciones disminuirían con k pero no así para las series no estacionarias. Entonces, al menos en teoría, se perdería la correlación en grandes rezagos para una serie no estacionaria.
Michael R. Chernick
2
bueno, para una serie temporal no estacionaria, puede que ni siquiera tenga sentido mirar la autocorrelación en función del retraso. SiCor(yt,ys)=F(s,t) y F(s,t) no es una función de solo El |s-tEl |entonces todo tipo de cosas raras pueden pasar fingiendo que es así. Realmente solo estoy preguntando si tiene alguna idea para el caso en el que sabe que la serie temporal no es estacionaria
Macro
Gracias por tu respuesta Michael! Tiene razón: en caso de que los datos sean una serie temporal, el mejor enfoque es verificar la autocorrelación. En cuanto a su crítica del enfoque de KS dividido, también tiene un punto. Por lo tanto, todavía nos queda sin prueba en el caso general (no series de tiempo) que parece.
gui11aume
2
La primera autocorrelación distinta de cero está en el retraso 60 y solo en otros múltiplos de 60. Si la serie de tiempo tiene una longitud 55, ni siquiera podemos observar dos puntos de retraso de 60. Sowe no puede verificar si la correlación del retraso 60 es 0 o no. Si la longitud de la serie es 65, podemos estimar la correlación de retraso 60 pero en base a solo 5 pares de retraso 60. Entonces, la varianza de la estimación es grande y no tendremos poder para detectar esta correlación no nula.
Michael R. Chernick