¿Son sinónimos "muestra aleatoria" y "variable aleatoria iid"?

18

He tenido dificultades para comprender el significado de "muestra aleatoria", así como "variable aleatoria iid". Traté de encontrar el significado de varias fuentes, pero me confundí cada vez más. Estoy publicando aquí lo que probé y llegué a saber:

Probabilidad y estadística de Degroot dice:

Muestras aleatorias / iid / Tamaño de muestra: considere una distribución de probabilidad dada en la línea real que puede representarse con un pf o un pdf . Se dice que variables aleatorias forman una muestra aleatoria a partir de esta distribución si estas variables aleatorias son independientes y el pf marginal o pdf de cada una de ellas es . Dichas variables aleatorias también se dice que son independientes e idénticamente distribuidas, abreviadas en iid Nos referimos al número n de variables aleatorias como el tamaño de la muestra.n X 1 , . . . , X n fFnorteX1,...,XnorteF

Pero uno de los otros libros de estadísticas que tengo dice:

En un muestreo aleatorio, garantizamos que cada unidad individual de la población tenga la misma probabilidad (probabilidad) de ser seleccionada.

Entonces, tengo la sensación de que los iids son elementos que construyen una muestra aleatoria, y el procedimiento para obtener una muestra aleatoria es el muestreo aleatorio. Estoy en lo cierto?

PD: Estoy muy confundido sobre este tema, por lo que agradeceré una respuesta elaborada. Gracias.

Silencio
fuente
66
La parte de independencia es muy importante porque podemos tener una muestra en la que todas las variables están distribuidas de manera idéntica (tienen la misma distribución marginal) pero no son independientes. Dicha muestra todavía puede considerarse como una muestra aleatoria, pero no del experimento del que cree que es una muestra aleatoria. Ver esta pregunta .
Dilip Sarwate
La pregunta no parece tener sentido estadístico. El iid y la muestra aleatoria son conceptos claramente distintos establecidos por alfabetizados.
Subhash C. Davar
2
@ subhashc.davar ¿Son ellos? Según una definición: "Una muestra aleatoria es una secuencia de variables aleatorias independientes, distribuidas idénticamente (IID)". Entonces, ¿parece que iid y muestra aleatoria son lo mismo? El párrafo citado en Probabilidad y estadística de Degroot básicamente dice lo mismo. Me resulta confuso porque una "muestra" es a veces un individuo o un conjunto de individuos, y a veces una secuencia de variables aleatorias.
Gary Chang
@Gary Chang La definición que citó pertenece al pdf. La muestra de variables aleatorias ha sido popular en la disciplina de la psicometría. En general, se utiliza con referencia a la confiabilidad o estimación de validez y para un análisis factorial. La psicometría está interesada en establecer la equivalencia de las pruebas para un dominio. El concepto iid parece originarse en álgebra lineal. Una muestra podría ser de una población dada de individuos y / o de una población de variables (aleatorias) dependiendo del propósito de un estudio. Las estadísticas actuales parecen haberse tomado de la teoría de la medición.
Subhash C. Davar

Respuestas:

9

No dice cuál es el otro libro de estadísticas, pero supongo que es un libro (o sección) sobre muestreo de población finita .

Cuando muestrea variables aleatorias, es decir, cuando considera un conjunto de n variables aleatorias, sabe que si son independientes, f ( x 1 , ... , x n ) = f ( x 1 ) f ( x n ) , e idénticamente distribuido , en particular E ( X i ) = μ y Var ( X i )X1,...,XnortenorteF(X1,...,Xnorte)=F(X1)F(Xnorte)mi(Xyo)=μ para todo i , entonces: ¯ X = i X iVar(Xyo)=σ2yo dondeσ2es el segundo momento central.

X¯=yoXyonorte,mi(X¯)=μ,Var(X¯)=σ2norte
σ2

El muestreo de una población finita es algo diferente. Si la población es de tamaño , en el muestreo sin reemplazo hay ( Nnorte posibles muestrasside tamañonyson equiprobables: p(si)=1(nortenorte)syonorte Por ejemplo, siN=5yn=3, el espacio de muestra es{s1,...,s10} y las muestras possibile son: s 1 ={1,2,3}, es 2 ={1,2,4}, s 3 ={1,2,5}, s 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10} Si cuenta el número de ocurrencias de cada individuo, puede ver que son seis, es decir, cada individuo tiene un cambio igual de ser seleccionado (6/10). Entonces cadasies una muestra aleatoria de acuerdo con la segunda definición. Aproximadamente, no es una muestra aleatoria iid porque los individuos no son variables aleatorias: puede estimarE[X]de maneraconsistentepor una media muestral pero nunca sabrá su valor exacto, peropuedeconocer la media poblacional exacta sin=N(deje repito: más o menos)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
siE[X]n=N1

μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1(1n/N)

Este es un ejemplo rápido de cómo una muestra aleatoria iid (variable aleatoria) y una muestra aleatoria (población finita) pueden diferir. La inferencia estadística se refiere principalmente al muestreo de variables aleatorias, la teoría de muestreo se trata del muestreo de población finita.


1e interpretar un conjunto de bombillas como una muestra (variable aleatoria). Digamos ahora que encuentra una caja de 1000 bombillas y desea conocer su vida útil promedio. Puede seleccionar un pequeño conjunto de bombillas (una muestra de población finita), pero puede seleccionarlas todas. Si selecciona una muestra pequeña, esto no transforma las bombillas en variables aleatorias: usted genera la variable aleatoria, ya que la elección entre "todos" y "un conjunto pequeño" depende de usted. Sin embargo, cuando una población finita es muy grande (digamos la población de su país), cuando elegir "todos" no es viable, la segunda situación se maneja mejor como la primera.

Sergio
fuente
1
¿Qué quiere decir "los individuos no son variables aleatorias"? Whuber tiene algunas respuestas realmente buenas aquí y aquí que utilizan el muestreo de población finita para explicar el concepto de una variable aleatoria.
jsk
norte=norte
norte=norte
¿Defensivo? No entendiste esos enlaces. Como dice Whubner, a) el modelo de boletos en una caja es solo un ejemplo de juguete para evitar quejas de "esto es un nivel de posgrado"; b) evita llamar a "población" los boletos en una caja, y explica por qué. Entonces no hay contradicción . Si uno puede entender lo que ha dicho Whubner. Por cierto, no soy una variable aleatoria, ¿verdad?
Sergio
En mi humilde opinión, por supuesto.
Sergio
2

No lo aburriré con definiciones y fórmulas probabilísticas, que puede recoger fácilmente en cualquier libro de texto (o aquí es un buen lugar para comenzar)

yo.yo.re.how

yo.yo.re

yo.yo.re.ejemplo: ahora haz lo mismo, pero sin devolver la carta al mazo (espero que llenes la diferencia por ahora). Nuevamente, tendrá 5 valores realizados (tarjetas) después de hacer esto. Pero claramente son dependientes (el hecho de que saques el as de espadas en el primer sorteo significa que no tendrás oportunidad de entrar en el segundo sorteo).

Alex Kreimer
fuente
1

Una variable aleatoria, generalmente escrita X, es una variable cuyos valores posibles son resultados numéricos de un fenómeno aleatorio. El fenómeno aleatorio puede producir resultados que tienen valores numéricos capturados por la variable aleatoria, por ejemplo, número de caras en 10 lanzamientos de una moneda o ingresos / alturas, etc. en una muestra, pero eso no es necesario.
Más generalmente, una variable aleatoria es una función que asigna resultados aleatorios a valores numéricos. Por ejemplo, cada día puede ser soleado, nublado o lluvioso. Podemos definir una variable aleatoria que tome el valor 1 si llueve, 2 si está nublado y 3 si está soleado. El dominio de una variable aleatoria es el conjunto de resultados posibles.
Para establecer una variable aleatoria debe haber un proceso o experimento asociado con posibles resultados que no puedan predecirse con certeza.

Llegando ahora al tema de la independencia. Dos variables aleatorias son independientes si el valor de una de ellas no afecta el PDF de la otra. No revisamos nuestras predicciones con respecto a las probabilidades de diferentes valores de una variable cuando sabemos algo acerca de la otra variable. Por lo tanto, en el caso de la independencia, los PDF posteriores son idénticos a los PDF anteriores. Por ejemplo, cuando lanzamos una moneda imparcial repetidamente, la información que tenemos sobre el resultado de los 5 lanzamientos anteriores no afecta nuestra predicción sobre el lanzamiento actual, siempre será 0.5. Sin embargo, si se desconoce el sesgo de la moneda y se modela como una Variable aleatoria, entonces el resultado de los 5 lanzamientos anteriores afecta nuestras predicciones con respecto al lanzamiento actual porque nos permite hacer inferencias con respecto al sesgo desconocido de la moneda.

Llegando ahora al tema del muestreo. El propósito de Sampling es informarnos sobre las propiedades de una distribución subyacente que no se conoce y se debe inferir. Recuerde que una distribución se refiere a la probabilidad relativa de posibles resultados en el espacio muestral (que también puede ser un universo condicional). Entonces, cuando tomamos muestras, elegimos un número finito de resultados del espacio muestra y reproducimos el espacio muestral en una escala más pequeña y manejable. La probabilidad igual se refiere al proceso del Muestreo, no a la probabilidad de los Resultados en la Muestra. El muestreo de igual probabilidad implica que la Muestra reflejará las proporciones de los resultados en el Espacio muestral original. Por ejemplo, si preguntamos 10, 000 personas si alguna vez fueron arrestadas, es probable que la muestra que terminemos no sea representativa de la población, el espacio muestral, ya que las personas que habrían sido arrestadas podrían negarse a responder, por lo tanto, la proporción de posibles resultados (arrestado - no arrestado) diferirá entre nuestra muestra y la población por razones sistemáticas. O si elegimos un vecindario en particular para realizar una encuesta, los resultados no serán representativos de la ciudad en su conjunto. Por lo tanto, el muestreo de probabilidad igual implica que no hay razones sistemáticas, aparte de la aleatoriedad pura, que nos hacen creer que las proporciones de los posibles resultados en nuestra muestra son diferentes de las proporciones de los resultados en el Espacio de Población / Muestra. por lo tanto, la proporción de posibles resultados (arrestados - no arrestados) diferirá entre nuestra muestra y la población por razones sistemáticas. O si elegimos un vecindario en particular para realizar una encuesta, los resultados no serán representativos de la ciudad en su conjunto. Por lo tanto, el muestreo de probabilidad igual implica que no hay razones sistemáticas, aparte de la aleatoriedad pura, que nos hacen creer que las proporciones de los posibles resultados en nuestra muestra son diferentes de las proporciones de los resultados en el Espacio de Población / Muestra. por lo tanto, la proporción de posibles resultados (arrestados - no arrestados) diferirá entre nuestra muestra y la población por razones sistemáticas. O si elegimos un vecindario en particular para realizar una encuesta, los resultados no serán representativos de la ciudad en su conjunto. Por lo tanto, el muestreo de probabilidad igual implica que no hay razones sistemáticas, aparte de la aleatoriedad pura, que nos hacen creer que las proporciones de los posibles resultados en nuestra muestra son diferentes de las proporciones de los resultados en el Espacio de Población / Muestra.

rf7
fuente
-2

Una muestra aleatoria es la realización de una secuencia de variables aleatorias. Esas variables aleatorias pueden ser iid o no.

Mohsen
fuente