Dados números, donde el valor de cada número es diferente, denotado como , y la probabilidad de seleccionar cada número es , respectivamente.
Ahora, si selecciono números en función de las probabilidades dadas, donde , ¿cuál es la expectativa de la suma de esos números? Tenga en cuenta que la selección no tiene reemplazo, por lo que los números no pueden involucrar números duplicados. Entiendo que si la selección es con reemplazo, la expectativa de la suma de los números es igual a , donde
Además, ¿qué pasa con la expectativa de la varianza de esos números ?
Soy un estudiante de doctorado de CS que está trabajando en un problema de big data, y no tengo antecedentes en estadísticas. Espero que alguien pueda darme una fórmula como respuesta. Sin embargo, si la respuesta es demasiado complicada para ser descrita por una fórmula o se debe involucrar un cálculo intensivo, una respuesta aproximada es totalmente aceptable.
Puede suponer que aquí es bastante grande, y la probabilidad puede variar mucho. En la práctica, los valores de esas probabilidades provienen de un registro de consultas, que registra una serie de consultas de agregación. El punto es que la frecuencia de cada número involucrado en las consultas puede ser bastante sesgada, es decir, algunas rara vez se consultan, mientras que otras se consultan con mucha frecuencia. Puede suponer que la distribución de probabilidad es distribución normal, distribución zipf o cualquier otra alternativa razonable.
La distribución del valor es solo un subconjunto contiguo de cualquier distribución posible. En otras palabras, si tiene un histograma que representa una determinada distribución, todos los números involucrados en este problema son todos los números dentro de un solo depósito.
En términos del valor de K, puede suponer que siempre es menor que el número de elementos consultados con frecuencia.
fuente
Respuestas:
Probablemente sea una respuesta que, aunque precisa, probablemente no sea tan útil. Horvitz y Thompson (1952) proporcionan resultados que cubren esta situación en general. Estos resultados se dan en términos de las expresiones combinatorias que uno podría esperar.
Para mantener la coherencia con su notación, y también para corresponder mejor con la notación más utilizada, permítanme redefinir algunas cantidades. Sea el número de elementos en la población sea el tamaño de la muestra.nN n
Sea , , representar los elementos de la población, con valores dados , y probabilidades de selección . Para una muestra dada de tamaño , deje que los valores observados en la muestra sean . i = 1 , . . . , N N V i i = 1 , . . . , N p 1 , . . . , P N n v 1 , . . . , v nui i=1,...,N N Vi i=1,...,N p1,...,pN n v1,...,vn
Lo que se desea es la media y la varianza de la muestra total
Como se menciona en los comentarios, la probabilidad de seleccionar una muestra particular dibujada en ese orden es donde la probabilidad inicial de dibujar viene dada por , la segunda probabilidad de dibujar está condicionada a haber eliminado de la población, y así sucesivamente. Por lo tanto, cada unidad posterior extraída da como resultado una nueva distribución de probabilidad para la siguiente unidad (por lo tanto, la elección de diferentes letras indiciales, porque cada una representa una distribución diferente).Pr ( s ) = p i 1 p j 2 ⋯ p t n , p i 1 u i p i p j 2 u j u is={ui,uj,...,ut}
Hay muestras de tamaño que contienen de toda la población. Tenga en cuenta que esto tiene en cuenta elpermutaciones de la muestra. nuin!
Supongamos que denota una muestra específica de tamaño que incluye . Entonces, la probabilidad de seleccionar el elemento viene dada por donde la suma se encuentra sobre el conjunto de tamaño de todas las muestras posibles de tamaño que contienen . (Cambié un poco la notación del papel ya que me pareció confuso). n u i u i P ( u i ) = ∑ Pr ( s ( i ) n ) , S ( i ) s ( i ) n n u is(i)n n ui ui
Del mismo modo, defina como el número de muestras que contienen y . Luego podemos definir la probabilidad de que una muestra contenga ambos como donde la suma es superior al conjunto de tamaño de todas las muestras posibles de tamaño que contienen y .
El valor esperado se deriva entonces como
Aunque la varianza no se deriva de forma explícita en el documento, se podría obtener a partir expectativas de la ésimo momento y los productos cruzados E ( n ∑ i = 1 v q i ) = N ∑ i = 1 P ( u i ) V q i E ( n ∑ i ≠ j v i v j ) = ∑ i ≠ j P ( u i u j ) V i V j .q
En otras palabras, parece que uno tendría que pasar por todos los subconjuntos posibles para hacer estos cálculos. Sin embargo, tal vez esto podría hacerse para valores más pequeños de .n
Horvitz, DG y Thompson, DJ (1952) Una generalización del muestreo sin reemplazo de un universo finito. Revista de la Asociación Americana de Estadística 47 (260): 663-685.
fuente