Supongamos que queremos probar la hipótesis de que la proporción de marcianos de ojos azules ha disminuido a lo largo del siglo XX. Desafortunadamente, la población marciana fluctúa mucho, por lo que cada década hay una gran diferencia en la población total [actualización: considere que la población marciana es constante en mil millones de marcianos. Los datos a continuación son muestras aleatorias en cada año]. El conjunto de datos (compuesto mientras escribo esto) podría verse así:
Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400 | 250 | 0.625
1920 | 2000 | 1000 | 0.500
1930 | 70 | 40 | 0.571
1940 | 30 | 14 | 0.467
1950 | 10 | 4 | 0.400
1960 | 140 | 52 | 0.371
1970 | 50 000 | 15 400 | 0.308
1980 | 70 000 | 22 000 | 0.314
1990 | 1500 | 80 | 0.053
2000 | 5000 | 800 | 0.160
Analizar años cuando la población marciana tiene menos de 100 años claramente no es tan significativo estadísticamente como cuando la población supera los 10 000, ya que en este último caso tenemos un conjunto de datos más amplio. Aún así, nos gustaría utilizar todos los datos disponibles para verificar nuestra hipótesis con un nivel de significación convencional del 95%.
¿Como procedemos? ¿Consideramos la importancia de cada año de acuerdo con el tamaño de la muestra en ese momento?
Más edición para adaptarse a las preocupaciones: la preocupación aquí es cómo ponderamos adecuadamente cada conjunto de datos teniendo en cuenta que son de tamaños tan diferentes. No hay sesgo de muestra ya que los datos se seleccionan aleatoriamente.
Respuestas:
Esta respuesta describe tres formas de manejar adecuadamente los diferentes tamaños de muestra: un modelo lineal generalizado y dos regresiones de mínimos cuadrados ordinarios ponderados. En este caso, los tres funcionan bien. En general, cuando algunas proporciones están cerca de o , el GLM es mejor.0 0 1
Debido a que los tamaños de muestra son tan pequeños en comparación con las poblaciones (menos del diez por ciento de ellos), en una aproximación excelente, la distribución de resultados de ojos azules y no azules en una muestra de tamaño es Binomial (porque las muestras son aleatorio). El otro parámetro binomial, , es la proporción verdadera (pero desconocida) de sujetos de ojos azules en la población. Por lo tanto, la posibilidad de observar personas de ojos azules esnorte pags k
Cada década sabemos y son los datos, pero no sabemos . Podemos estimarlo suponiendo que las probabilidades de registro correspondientes a varían por año linealmente (al menos para una buena aproximación). Esto significa que asumimos que hay números y tales quenorte k pags pags β0 0 β1
Equivalentemente
Conectar esto a (1) da la posibilidad de observar de durante un año dado comok norte t
Suponiendo que las muestras se obtienen de forma independiente en los años etc. y escribiendo los tamaños de muestra correspondientes y los recuentos de sujetos de ojos azules como y , la probabilidad de los datos es el producto de las probabilidades de los resultados individuales. Este producto es (por definición) la probabilidad de . Podemos estimar estos parámetros como los valores que maximizan la probabilidad; de manera equivalente, maximizan la probabilidad de registrot1,t2, norteyo kyo (β0 0,β1) (β^0 0,β^1)
obtenido de .( 2 )
(Esto se simplifica considerablemente, usando reglas de logaritmos, que es una razón para expresar la relación de proporción de tiempo en términos de probabilidades de registro. Cuando todas las proporciones están entre y , aproximadamente, hay poca diferencia cualitativa entre usar probabilidades o su registro probabilidades: la curva ajustada será lineal o cercana a la lineal, respectivamente.)0.2 0.2 0.8 pags
glm
R
Los datos en esta figura se trazan con discos cuyas áreas son proporcionales a los tamaños de muestra. El ajuste GLM es curvilíneo. En comparación, en gris, se muestra la línea que obtendríamos simplemente volcando los datos que se muestran en la pregunta en un solucionador de mínimos cuadrados ordinarios. Ambos ajustes están influenciados por las mayores proporciones en años anteriores, a pesar de los pequeños tamaños de muestra en ese momento. Sin embargo, el ajuste GLM hace un mejor trabajo al aproximar las proporciones en las muestras más grandes obtenidas en 1970 y 1980. La línea azul punteada se describe a continuación.( Año , proporción )
Al agregar un término cuadrático, podemos probar la bondad del ajuste. Mejora significativamente el ajuste GLM (aunque visualmente la diferencia no es grande), proporcionando evidencia de que este modelo no describe bien la variación en los resultados. Mirar la gráfica indica que el resultado en 1990 fue mucho más bajo de lo que predice el modelo.
Un enfoque alternativo, pero comparable, es estimar individualmente para cada año , tal vez como (aunque son posibles otros estimadores). Una regresión lineal de las probabilidades de registro de estas estimaciones con respecto al año, ponderada por los tamaños de muestra , o regresión de mínimos cuadrados ponderados, arrojapags tyo ki/ni ni
Los errores estándar de estas estimaciones son y , respectivamente, lo que indica que las estimaciones de WLS no son significativamente diferentes del GLM binomial. (Sin embargo, los errores estándar de GLM son considerablemente menores: "sabe" que estos tamaños de muestra son bastante grandes, mientras que la regresión lineal "no sabe" nada sobre los tamaños de muestra: solo tiene una secuencia de diez observaciones separadas). Tenga en cuenta que esto La alternativa podría no estar disponible si o , a menos que se use un estimador diferente de las probabilidades (que no produce valores de o ).15.55 0.00787 ki=ni ki=0 0 1
Finalmente, podríamos simplemente realizar una regresión ponderada de mínimos cuadrados de las estimaciones de probabilidad bruta contra el año, inversamente ponderada por una estimación de la varianza de la muestra. La varianza de una variable binomial , reexpresada como una proporción es . Eso puede estimarse a partir de una muestra comok/n (n,p) X X/n p(1−p)/n
Su resultado aparece en la figura como una línea azul punteada. En este caso, parece haber un compromiso entre los ajustes GLM y OLS.
El siguiente
R
código realizó los análisis y produjo la figura.fuente