En las pruebas de hipótesis, una pregunta común es ¿cuál es la varianza de la población? Mi pregunta es ¿cómo podemos conocer la varianza de la población? Si supiéramos toda la distribución, también podríamos saber la media de toda la población. Entonces, ¿cuál es el punto de prueba de hipótesis?
hypothesis-testing
variance
t-test
z-test
Biológico
fuente
fuente
Respuestas:
No estoy seguro de que este problema surja "a menudo" fuera de las Estadísticas 101 (introducción a las estadísticas). No estoy seguro de haberlo visto alguna vez. Por otro lado, presentamos el material de esa manera cuando enseñamos cursos introductorios, porque proporciona una progresión lógica: comienzas con una situación simple en la que solo hay un grupo y conoces la variación, luego avanzas a donde no Conozca la varianza, luego avance a donde hay dos grupos (pero con la misma varianza), etc.
Para abordar un punto ligeramente diferente, se pregunta por qué nos molestaríamos con la prueba de hipótesis si supiéramos la varianza, ya que también debemos conocer la media. La última parte es razonable, pero la primera parte es un malentendido: la media que sabríamos sería la media bajo la hipótesis nula. Eso es lo que estamos probando. Considere el ejemplo de @ StephanKolassa de puntajes de IQ. Sabemos que la media es 100 y la desviación estándar es 15; lo que estamos probando es si nuestro grupo (por ejemplo, pelirrojos zurdos, o tal vez estudiantes de estadística introductorios) difiere de eso.
fuente
A menudo no conocemos la varianza de la población como tal, pero tenemos una estimación muy confiable de una muestra diferente. Por ejemplo, aquí hay un ejemplo para evaluar si el peso promedio de los pingüinos se ha reducido, donde usamos la media de una muestra pequeña, pero la varianza de una muestra independiente más grande. Por supuesto, esto presupone que la varianza es la misma en ambas poblaciones.
Un ejemplo diferente podría ser las escalas de coeficiente intelectual clásico. Estos están normalizados para tener una media de 100 y una desviación estándar de 15, utilizando muestras realmente grandes. Entonces podríamos tomar una muestra específica (por ejemplo, 50 pelirrojos zurdos) y preguntar si su coeficiente intelectual promedio es significativamente mayor que 100, utilizando 15 ^ 2 como una variación "conocida". Por supuesto, una vez más, esto plantea la pregunta de si la varianza es realmente igual entre las dos muestras; después de todo, ya estamos probando si las medias son diferentes, entonces, ¿por qué las varianzas deberían ser iguales?
En pocas palabras: sus inquietudes son válidas y, por lo general, las pruebas con momentos conocidos solo tienen fines didácticos. En los cursos de estadística, generalmente se siguen inmediatamente con pruebas que utilizan momentos estimados .
fuente
La única forma de conocer la varianza de la población es medir a toda la población.
Sin embargo, medir una población completa a menudo no es factible; requiere recursos que incluyen dinero, herramientas, personal y acceso. Por esta razón, tomamos muestras de poblaciones; eso es medir un subconjunto de la población. El proceso de muestreo debe diseñarse cuidadosamente y con el objetivo de crear una población de muestra que sea representativa de la población; dando dos consideraciones clave: tamaño de la muestra y técnica de muestreo.
Ejemplo de juguete: desea estimar la varianza en peso para la población adulta de Suecia. Hay unos 9,5 millones de suecos, por lo que no es probable que puedas salir y medirlos a todos. Por lo tanto, debe medir una población de muestra a partir de la cual puede estimar la verdadera varianza dentro de la población.
Te diriges a probar la población sueca. Para hacer esto, te paras en el centro de Estocolmo, y te encuentras justo afuera de la popular cadena de hamburguesas ficticias sueca Burger Kungen . De hecho, está lloviendo y hace frío (debe ser verano), así que te paras dentro del restaurante. Aquí pesas cuatro personas.
Lo más probable es que su muestra no refleje muy bien la población de Suecia. Lo que tienes es una muestra de personas en Estocolmo, que están en un restaurante de hamburguesas. Esta es una técnica de muestreo deficiente porque es probable que sesgue el resultado al no dar una representación justa de la población que está tratando de estimar. Además, tiene una muestra pequeña, por lo que tiene un alto riesgo de elegir a cuatro personas que se encuentran en los extremos de la población; ya sea muy ligero o muy pesado. Si tomó una muestra de 1000 personas, es menos probable que cause un sesgo de muestreo; es mucho menos probable elegir 1000 personas que son inusuales que elegir cuatro que son inusuales. Un tamaño de muestra más grande al menos le daría una estimación más precisa de la media y la varianza en el peso entre los clientes de Burger Kungen.
El histograma ilustra el efecto de la técnica de muestreo, la distribución de grises podría representar a la población de Suecia que no come en Burger Kungen (promedio de 85 kg), mientras que el rojo podría representar la población de los clientes de Burger Kungen (promedio de 100 kg) , y los guiones azules podrían ser las cuatro personas que muestreas. La técnica de muestreo correcta necesitaría pesar la población de manera justa, y en este caso ~ 75% de la población, por lo tanto, 75% de las muestras que se miden, no deberían ser clientes de Burger Kungen.
Este es un problema importante con muchas encuestas. Por ejemplo, las personas que probablemente respondan a encuestas de satisfacción del cliente, o encuestas de opinión en las elecciones, tienden a estar representadas desproporcionadamente por aquellos con opiniones extremas; las personas con opiniones menos fuertes tienden a ser más reservadas para expresarlas.
El punto de prueba de hipótesis es ( no siempre ), por ejemplo, probar si dos poblaciones difieren entre sí. Por ejemplo, ¿los clientes de Burger Kungen pesan más que los suecos que no comen en Burger Kungen? La capacidad de probar esto con precisión depende de una técnica de muestreo adecuada y un tamaño de muestra suficiente.
El código R para probar hace que todo esto suceda:
Resultados:
fuente
A veces, la varianza de la población se establece a priori . Por ejemplo, los puntajes SAT se escalan para que la desviación estándar sea 110 y las pruebas de coeficiente intelectual se escalen para tener una desviación estándar de 15 .
fuente
El único ejemplo realista que se me ocurre cuando se desconoce la media pero se conoce la varianza es cuando hay un muestreo aleatorio de puntos en una hiperesfera (en cualquier dimensión) con un radio fijo y un centro desconocido. Este problema tiene una media desconocida (centro de la esfera) pero una varianza fija (radio cuadrado de la esfera). No conozco ningún otro ejemplo realista en el que haya una media desconocida pero una varianza conocida. (Y para ser claros: el simple hecho de tener una estimación de varianza externa de otros datos no es un ejemplo de una varianza conocida. Además, si tiene esta estimación de varianza de otros datos, ¿por qué no tiene también una estimación media correspondiente de esa misma ¿datos?)
En mi opinión, los cursos introductorios de estadística que enseñan pruebas con una media desconocida y una varianza conocida son un anacronismo, y están mal orientados como una herramienta de enseñanza moderna. Pedagógicamente, es mucho mejor comenzar directamente con la prueba T para el caso de una media y varianza desconocidas, y tratar la prueba z como una aproximación asintótica a esta que se cumple cuando los grados de libertad son grandes (o no incluso molestarse en enseñar la prueba z). La cantidad de situaciones en las que habría una variación conocida pero una media desconocida es muy pequeña, y generalmente es engañoso para los estudiantes presentar este caso (increíblemente raro).
fuente
A veces, en problemas aplicados, hay razones presentadas por la física, la economía, etc. que nos informan sobre la variación y no tienen incertidumbre. Otras veces, la población puede ser limitada y podemos saber algunas cosas sobre todos, pero necesitamos muestrear y realizar estadísticas para aprender el resto.
En general, su inquietud es bastante válida.
fuente