Supongamos que me dan dos grupos de medidas de masa (en mg), que se denominan y1 e y2. Quiero hacer una prueba para determinar si las dos muestras provienen de poblaciones con diferentes medios. Algo como esto, por ejemplo (en R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Obtengo un valor p de 0.3234, y en un nivel de significancia de 0.05 no rechazo la hipótesis nula de que los dos grupos provienen de poblaciones con la misma media. Ahora me dan incertidumbres para cada medición:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
donde u1 [1] es la incertidumbre estándar combinada en la medición y1 [1] (y así sucesivamente). ¿Cómo incorporo estas incertidumbres en la prueba estadística?
Respuestas:
Parece que desea realizar un análisis ponderado. Consulte el "Ejemplo de estadísticas ponderadas" en la sección "Conceptos" de la documentación de SAS.
fuente
¿Por qué no simularlo? Es decir, agregue su incertidumbre como realizaciones de ruido a cada observación. Luego repita la prueba de hipótesis. Haga esto unas 1000 veces y vea cuántas veces se rechazó el valor nulo. Deberá elegir una distribución para el ruido. Lo normal parece una opción, pero podría producir observaciones negativas, lo que no es realista.
fuente
Podría convertirlo en un problema de regresión y utilizar las incertidumbres como ponderaciones. Es decir, predecir el grupo (1 o 2?) A partir de la medición en una regresión.
Pero
Las incertidumbres son aproximadamente constantes, por lo que parece probable que no cambie mucho al usarlas también.
Tiene un valor atípico leve en 10.5, lo que complica las cosas al reducir la diferencia entre medias. Pero si puede creer las incertidumbres, ese valor no es más sospechoso que cualquier otro.
La prueba t no sabe que su hipótesis alternativa es que se toman dos muestras de diferentes poblaciones. Todo lo que sabe es comparar medios, bajo ciertos supuestos. Las pruebas basadas en el rango son una alternativa, pero si está interesado en estos datos como medidas, no parecen preferibles para sus objetivos.
fuente
En los mínimos cuadrados ordinarios (p. Ej., Lm (y ~ x)) está permitiendo la variabilidad (incertidumbre) alrededor de los valores de y, dado un valor de x. Si voltea la regresión (lm (x ~)) minimiza los errores alrededor de x. En ambos casos, se supone que los errores son bastante homogéneos.
Si conoce la cantidad de varianza alrededor de cada observación de su variable de respuesta, y esa varianza no es constante cuando está ordenada por x, entonces querrá usar mínimos cuadrados ponderados. Puede ponderar los valores de y por factores de 1 / (varianza).
En el caso de que le preocupe que tanto x como y tengan incertidumbre, y que la incertidumbre no sea la misma entre los dos, entonces no desea simplemente minimizar los residuos (incertidumbre de dirección) en perpendicular a uno de sus ejes. Idealmente, minimizaría la incertidumbre que es perpendicular a la línea de tendencia ajustada. Para hacer esto, podría usar la regresión PCA (también conocida como regresión ortogonal, o mínimos cuadrados totales. Hay paquetes R para la regresión PCA , y previamente se han publicado publicaciones sobre este tema en este sitio web , que luego también se han discutido en otro lugar Además, creo que (es decir, puedo estar equivocado ...) todavía puede hacer una versión ponderada de esta regresión, haciendo uso de su conocimiento de las variaciones.
fuente