Pruebas estadísticas que incorporan incertidumbre de medición

11

Supongamos que me dan dos grupos de medidas de masa (en mg), que se denominan y1 e y2. Quiero hacer una prueba para determinar si las dos muestras provienen de poblaciones con diferentes medios. Algo como esto, por ejemplo (en R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Obtengo un valor p de 0.3234, y en un nivel de significancia de 0.05 no rechazo la hipótesis nula de que los dos grupos provienen de poblaciones con la misma media. Ahora me dan incertidumbres para cada medición:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

donde u1 [1] es la incertidumbre estándar combinada en la medición y1 [1] (y así sucesivamente). ¿Cómo incorporo estas incertidumbres en la prueba estadística?

Tom
fuente
¿Son estas medidas emparejadas o no? (Supongo que no). Las incertidumbres podrían usarse para obtener pesos que podrían mejorar su inferencia, pero la variación en las incertidumbres es bastante pequeña, por lo que no habrá mucha ganancia, incluso si las incertidumbres son precisas.
Glen_b: reinstala a Monica
Estos son un subconjunto de datos reales no emparejados. El ejemplo estaba destinado principalmente a aclarar la pregunta. Lo que realmente estoy buscando es una guía general sobre cómo incorporar mejor la incertidumbre de medición en una prueba de hipótesis (como en la prueba). Me parece que estamos desperdiciando mucha información valiosa si no usamos las incertidumbres de medición, pero no he podido encontrar una guía clara sobre este tema en la literatura.
Tom
Para aprovecharlos al máximo, debe incorporarlos en un modelo probabilístico para las observaciones; ¿Qué representan realmente las incertidumbres de medición ? (No puede mover esto a mano, así que tenga cuidado.)
Glen_b -Reinstale a Monica

Respuestas:

1

Parece que desea realizar un análisis ponderado. Consulte el "Ejemplo de estadísticas ponderadas" en la sección "Conceptos" de la documentación de SAS.

Almiar
fuente
Entonces, ¿hacemos la prueba t con las medias ponderadas y las desviaciones estándar ponderadas, donde u1 y u1 son los pesos?
Tom
Si. Supondría que la varianza de la i-ésima observación es Var / w_i, donde w_i es el peso de la i-ésima observación y Var> 0.
Rick
1

¿Por qué no simularlo? Es decir, agregue su incertidumbre como realizaciones de ruido a cada observación. Luego repita la prueba de hipótesis. Haga esto unas 1000 veces y vea cuántas veces se rechazó el valor nulo. Deberá elegir una distribución para el ruido. Lo normal parece una opción, pero podría producir observaciones negativas, lo que no es realista.

Soakley
fuente
1

Podría convertirlo en un problema de regresión y utilizar las incertidumbres como ponderaciones. Es decir, predecir el grupo (1 o 2?) A partir de la medición en una regresión.

Pero

Las incertidumbres son aproximadamente constantes, por lo que parece probable que no cambie mucho al usarlas también.

Tiene un valor atípico leve en 10.5, lo que complica las cosas al reducir la diferencia entre medias. Pero si puede creer las incertidumbres, ese valor no es más sospechoso que cualquier otro.

La prueba t no sabe que su hipótesis alternativa es que se toman dos muestras de diferentes poblaciones. Todo lo que sabe es comparar medios, bajo ciertos supuestos. Las pruebas basadas en el rango son una alternativa, pero si está interesado en estos datos como medidas, no parecen preferibles para sus objetivos.

Nick Cox
fuente
Punto a favor. Cambié la pregunta para expresarla en términos de los medios.
Tom
0

En los mínimos cuadrados ordinarios (p. Ej., Lm (y ~ x)) está permitiendo la variabilidad (incertidumbre) alrededor de los valores de y, dado un valor de x. Si voltea la regresión (lm (x ~)) minimiza los errores alrededor de x. En ambos casos, se supone que los errores son bastante homogéneos.

Si conoce la cantidad de varianza alrededor de cada observación de su variable de respuesta, y esa varianza no es constante cuando está ordenada por x, entonces querrá usar mínimos cuadrados ponderados. Puede ponderar los valores de y por factores de 1 / (varianza).

En el caso de que le preocupe que tanto x como y tengan incertidumbre, y que la incertidumbre no sea la misma entre los dos, entonces no desea simplemente minimizar los residuos (incertidumbre de dirección) en perpendicular a uno de sus ejes. Idealmente, minimizaría la incertidumbre que es perpendicular a la línea de tendencia ajustada. Para hacer esto, podría usar la regresión PCA (también conocida como regresión ortogonal, o mínimos cuadrados totales. Hay paquetes R para la regresión PCA , y previamente se han publicado publicaciones sobre este tema en este sitio web , que luego también se han discutido en otro lugar Además, creo que (es decir, puedo estar equivocado ...) todavía puede hacer una versión ponderada de esta regresión, haciendo uso de su conocimiento de las variaciones.

rbatt
fuente