Desviación estándar de varias mediciones con incertidumbres.

13

Tengo dos datos GPS de 2 horas con una frecuencia de muestreo de 1 Hz (7200 mediciones). Los datos se dan en la forma , donde es la incertidumbre de medición.(X,Xσ,Y,Yσ,Z,Zσ)norteσ

Cuando tomo la media de todas las mediciones (por ejemplo, el valor Z promedio de esas dos horas), ¿cuál es su desviación estándar? Por supuesto, puedo calcular la desviación estándar de los valores Z, pero luego descuido el hecho de que existen incertidumbres de medición conocidas ...

Editar: todos los datos provienen de la misma estación y todas las coordenadas se vuelven a medir cada segundo. Debido a las constelaciones de satélites, etc., cada medición tiene una incertidumbre diferente. El propósito de mi análisis es encontrar el desplazamiento debido a un evento externo (es decir, un terremoto). Me gustaría tomar la media de 7200 mediciones (2h) antes del terremoto y otra media de 2h después del terremoto, y luego calcular la diferencia resultante (en altura, por ejemplo). Para especificar la desviación estándar de esta diferencia, necesito saber la desviación estándar de las dos medias.

conductor de tren
fuente
3
Buena pregunta. Aún más importante, los datos estarán fuertemente correlacionados positivamente con el tiempo: eso tendrá un efecto más profundo en la respuesta que la variación en las incertidumbres de medición.
whuber
Tomando en cuenta el comentario de Whuber y la respuesta de Deathkill14, no nos ha brindado suficiente información para responder adecuadamente. Es importante saber cómo los errores en la medición "trabajo". Por ejemplo, si el error al medir X fue positivo a los 3 segundos, es más / menos probable que sea positivo a los 4 segundos, es decir, ¿hay correlación en serie? Segundo, si el error en X fue positivo a los 3 segundos, ¿es más / menos probable que el error en Y y / o Z sea ​​positivo a los 3 segundos? A los 2 segundos? A los 4 segundos? X,Y,ZXXYZ
Bill
Una pregunta relacionada con algo diferente es: ¿qué tan sistemático es el error de medición? Supongamos que dije "Sí, se midió un poco alto en mi jardín delantero. X está casi siempre mide un poco alto en mi jardín delantero." ¿Sería una declaración loca? Funciona el error de medición de tal manera que un lugar en particular puede ser muy a menudo demasiado alta, mientras que otro lugar en particular puede ser muy a menudo demasiado bajo, etc." O es todo lo transitorio de error?XX
Bill
@ Bill: Definitivamente hay una correlación en serie. Los errores de medición son bastante constantes durante las dos horas. Sin embargo, generalmente son más grandes que la desviación estándar calculada a partir de los datos, lo que me llevó a esta pregunta.
traindriver
Su pregunta aún no explica claramente la existencia de correlación serial. Desafortunadamente, tiene tres respuestas cuidadosamente construidas que no le resultan tan útiles como podrían haber sido.
Glen_b -Reinstate a Monica el

Respuestas:

7

Sospecho que las respuestas anteriores a esta pregunta pueden estar un poco fuera de lugar. Me parece que lo que el cartel original es realmente preguntando aquí podría ser reformulada como, "dado una serie de mediciones vectoriales: , con i = 1 , 2 , 3 , . . . , 7200 y covarianza de medición : C i = ( X 2 σ , i 0 0 0 Y

θyo=(XyoYyoZyo)
yo=1,2,3,...,7200¿cómo calcularía correctamente la media ponderada de covarianza para esta serie de mediciones de vectores, y luego, cómo calcularía correctamente su desviación estándar? "La respuesta a esta pregunta puede ser encontrado en muchos libros de texto especializados en estadística para las ciencias físicas. Un ejemplo que me gusta en particular es Frederick James,"Métodos estadísticos en física experimental".
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
, 2ª edición, World Scientific, 2006, Sección 11.5.2, "Combinación de estimaciones independientes", pág. 323-324. Otro texto muy bueno, pero más de nivel introductorio, que describe el cálculo de la media ponderada de la varianza para los valores escalares (en oposición a las cantidades de vectores completos como se presentó anteriormente) es Philip R. Bevington y D. Keith Robinson, "Reducción de datos y análisis de errores for the Physical Sciences " , 3ª edición, McGraw-Hill, 2003, Sección 4.1.x," Ponderación de los datos: incertidumbres no uniformes ". Porque la pregunta del póster resultó tener una diagonalmatriz de covarianza en este caso (es decir, todos los elementos fuera de la diagonal son cero), el problema es realmente separable en tres problemas de medias ponderadas escalares individuales (es decir, X, Y, Z), por lo que el análisis de Bevington y Robinson se aplica igualmente bien aquí también.

En general, cuando respondo a las preguntas de stackexchange.com, normalmente no me parece útil volver a empaquetar derivaciones largas que ya se han presentado en numerosos libros de texto, si realmente desea comprender el material y entender por qué las respuestas se ven en el tal como lo hacen, entonces realmente deberías ir y leer las explicaciones que ya han sido publicadas por los autores de los libros de texto. Con eso en mente, simplemente saltaré directamente para volver a expresar las respuestas que otros ya han proporcionado. De Frederick James, estableciendo , la media ponderada es: θ m e a n = ( N i = 1 CN=7200y la covarianza de la media ponderada es:Cmean=( N i=1C - 1 i )-1 Esta respuesta es completamente general, y será válido sin importar la forma deCi, incluso para matrices de covarianza de medición no diagonales.

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean
stachyra
fuente
Tal vez no estaba claro, así que he agregado más información. No creo que necesite pesar mis medidas.
traindriver
1
Si tu puedes. Considere un caso extremo, solo como un experimento mental: suponga que solo tiene 2 mediciones de GPS, en lugar de 7200. Suponga además que una de las mediciones de GPS tiene una incertidumbre de +/- 5 pies, mientras que la otra tiene una incertidumbre de + / - 5 millas. El número de incertidumbre literalmente le dice cuán potencialmente inexacta es la medición. Eso significa que el valor de +/- 5 millas probablemente esté a varias millas de distancia, al menos. ¿Realmente desea incluir este número en su promedio, de alguna manera significativa? El promedio ponderado le permite descontar valores en los que no se debe confiar tanto.
stachyra
1
Por cierto, mi respuesta tiene otra cosa: en su publicación original, usted menciona que la razón por la que no desea simplemente usar la desviación estándar de la muestra, calculada directamente a partir de los valores Z, es que en ese caso, en sus propias palabras, "descuide el hecho de que existen incertidumbres de medición conocidas". Mi respuesta (bueno, en realidad, la oscura respuesta del libro de texto, que simplemente estoy compartiendo con usted) utiliza las incertidumbres de medición conocidas, exactamente como lo solicitó. Es solo que utiliza la información en más lugares (resultado medio y desviación estándar) de lo que esperaba.
stachyra
Me convenciste.
traindriver
6

Esto debería resolverse fácilmente mediante inferencia bayesiana. Usted conoce las propiedades de medición de los puntos individuales con respecto a su valor verdadero y desea inferir la media de la población y la DE que generaron los valores verdaderos. Este es un modelo jerárquico.

Reformulación del problema (conceptos básicos de Bayes)

Tenga en cuenta que mientras que las estadísticas ortodoxas le dan una media única, en el marco bayesiano obtiene una distribución de valores creíbles de la media. Por ejemplo, las observaciones (1, 2, 3) con DE (2, 2, 3) podrían haber sido generadas por la Estimación de máxima verosimilitud de 2 pero también por una media de 2.1 o 1.8, aunque un poco menos probable (dados los datos) que el MLE Entonces, además de la DE, también inferimos la media .

Otra diferencia conceptual es que debe definir su estado de conocimiento antes de hacer las observaciones. Llamamos a esto priors . Es posible que sepa de antemano que se escaneó un área determinada y en un cierto rango de altura. La ausencia total de conocimiento sería tener grados uniformes (-90, 90) como los anteriores en X e Y y quizás metros uniformes (0, 10000) de altura (sobre el océano, debajo del punto más alto de la tierra). Debe definir distribuciones previas para todos los parámetros que desea estimar, es decir, obtener distribuciones posteriores para. Esto también es cierto para la desviación estándar.

Reformulando su problema, supongo que desea inferir valores creíbles para tres medias (X.mean, Y.mean, X.mean) y tres desviaciones estándar (X.sd, Y.sd, X.sd) que podrían tener generó sus datos

El modelo

Usando la sintaxis BUGS estándar (use WinBUGS, OpenBUGS, JAGS, Stan u otros paquetes para ejecutar esto), su modelo se vería así:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Naturalmente, usted monitorea los parámetros .mean y .sd y usa sus posteriores para inferencia.

Simulación

Simulé algunos datos como este:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Luego ejecutó el modelo usando JAGS para 2000 iteraciones después de una grabación de 500 iteraciones. Aquí está el resultado para X.sd.

posterior para X.sd

El rango azul indica el 95% de mayor densidad posterior o intervalo creíble (donde cree que el parámetro es después de haber observado los datos. Observe que un intervalo de confianza ortodoxo no le proporciona esto).

La línea vertical roja es la estimación MLE de los datos sin procesar. Por lo general, el parámetro más probable en la estimación bayesiana es también el parámetro más probable (máxima verosimilitud) en las estadísticas ortodoxas. Pero no debes preocuparte demasiado por la parte superior de la parte posterior. La media o mediana es mejor si quiere reducirlo a un solo número.

Tenga en cuenta que MLE / top no está en 5 porque los datos se generaron aleatoriamente, no por estadísticas incorrectas.

Limitaciones

Este es un modelo simple que tiene varios defectos actualmente.

  1. No maneja la identidad de -90 y 90 grados. Sin embargo, esto se puede hacer haciendo una variable intermedia que cambie los valores extremos de los parámetros estimados al rango (-90, 90).
  2. X, Y y Z actualmente se modelan como independientes, aunque probablemente estén correlacionados y esto debe tenerse en cuenta para aprovechar al máximo los datos. Depende de si el dispositivo de medición se estaba moviendo (la correlación en serie y la distribución conjunta de X, Y y Z le darán mucha información) o si está parado (la independencia está bien). Puedo ampliar la respuesta para abordar esto, si así lo solicita.

Debo mencionar que hay mucha literatura sobre modelos espaciales bayesianos que no conozco.

Jonas Lindeløv
fuente
Gracias por esta respuesta Son datos de una estación fija, pero ¿esto implica que los datos son independientes?
traindriver
@traindriver Debe proporcionar más información sobre el problema de inferencia que enfrenta para que podamos ayudarlo. Puede ampliar su pregunta con una sección de "actualización" que especifique al menos (1) ¿es la misma cantidad que se mide repetidamente? Es decir, la misma coordenada. ¿O se escanea un área o ... (2) ¿por qué quiere inferir la media y la SD? Si se trata de un área, puede ser que desee utilizar SD como una estimación de irregularidades o algo así.
Jonas Lindeløv
He agregado más información en la publicación original.
traindriver
3

z

Z¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ

z=1β+ϵ1βZ¯μZϵz

z=1β+Qu+ϵuQzuuZσz? En caso afirmativo, esto se puede utilizar para proporcionar la distribución de los efectos aleatorios. Por lo general, el software para realizar modelos básicos de efectos mixtos asumirá que los efectos aleatorios tienen una distribución normal (con una media de 0 ...) y estimará la varianza por usted. Quizás puedas probar esto para probar el concepto. Si desea utilizar su información previa sobre la distribución del error de medición, debe ordenar un modelo de efectos mixtos bayesianos. Puede usar R2OpenBUGS.

ϵϵ

DW

Como mencionó whuber, es posible que desee tener en cuenta la autocorrelación en sus datos. El uso de efectos aleatorios no resolverá ese problema.

Muerte mortal14
fuente