Tengo dos datos GPS de 2 horas con una frecuencia de muestreo de 1 Hz (7200 mediciones). Los datos se dan en la forma , donde es la incertidumbre de medición.
Cuando tomo la media de todas las mediciones (por ejemplo, el valor Z promedio de esas dos horas), ¿cuál es su desviación estándar? Por supuesto, puedo calcular la desviación estándar de los valores Z, pero luego descuido el hecho de que existen incertidumbres de medición conocidas ...
Editar: todos los datos provienen de la misma estación y todas las coordenadas se vuelven a medir cada segundo. Debido a las constelaciones de satélites, etc., cada medición tiene una incertidumbre diferente. El propósito de mi análisis es encontrar el desplazamiento debido a un evento externo (es decir, un terremoto). Me gustaría tomar la media de 7200 mediciones (2h) antes del terremoto y otra media de 2h después del terremoto, y luego calcular la diferencia resultante (en altura, por ejemplo). Para especificar la desviación estándar de esta diferencia, necesito saber la desviación estándar de las dos medias.
fuente
Respuestas:
Sospecho que las respuestas anteriores a esta pregunta pueden estar un poco fuera de lugar. Me parece que lo que el cartel original es realmente preguntando aquí podría ser reformulada como, "dado una serie de mediciones vectoriales: , con i = 1 , 2 , 3 , . . . , 7200 y covarianza de medición : C i = ( X 2 σ , i 0 0 0 Y
En general, cuando respondo a las preguntas de stackexchange.com, normalmente no me parece útil volver a empaquetar derivaciones largas que ya se han presentado en numerosos libros de texto, si realmente desea comprender el material y entender por qué las respuestas se ven en el tal como lo hacen, entonces realmente deberías ir y leer las explicaciones que ya han sido publicadas por los autores de los libros de texto. Con eso en mente, simplemente saltaré directamente para volver a expresar las respuestas que otros ya han proporcionado. De Frederick James, estableciendo , la media ponderada es: → θ m e a n = ( N ∑ i = 1 CN=7200 y la covarianza de la media ponderada es:Cmean=( N ∑ i=1C - 1 i )-1 Esta respuesta es completamente general, y será válido sin importar la forma deCi, incluso para matrices de covarianza de medición no diagonales.
fuente
Esto debería resolverse fácilmente mediante inferencia bayesiana. Usted conoce las propiedades de medición de los puntos individuales con respecto a su valor verdadero y desea inferir la media de la población y la DE que generaron los valores verdaderos. Este es un modelo jerárquico.
Reformulación del problema (conceptos básicos de Bayes)
Tenga en cuenta que mientras que las estadísticas ortodoxas le dan una media única, en el marco bayesiano obtiene una distribución de valores creíbles de la media. Por ejemplo, las observaciones (1, 2, 3) con DE (2, 2, 3) podrían haber sido generadas por la Estimación de máxima verosimilitud de 2 pero también por una media de 2.1 o 1.8, aunque un poco menos probable (dados los datos) que el MLE Entonces, además de la DE, también inferimos la media .
Otra diferencia conceptual es que debe definir su estado de conocimiento antes de hacer las observaciones. Llamamos a esto priors . Es posible que sepa de antemano que se escaneó un área determinada y en un cierto rango de altura. La ausencia total de conocimiento sería tener grados uniformes (-90, 90) como los anteriores en X e Y y quizás metros uniformes (0, 10000) de altura (sobre el océano, debajo del punto más alto de la tierra). Debe definir distribuciones previas para todos los parámetros que desea estimar, es decir, obtener distribuciones posteriores para. Esto también es cierto para la desviación estándar.
Reformulando su problema, supongo que desea inferir valores creíbles para tres medias (X.mean, Y.mean, X.mean) y tres desviaciones estándar (X.sd, Y.sd, X.sd) que podrían tener generó sus datos
El modelo
Usando la sintaxis BUGS estándar (use WinBUGS, OpenBUGS, JAGS, Stan u otros paquetes para ejecutar esto), su modelo se vería así:
Naturalmente, usted monitorea los parámetros .mean y .sd y usa sus posteriores para inferencia.
Simulación
Simulé algunos datos como este:
Luego ejecutó el modelo usando JAGS para 2000 iteraciones después de una grabación de 500 iteraciones. Aquí está el resultado para X.sd.
El rango azul indica el 95% de mayor densidad posterior o intervalo creíble (donde cree que el parámetro es después de haber observado los datos. Observe que un intervalo de confianza ortodoxo no le proporciona esto).
La línea vertical roja es la estimación MLE de los datos sin procesar. Por lo general, el parámetro más probable en la estimación bayesiana es también el parámetro más probable (máxima verosimilitud) en las estadísticas ortodoxas. Pero no debes preocuparte demasiado por la parte superior de la parte posterior. La media o mediana es mejor si quiere reducirlo a un solo número.
Tenga en cuenta que MLE / top no está en 5 porque los datos se generaron aleatoriamente, no por estadísticas incorrectas.
Limitaciones
Este es un modelo simple que tiene varios defectos actualmente.
Debo mencionar que hay mucha literatura sobre modelos espaciales bayesianos que no conozco.
fuente
Como mencionó whuber, es posible que desee tener en cuenta la autocorrelación en sus datos. El uso de efectos aleatorios no resolverá ese problema.
fuente