Necesito resolver un problema de regresión complicado sobre la unidad de disco. La pregunta original atrajo algunos comentarios interesantes, pero desafortunadamente no hubo respuestas. Mientras tanto, aprendí algo más sobre este problema, por lo que intentaré dividir el problema original en subproblemas y ver si tengo más suerte esta vez.
Tengo 40 sensores de temperatura regularmente espaciados en un anillo estrecho dentro del disco de la unidad:
Estos sensores adquieren temperatura a tiempo. Sin embargo, dado que la variación en el tiempo es mucho menor que la variación en el espacio, simplifiquemos el problema ignorando la variabilidad del tiempo y supongamos que cada sensor solo me da un promedio de tiempo. Esto significa que tengo 40 muestras (una para cada sensor) y no tengo muestras repetidas.
Me gustaría construir una superficie de regresión partir de los datos del sensor. La regresión tiene dos objetivos:
- Necesito estimar un perfil de temperatura radial media . Con la regresión lineal, ya calculo una superficie que es la superficie de temperatura media, por lo que solo necesito integrar mi superficie con respecto a , ¿verdad? Si uso polinomios para la regresión, este paso debería ser pan comido.
- Necesito estimar un perfil de temperatura radial , de modo que en cada posición radial, .
Dados estos dos objetivos, ¿qué técnica debo usar para la regresión en el disco de la unidad? Por supuesto, los procesos gaussianos se usan comúnmente para la regresión espacial. Sin embargo, la definición de un buen núcleo para el disco de la unidad no es trivial, por lo que me gustaría mantener las cosas simples y usar polinomios, a menos que sienta que es una estrategia perdedora. He leído sobre los polinomios de Zernike . Los polinomios de Zernike parecen ser apropiados para la regresión sobre la unidad de disco, ya que son periódicos en .
Una vez que se elige el modelo, necesito elegir un procedimiento de estimación. Dado que este es un problema de regresión espacial, los errores en diferentes ubicaciones deben estar correlacionados. Los mínimos cuadrados ordinarios suponen errores no correlacionados, por lo que supongo que los mínimos cuadrados generalizados serían más apropiados. GLS parece una técnica estadística relativamente común, dado que hay una gls
función en la distribución R estándar. Sin embargo, nunca he usado GLS, y tengo dudas. Por ejemplo, ¿cómo calculo la matriz de covarianza? Un ejemplo resuelto, incluso con unos pocos sensores, sería genial.
PD: Elegí usar polinomios Zernike y GLS porque me parece lo lógico hacer aquí. Sin embargo, no soy un experto, y si siente que voy en la dirección equivocada, siéntase libre de usar un enfoque completamente diferente.
fuente
Respuestas:
Creo que estás en el camino correcto al pensar en algo como los polinomios de Zernike. Como se señaló en la respuesta de jwimberly, estos son un ejemplo de un sistema de funciones de base ortogonal en un disco. No estoy familiarizado con los polinomios de Zernike, pero muchas otras familias de funciones ortogonales (incluidas las funciones de Bessel) surgen naturalmente en la física matemática clásica como funciones propias de ciertas ecuaciones diferenciales parciales (en el momento de escribir este artículo, incluso la animación en la parte superior de ese enlace muestra un ejemplo de una cabeza de tambor vibrante).
Dos preguntas me vienen a la mente. Primero, si todo lo que busca es el perfil radial ( promediado), entonces, ¿cuánta restricción sobre el patrón espacial necesita? Segundo, ¿qué tipos de variabilidad ocurren en los datos espacio-temporales?θ
En términos de la primera pregunta, hay dos preocupaciones que vienen a la mente. Debido a las coordenadas polares, el área de soporte para cada sensor tiene una tendencia con . La segunda preocupación sería la posibilidad de aliasing , esencialmente una desalineación de sus sensores en relación con la fase del patrón (para usar una analogía de Fourier / Bessel). Tenga en cuenta que el alias probablemente sea la principal incertidumbre para limitar las temperaturas máximas (es decir, ).r T95
En términos de esta segunda pregunta, la variabilidad de los datos en realidad podría ayudar con cualquier problema de aliasing, esencialmente permitiendo que cualquier desalineación se promedie sobre las diferentes mediciones. (Suponiendo que no haya un sesgo sistemático ... pero eso sería un problema para cualquier método, sin, por ejemplo, un modelo físico para dar más información).
Entonces, una posibilidad sería definir sus funciones ortogonales espaciales únicamente en las ubicaciones de los sensores. Estas "Funciones ortogonales empíricas" podrían calcularse mediante PCA en su matriz de datos espacio-temporal. (Posiblemente podría usar un poco de ponderación para tener en cuenta las áreas variables de soporte del sensor, pero dada la cuadrícula polar uniforme y el objetivo de los promedios radiales, esto puede no ser necesario)
Tenga en cuenta que si hay es cualquier dato de modelado físico para variaciones "espera" en la temperatura, disponibles en una red computacional espacio-temporal densa, entonces el mismo procedimiento PCA podría aplicarse a que los datos de funciones ortogonales Derivar. (Esto normalmente se llamaría " Descomposición ortogonal adecuada " en ingeniería, donde se usa para la reducción del modelo, por ejemplo, un costoso modelo de dinámica de fluidos computacional puede destilarse para su uso en actividades de diseño adicionales).
Un comentario final, si tuviera que ponderar los datos del sensor por área de soporte (es decir, tamaño de celda polar), este sería un tipo de covarianza diagonal, en el marco de GLS . (Eso se aplicaría más a su problema de predicción, aunque la PCA ponderada estaría estrechamente relacionada).
¡Espero que esto ayude!
Actualización: Su nuevo diagrama de la distribución del sensor cambia las cosas considerablemente en mi opinión. Si desea estimar las temperaturas sobre el interior del disco, necesitará una información mucho más informativa que simplemente "un conjunto de funciones ortogonales en el disco de la unidad". Hay muy poca información en los datos del sensor.
Si realmente desea estimar la variación de la temperatura espacial sobre el disco, la única forma razonable que puedo ver sería tratar el problema como una asimilación de datos . Aquí necesitaría al menos restringir la forma paramétrica de la distribución espacial basada en algunas consideraciones basadas en la física (esto podría ser de simulaciones o de datos relacionados en sistemas con dinámicas similares).
No conozco su aplicación particular, pero si es algo como esto , entonces me imagino que existe una extensa literatura de ingeniería a la que podría recurrir para elegir las restricciones previas apropiadas. (Para ese tipo de conocimiento de dominio detallado, este probablemente no sea el mejor sitio de StackExchange para preguntar).
fuente
Los polinomios Zernlike no suenan como una mala elección, ya que ya tienen la dependencia de y y la ortogonalidad. Sin embargo, dado que está estudiando la temperatura, una opción posiblemente más apropiada y mejor conocida sería las funciones de Bessel . Estos surgen en el estudio del flujo de calor en objetos cilíndricos / sistemas de coordenadas, por lo que existe la posibilidad de que sean físicamente más apropiados. La enésima función de Bessel daría la dependencia radial asociada con una función trigonométrica correspondiente para la dependencia polar; Puede encontrar los detalles en muchos libros de texto de física y PDE.r θ
fuente