Dadas solo las observaciones de una señal binaria perturbada por ruido gaussiano con información previa desconocida, ¿cómo puedo estimar el umbral de decisión óptimo?
(No, esta no es una pregunta de tarea)
Específicamente, pienso en el siguiente modelo: es una variable aleatoria de dos estados :
con parámetros desconocidos : .
El umbral de probabilidad de registro máximo a posteriori podría calcularse a partir de esos parámetros si los conociera. Originalmente estaba pensando en cómo estimar los parámetros primero para llegar al umbral . Pero estoy pensando que puede ser más robusto estimar directamente Y t .
Pensamientos: la normalización de las observaciones (restando la media de la muestra y dividiendo por la desviación estándar) reduce el espacio de parámetros en 2 dimensiones: y σ .
fuente
Respuestas:
Mi intuición es que sería difícil obtener el umbral de decisión correcto que espera encontrar:
De las estadísticas globales que está considerando (media de la muestra: ; desviación estándar: expresión más compleja pero dudo que implique un registro).πμ0 0+ ( 1 - π) μ1
Abordaría el problema de esta manera:
Si se puede suponer que es pequeñoσ
Menciono eso, porque tenga en cuenta que el umbral de decisión se ve afectado por solo si σ es lo suficientemente alto como para permitir que ambas clases se superpongan. Si los μs están distantes en más de unos pocos σ , ¡las probabilidades previas de clase no tienen nada que decir en el proceso de decisión!π σ μ σ
Si no se puede hacer una suposición acerca deσ
fuente
Para resumir, tiene dos distribuciones con parámetros desconocidos y una medición que puede haberse originado de cualquier proceso estocástico. Esto generalmente se conoce como un problema de asociación de datos y es muy común y ampliamente estudiado dentro de la comunidad de seguimiento. Puede considerar usar un filtro de asociación de datos de probabilidad (PDAF) o un algoritmo de seguimiento de hipótesis múltiples (MHT). Esto debería proporcionarle estimaciones de la media y la varianza para cada distribución.
Alternativamente, dado que su ruido es blanco y gaussiano, ML, MAP y MMSE son todos equivalentes y se pueden encontrar minimizando el error cuadrático medio (función de costo), como se describe efectivamente en la respuesta anterior. Usaría un enfoque de programación dinámica para encontrar el mínimo de la función de costo. Esto debería ser menos complejo (computacionalmente) que los métodos EM / clustering descritos anteriormente. Un comentario más: el PDAF es recursivo. Dado el modelo de señal simple, debería funcionar de manera muy efectiva y lo que espero es una fracción de la complejidad computacional del algoritmo EM. Buena suerte
fuente
Hay un algoritmo de mediados de la década de 1980 de Kittler e Illingworth llamado "Umbral de error mínimo" que resuelve este problema para las distribuciones gaussianas. Recientemente Mike Titterington (Universidad de Glasgow) y JH Xue (ahora en UCL) han puesto esto en un marco estadístico más formal, ver sus publicaciones conjuntas en revistas.
fuente