Entiendo (principalmente) cómo funciona el análisis de componentes independientes (ICA) en un conjunto de señales de una población, pero no logro que funcione si mis observaciones (matriz X) incluyen señales de dos poblaciones diferentes (que tienen medios diferentes) y yo Me pregunto si es una limitación inherente de ICA o si puedo resolver esto. Mis señales son diferentes al tipo común que se analiza porque mis vectores fuente son muy cortos (por ejemplo, 3 valores de largo), pero tengo muchas (por ejemplo, 1000's) de observaciones. Específicamente, estoy midiendo la fluorescencia en 3 colores donde las señales amplias de fluorescencia pueden "desbordarse" en otros detectores. Tengo 3 detectores y uso 3 fluoróforos diferentes en las partículas. Uno podría pensar en esto como una espectroscopía de muy baja resolución. Cualquier partícula fluorescente podría tener una cantidad arbitraria de cualquiera de los 3 fluoróforos diferentes. Sin embargo, tengo un conjunto mixto de partículas que tienden a tener concentraciones bastante distintas de fluoróforos. Por ejemplo, un conjunto generalmente puede tener mucho fluoróforo # 1 y poco fluoróforo # 2, mientras que el otro conjunto tiene poco de # 1 y mucho # 2.
Básicamente, quiero desconvolver el efecto de derrame para estimar la cantidad real de cada fluoróforo en cada partícula, en lugar de tener una fracción de señal de un fluoróforo agregado a la señal de otro. Parecía que esto sería posible para ICA, pero después de algunas fallas significativas (la transformación de matriz parece priorizar la separación de las poblaciones en lugar de girar para optimizar la independencia de la señal), me pregunto si ICA no es la solución correcta o si necesito preprocesar mis datos de alguna otra manera para abordar esto.
Los gráficos muestran mis datos sintéticos utilizados para demostrar el problema. Comenzando con fuentes "verdaderas" (panel A) que consisten en una mezcla de 2 poblaciones, creé una matriz de mezcla (A) "verdadera" y calculé la matriz de observación (X) (panel B). FastICA estima la matriz S (que se muestra en el panel C) y, en lugar de encontrar mis fuentes verdaderas, me parece que rota los datos para minimizar la covarianza entre las 2 poblaciones.
Buscando alguna sugerencia o idea.