¿Cuáles son los pasos adecuados para preprocesar mis formas de onda para realizar un análisis de componentes independientes (ICA) más adelante? Entiendo el cómo, aunque una explicación más detallada de eso no duele, pero estoy más interesado en el por qué.
preprocessing
ica
jonsca
fuente
fuente
Respuestas:
El análisis de componentes independientes (ICA) se utiliza para separar una mezcla lineal de componentes estadísticamente independientes y, lo más importante, no gaussianos † en sus componentes. El modelo estándar para un ICA sin ruido es
donde es el vector de observación o de datos, s es una señal fuente / componentes originales (no gaussianos) y A es un vector de transformación que define la mezcla lineal de las señales constituyentes. Típicamente, A y s son desconocidos.x s A A s
Preprocesamiento
Hay dos estrategias principales de preprocesamiento en ICA, a saber, centrado y blanqueamiento / esfero. Las razones principales para el preprocesamiento son:
De la introducción de G. Li y J. Zhang, "Sphering y sus propiedades", The Indian Journal of Statistics, vol. 60, Serie A, Parte I, pp. 119-133, 1998:
1. Centrado:
El centrado es una operación muy simple y simplemente se refiere a restar la media . En la práctica, utiliza la media muestral y crea un nuevo vector x c = x - ¯ x , donde ¯ x es la media de los datos. Geométricamente, restar la media es equivalente a traducir el centro de coordenadas al origen. La media siempre se puede volver a agregar al resultado final (esto es posible porque la multiplicación de la matriz es distributiva).E{x} xc=x−x¯¯¯ x¯¯¯
2. Blanqueamiento:
El blanqueamiento es una transformación que convierte los datos de tal manera que tiene una matriz de covarianza de identidad, es decir, . Normalmente, trabajas con la matriz de covarianza de muestra,E{xcxTc}=I
donde es solo mi marcador de posición perezoso para el factor de normalización apropiado (dependiendo de las dimensiones de x ). Se crea un nuevo vector blanqueado comoC x
Si, después de la transformación, hay valores propios cercanos a cero, entonces estos pueden descartarse de manera segura ya que son solo ruido y solo obstaculizarán la estimación debido al "sobreaprendizaje".
3. Otro preprocesamiento
Puede haber otros pasos de preprocesamiento involucrados en ciertas aplicaciones específicas que son imposibles de cubrir en una respuesta. Por ejemplo, he visto algunos artículos que usan el registro de la serie de tiempo y algunos otros que filtran la serie de tiempo. Si bien puede ser adecuado para su aplicación / condiciones particulares, los resultados no se transfieren a todos los campos.
† Creo que es posible usar ICA si, como máximo, uno de los componentes es gaussiano, aunque no puedo encontrar una referencia para esto en este momento.
¿Por qué se llama "sphering"?
{-1,1}
NormalDistribution[]
El primero es la densidad conjunta de dos gaussianos no correlacionados, el segundo en transformación y el tercero es después del blanqueamiento. En la práctica, solo los pasos 2 y 3 son visibles.
fuente