¿Cuáles son los pasos de preprocesamiento adecuados para realizar el análisis de componentes independientes?

El análisis de componentes independientes (ICA) se utiliza para separar una mezcla lineal de componentes estadísticamente independientes y, lo más importante, no gaussianos ^† en sus componentes. El modelo estándar para un ICA sin ruido es

x = A s

$\mathbf{x}=\mathbf{As}$

donde es el vector de observación o de datos, es una señal fuente / componentes originales (no gaussianos) y es un vector de transformación que define la mezcla lineal de las señales constituyentes. Típicamente, y son desconocidos. $\mathbf{x}$ $\mathbf{s}$ $\mathbf{A}$ $\mathbf{A}$ $\mathbf{s}$

Preprocesamiento

Hay dos estrategias principales de preprocesamiento en ICA, a saber, centrado y blanqueamiento / esfero. Las razones principales para el preprocesamiento son:

Simplificación de algoritmos.
Reducción de la dimensionalidad del problema.
Reducción del número de parámetros a estimar.
Las características destacadas del conjunto de datos no se explican fácilmente por la media y la covarianza.

De la introducción de G. Li y J. Zhang, "Sphering y sus propiedades", The Indian Journal of Statistics, vol. 60, Serie A, Parte I, pp. 119-133, 1998:

Los valores atípicos, los grupos u otro tipo de grupos y las concentraciones cerca de curvas o superficies no planas son probablemente las características importantes que interesan a los analistas de datos. En general, no se pueden obtener por el mero conocimiento de la media muestral y la matriz de covarianza. En estas circunstancias, es deseable separar de la información contenida en la media y las matrices de covarianza y nos obliga a examinar aspectos de nuestros conjuntos de datos que no sean aquellas naturalezas bien entendidas. El centrado y el sphering es un enfoque simple e intuitivo que elimina la información de covarianza media y ayuda a resaltar estructuras más allá de la correlación lineal y las formas elípticas, y por lo tanto, a menudo se realiza antes de explorar pantallas o análisis de conjuntos de datos.

1. Centrado:

El centrado es una operación muy simple y simplemente se refiere a restar la media . En la práctica, utiliza la media muestral y crea un nuevo vector , donde es la media de los datos. Geométricamente, restar la media es equivalente a traducir el centro de coordenadas al origen. La media siempre se puede volver a agregar al resultado final (esto es posible porque la multiplicación de la matriz es distributiva). $\mathbb{E}\{\mathbf{x}\}$ $\mathbf{x}_c=\mathbf{x}-\overline{\mathbf{x}}$ $\overline{\mathbf{x}}$

2. Blanqueamiento:

El blanqueamiento es una transformación que convierte los datos de tal manera que tiene una matriz de covarianza de identidad, es decir, . Normalmente, trabajas con la matriz de covarianza de muestra, $\mathbb{E}\{\mathbf{x}_c\mathbf{x}_c^T\}=\mathbf{I}$

\hat{Σ} = C . x_{c} x_{c}^{T}

$\widehat{\mathbf{\Sigma}}=C.\mathbf{x}_c\mathbf{x}_c^T$

donde es solo mi marcador de posición perezoso para el factor de normalización apropiado (dependiendo de las dimensiones de ). Se crea un nuevo vector blanqueado como $C$ $\mathbf{x}$

x_{w} = {\hat{Σ}}^{- 1 / 2} x_{c}

$\mathbf{x}_w=\widehat{\mathbf{\Sigma}}^{-1/2}\mathbf{x}_c$

$\mathbf{I}$

s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[[email protected]/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
  ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]

ingrese la descripción de la imagen aquí

$\mathbf{s}$ $\mathbf{A}$

$\mathbf{x}_w=\mathbf{A}_w\mathbf{s}_w$ $\mathbf{A}_w$

\begin{aligned} E {x_{w} x_{w}^{T}} & = E {A_{w} s_{w} (A_{w} s_{w})^{T}} \\ = A_{w} E {s_{w} s_{w}^{T}} A_{w}^{T} \\ = A_{w} A_{w}^{T} = I \end{aligned}

$\begin{align} \mathbb{E}\{\mathbf{x}_w\mathbf{x}_w^T\}&=\mathbb{E}\{\mathbf{A}_w\mathbf{s}_w(\mathbf{A}_w\mathbf{s}_w)^T\}\\ &=\mathbf{A}_w\mathbb{E}\{\mathbf{s}_w\mathbf{s}_w^T\}\mathbf{A}_w^T\\ &=\mathbf{A}_w\mathbf{A}_w^T=\mathbf{I} \end{align}$

$\mathbf{s}_i$ $\mathbf{A}$

Si, después de la transformación, hay valores propios cercanos a cero, entonces estos pueden descartarse de manera segura ya que son solo ruido y solo obstaculizarán la estimación debido al "sobreaprendizaje".

3. Otro preprocesamiento

Puede haber otros pasos de preprocesamiento involucrados en ciertas aplicaciones específicas que son imposibles de cubrir en una respuesta. Por ejemplo, he visto algunos artículos que usan el registro de la serie de tiempo y algunos otros que filtran la serie de tiempo. Si bien puede ser adecuado para su aplicación / condiciones particulares, los resultados no se transfieren a todos los campos.

^†_{Creo que es posible usar ICA si, como máximo, uno de los componentes es gaussiano, aunque no puedo encontrar una referencia para esto en este momento.}

¿Por qué se llama "sphering"?

$n$ $n$ {-1,1}NormalDistribution[]

ingrese la descripción de la imagen aquí

El primero es la densidad conjunta de dos gaussianos no correlacionados, el segundo en transformación y el tercero es después del blanqueamiento. En la práctica, solo los pasos 2 y 3 son visibles.

Lorem Ipsum
fuente

Wow, me va a tomar un poco entender todo eso, ¡pero gracias es poco!

jonsca

Lo siento, pensé que ya lo había aceptado.

jonsca

¿Cuáles son los pasos de preprocesamiento adecuados para realizar el análisis de componentes independientes?

Respuestas:

Preprocesamiento

¿Por qué se llama "sphering"?