Un paso común de preprocesamiento para los algoritmos de aprendizaje automático es el blanqueamiento de datos.
Parece que siempre es bueno hacer el blanqueamiento, ya que des correlaciona los datos, lo que facilita el modelado.
¿Cuándo no se recomienda el blanqueamiento?
Nota: me refiero a la descorrelación de los datos.
data-transformation
Corrió
fuente
fuente
Respuestas:
El pre-blanqueamiento es una generalización de la normalización de características, que hace que la entrada sea independiente al transformarla contra una matriz de covarianza de entrada transformada. No puedo ver por qué esto puede ser algo malo.
Sin embargo, una búsqueda rápida reveló "La viabilidad del blanqueamiento de datos para mejorar el rendimiento del radar meteorológico" ( pdf ) que dice:
No tengo la educación suficiente para comentar sobre esto. Tal vez la respuesta a su pregunta es que el blanqueamiento siempre es bueno, pero hay ciertas trampas (por ejemplo, con datos aleatorios no funcionará bien si se realiza mediante la función de autocorrelación gaussiana).
fuente
En primer lugar, creo que descorrelacionar y blanquear son dos procedimientos separados.
Para descorrelacionar los datos, necesitamos transformarlos para que los datos transformados tengan una matriz de covarianza diagonal. Esta transformación se puede encontrar resolviendo el problema del valor propio. Encontramos los vectores propios y los valores propios asociados de la matriz de covarianza resolviendoΣ = X X′
donde es una matriz diagonal que tiene los valores propios como sus elementos diagonales.Λ
La matriz así diagonaliza la matriz de covarianza de X . Las columnas de Φ son los vectores propios de la matriz de covarianza.Φ X Φ
También podemos escribir la covarianza diagonalizada como:
Y finalmente, hay un "problema" común que la gente debe tener cuidado. Hay que tener cuidado de calcular los factores de escala en los datos de entrenamiento , y luego usar las ecuaciones (2) y (3) para aplicar los mismos factores de escala a los datos de la prueba, de lo contrario corre el riesgo de sobreajustar (estaría usando información del conjunto de pruebas en el proceso de capacitación).
Fuente: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
fuente
De http://cs231n.github.io/neural-networks-2/
Lamentablemente, no tengo la educación suficiente para comentar más sobre esto.
fuente