El aprendizaje automático (ML) utiliza técnicas de regresión lineal y logística en gran medida. También se basa en técnicas de ingeniería función ( feature transform
, kernel
, etc).
¿Por qué es nada acerca de variable transformation
(por ejemplo power transformation
) mencionado en ML? (Por ejemplo, nunca escuché acerca de cómo rootear o iniciar sesión en entidades, por lo general solo usan polinomios o RBF). Del mismo modo, ¿por qué los expertos en ML no se preocupan por las transformaciones de características para la variable dependiente? (Por ejemplo, nunca escuché sobre tomar la transformación logarítmica de y; simplemente no transforman y).
Ediciones: Tal vez la pregunta no es definitivamente, mi verdadera pregunta es "¿la transformación de poder a variables no es importante en ML?"
fuente
Respuestas:
El libro Applied Predictive Modeling de Kuhn y Johnson es un libro práctico de aprendizaje automático muy apreciado con una gran sección sobre transformación variable que incluye Box-Cox. Los autores afirman que muchos algoritmos de aprendizaje automático funcionan mejor si las características tienen distribuciones simétricas y unimodales. La transformación de características como esta es una parte importante de la "ingeniería de características".
fuente
Bueno, desde mi propia perspectiva, a menudo estoy interesado en la distribución predictiva de la variable de respuesta, en lugar de solo la media condicional, y en ese caso es mejor usar una probabilidad de que represente más correctamente la distribución objetivo. Por ejemplo, me gusta usar modelos lineales kernelised en lugar de (por ejemplo) soportar la regresión de vectores, porque puedo usar una probabilidad de Poisson si lo deseo. Como muchas personas de aprendizaje automático son bayesianas, sospecho que usar una probabilidad diferente parecerá más elegante que las transformaciones (elegir una probabilidad apropiada es generalmente el primer paso).
fuente
Aquí están mis pensamientos posteriores.
Creo que se debe a que ML se ocupa principalmente de la clasificación, y la clasificación no es necesaria para transformar y (y es categórico). ML generalmente trata con grandes variables independientes (por ejemplo, miles en PNL) y la regresión logística no requiere normalidad; Creo que es por eso que no usan la transformación de potencia de Box-Cox debido a la consideración de velocidad. (nota: no estoy familiarizado con la transformación de poder).
fuente