Estaba leyendo sobre la solución a este desafío OTTO Kaggle y la solución del primer lugar parece usar varias transformaciones para los datos de entrada X, por ejemplo Log (X + 1), sqrt (X + 3/8), etc. ¿Hay un guía general sobre cuándo aplicar qué transformaciones de tipo a varios clasificadores?
Entiendo los conceptos de normalización media-var y min-max. Sin embargo, para las transformaciones anteriores, supongo que Log y Sqrt se usan para comprimir el rango dinámico de los datos. Y el desplazamiento del eje x es solo para volver a centrar los datos. Sin embargo, el autor elige utilizar diferentes métodos de normalización para la misma entrada X cuando se alimenta a diferentes clasificadores. ¿Algunas ideas?
machine-learning
feature-extraction
feature-scaling
terenceflow
fuente
fuente
Respuestas:
Amamos la forma normal
En la mayoría de los casos tratamos de hacer que actúen como normales. ¡No es un punto de vista de clasificadores sino su vista de extracción de características!
¿Qué transformación ?
El criterio principal para elegir una transformación es: ¿qué funciona con los datos? Como indican los ejemplos anteriores, es importante considerar también dos preguntas.
¿Qué tiene sentido físico (biológico, económico, lo que sea), por ejemplo en términos de comportamiento limitante a medida que los valores se vuelven muy pequeños o muy grandes? Esta pregunta a menudo conduce al uso de logaritmos.
¿Podemos mantener dimensiones y unidades simples y convenientes? Si es posible, preferimos escalas de medición en las que sea fácil pensar.
La raíz cúbica de un volumen y la raíz cuadrada de un área tienen las dimensiones de longitud, lejos de complicar las cosas, tales transformaciones pueden simplificarlas. Los recíprocos generalmente tienen unidades simples, como se mencionó anteriormente. Sin embargo, a menudo, las unidades algo complicadas son un sacrificio que debe hacerse.
¿Cuándo usar qué ?
Las transformaciones más útiles en el análisis introductorio de datos son el recíproco, el logaritmo, la raíz cúbica, la raíz cuadrada y el cuadrado. En lo que sigue, incluso cuando no se enfatiza, se supone que las transformaciones se usan solo en rangos en los que producen números reales (finitos) como resultados.
(En la práctica, es posible que queramos multiplicar o dividir los resultados de tomar el recíproco por alguna constante, como 1000 o 10000, para obtener números que sean fáciles de manejar, pero que en sí mismos no tengan ningún efecto sobre la asimetría o la linealidad).
El recíproco invierte el orden entre los valores del mismo signo: más grande se vuelve más pequeño, etc. El recíproco negativo conserva el orden entre los valores del mismo signo.
Logaritmo : El logaritmo, x log 10 x, o x log ex o ln x, o x log 2 x, es una transformación fuerte con un efecto importante en la forma de distribución. Se usa comúnmente para reducir el sesgo correcto y a menudo es apropiado para variables medidas. No se puede aplicar a valores cero o negativos. Una unidad en una escala logarítmica significa una multiplicación por la base de los logaritmos que se utilizan. Crecimiento o declive exponencial.
se hace lineal mediante - para que la variable de respuesta y se registre. (Aquí exp () significa elevar a la potencia e, aproximadamente 2.71828, que es la base de los logaritmos naturales). Un aparte en esta ecuación de crecimiento o disminución exponencial: , y modo que a es la cantidad o el recuento cuando x = 0. Si a y b> 0, entonces y crece más rápido y una tasa más rápida (p. ej., interés compuesto o crecimiento demográfico sin control), mientras que si a> 0 y b <0, y disminuye a una tasa cada vez más lenta (p. ej., desintegración radiactiva).l n y= l n a + b x x = 0 y= a e x p ( 0 ) = a
tipo de función de potencia es una forma que se adapta
bastante bien a muchos conjuntos de datos .
Ejemplos son:
Entonces y está en algún lugar entre 0 e infinito, o en el último caso, entre 1 e infinito. Si p = q, entonces y = 1. Tales definiciones a menudo conducen a datos asimétricos, porque hay un límite inferior claro y ningún límite superior claro. El logaritmo, sin embargo, es decir
log y = log p / q = log p - log q, está en algún lugar entre -infinito e infinito y p = q significa que log y = 0. Por lo tanto, es probable que el logaritmo de dicha relación esté más simétricamente distribuido.
Raíz cúbica: la raíz cúbica, x 1/3 . Esta es una transformación bastante fuerte con un efecto sustancial en la forma de distribución: es más débil que el logaritmo. También se usa para reducir el sesgo correcto, y tiene la ventaja de que se puede aplicar a valores cero y negativos. Tenga en cuenta que la raíz cúbica de un volumen tiene las unidades de una longitud. Se aplica comúnmente a los datos de lluvia.
La aplicabilidad a valores negativos requiere una nota especial. Considere
(2) (2) (2) = 8 y (-2) (- 2) (- 2) = -8. Estos ejemplos muestran que la
raíz cúbica de un número negativo tiene signo negativo y el mismo
valor absoluto que la raíz cúbica del número positivo equivalente. Una propiedad similar es poseída por cualquier otra raíz cuyo poder sea el
recíproco de un entero positivo impar (potencias 1/3, 1/5, 1/7, etc.)
Esta propiedad es un poco delicada. Por ejemplo, cambie la potencia solo un smidgen de 1/3, y ya no podemos definir el resultado como un producto de exactamente tres términos. Sin embargo, la propiedad está ahí para ser explotada si es útil.
relación dentro de la región de datos. Fuera de esa región, pueden
comportarse muy mal, porque toman valores arbitrariamente grandes para valores extremos de x, y a menos que la intersección a esté limitada a 0, pueden comportarse de manera poco realista cerca del origen.
fuente
Estos específicos podrían ser puramente heurísticos. Para las imágenes, aunque es bastante estándar: cambie RGB a BGR y reste la media de cada píxel. Esto se utiliza en todos los concursos / conjuntos de datos como Imagenet, Pascal VOC, MS COCO. La razón es que la red se presenta con un conjunto de datos estandarizado, ya que todas las imágenes pueden ser muy diferentes.
fuente
Lo mismo aquí, ni idea, no he visto esto antes. Supongo que probaron diferentes transformaciones y eligieron la que mejor funcionó. Como en el informe dicen que algunas otras transformaciones también estarían bien.
fuente