Transformación de características en datos de entrada

22

Estaba leyendo sobre la solución a este desafío OTTO Kaggle y la solución del primer lugar parece usar varias transformaciones para los datos de entrada X, por ejemplo Log (X + 1), sqrt (X + 3/8), etc. ¿Hay un guía general sobre cuándo aplicar qué transformaciones de tipo a varios clasificadores?

Entiendo los conceptos de normalización media-var y min-max. Sin embargo, para las transformaciones anteriores, supongo que Log y Sqrt se usan para comprimir el rango dinámico de los datos. Y el desplazamiento del eje x es solo para volver a centrar los datos. Sin embargo, el autor elige utilizar diferentes métodos de normalización para la misma entrada X cuando se alimenta a diferentes clasificadores. ¿Algunas ideas?

terenceflow
fuente
1
No tengo idea de qué podría sugerir ese tipo de fórmulas, pero es posible que desee ver las transformaciones box-cox, que sugieren exponentes para las variables.
anymous.asker

Respuestas:

19

Amamos la forma normal

En la mayoría de los casos tratamos de hacer que actúen como normales. ¡No es un punto de vista de clasificadores sino su vista de extracción de características!

¿Qué transformación ?

El criterio principal para elegir una transformación es: ¿qué funciona con los datos? Como indican los ejemplos anteriores, es importante considerar también dos preguntas.

¿Qué tiene sentido físico (biológico, económico, lo que sea), por ejemplo en términos de comportamiento limitante a medida que los valores se vuelven muy pequeños o muy grandes? Esta pregunta a menudo conduce al uso de logaritmos.

¿Podemos mantener dimensiones y unidades simples y convenientes? Si es posible, preferimos escalas de medición en las que sea fácil pensar.

La raíz cúbica de un volumen y la raíz cuadrada de un área tienen las dimensiones de longitud, lejos de complicar las cosas, tales transformaciones pueden simplificarlas. Los recíprocos generalmente tienen unidades simples, como se mencionó anteriormente. Sin embargo, a menudo, las unidades algo complicadas son un sacrificio que debe hacerse.

¿Cuándo usar qué ?

Las transformaciones más útiles en el análisis introductorio de datos son el recíproco, el logaritmo, la raíz cúbica, la raíz cuadrada y el cuadrado. En lo que sigue, incluso cuando no se enfatiza, se supone que las transformaciones se usan solo en rangos en los que producen números reales (finitos) como resultados.

  • Recíproco : El recíproco, x a 1 / x, con su hermano el recíproco negativo, x a -1 / x, es una transformación muy fuerte con un efecto drástico en la forma de distribución. No se puede aplicar a valores cero. Aunque puede aplicarse a valores negativos, no es útil a menos que todos los valores sean positivos. El recíproco de una razón a menudo se puede interpretar tan fácilmente como la razón misma: Ejemplo:
    • la densidad de población (personas por unidad de área) se convierte en área por persona
    • personas por médico se convierten en médicos por persona
    • las tasas de erosión se convierten en tiempo para erosionar una unidad de profundidad

(En la práctica, es posible que queramos multiplicar o dividir los resultados de tomar el recíproco por alguna constante, como 1000 o 10000, para obtener números que sean fáciles de manejar, pero que en sí mismos no tengan ningún efecto sobre la asimetría o la linealidad).

El recíproco invierte el orden entre los valores del mismo signo: más grande se vuelve más pequeño, etc. El recíproco negativo conserva el orden entre los valores del mismo signo.


  • Logaritmo : El logaritmo, x log 10 x, o x log ex o ln x, o x log 2 x, es una transformación fuerte con un efecto importante en la forma de distribución. Se usa comúnmente para reducir el sesgo correcto y a menudo es apropiado para variables medidas. No se puede aplicar a valores cero o negativos. Una unidad en una escala logarítmica significa una multiplicación por la base de los logaritmos que se utilizan. Crecimiento o declive exponencial.

    • y=aexp(bx)

se hace lineal mediante - para que la variable de respuesta y se registre. (Aquí exp () significa elevar a la potencia e, aproximadamente 2.71828, que es la base de los logaritmos naturales). Un aparte en esta ecuación de crecimiento o disminución exponencial: , y modo que a es la cantidad o el recuento cuando x = 0. Si a y b> 0, entonces y crece más rápido y una tasa más rápida (p. ej., interés compuesto o crecimiento demográfico sin control), mientras que si a> 0 y b <0, y disminuye a una tasa cada vez más lenta (p. ej., desintegración radiactiva).lny=lna+bxx=0y=aexp(0)=a


  • Funciones de potencia :
  • y=axb se hacen lineales mediante para que ambas variables y y x se registren. Un aparte en tales funciones de potencia : poner , y para ,logy=loga+blogx
    x=0b>0

  • y=axb=0 por lo que la función de potencia para b positivo pasa por el origen, que a menudo tiene sentido físico, biológico o económico. Piense: ¿cero para x implica cero para y? Este
    tipo de función de potencia es una forma que se adapta
    bastante bien a muchos conjuntos de datos .

    • Considere las razones y = p / q donde p y q son positivas en la práctica.
  • Ejemplos son:

    • Masculinos femeninos
    • Dependientes / Trabajadores
    • Longitud aguas abajo / Longitud del vano
  • Entonces y está en algún lugar entre 0 e infinito, o en el último caso, entre 1 e infinito. Si p = q, entonces y = 1. Tales definiciones a menudo conducen a datos asimétricos, porque hay un límite inferior claro y ningún límite superior claro. El logaritmo, sin embargo, es decir

  • log y = log p / q = log p - log q, está en algún lugar entre -infinito e infinito y p = q significa que log y = 0. Por lo tanto, es probable que el logaritmo de dicha relación esté más simétricamente distribuido.


  • Raíz cúbica: la raíz cúbica, x 1/3 . Esta es una transformación bastante fuerte con un efecto sustancial en la forma de distribución: es más débil que el logaritmo. También se usa para reducir el sesgo correcto, y tiene la ventaja de que se puede aplicar a valores cero y negativos. Tenga en cuenta que la raíz cúbica de un volumen tiene las unidades de una longitud. Se aplica comúnmente a los datos de lluvia.

    • La aplicabilidad a valores negativos requiere una nota especial. Considere
      (2) (2) (2) = 8 y (-2) (- 2) (- 2) = -8. Estos ejemplos muestran que la
      raíz cúbica de un número negativo tiene signo negativo y el mismo
      valor absoluto que la raíz cúbica del número positivo equivalente. Una propiedad similar es poseída por cualquier otra raíz cuyo poder sea el
      recíproco de un entero positivo impar (potencias 1/3, 1/5, 1/7, etc.)

    • Esta propiedad es un poco delicada. Por ejemplo, cambie la potencia solo un smidgen de 1/3, y ya no podemos definir el resultado como un producto de exactamente tres términos. Sin embargo, la propiedad está ahí para ser explotada si es útil.


  • Raíz cuadrada : la raíz cuadrada, x to = sqrt (x), es una transformación con un efecto moderado en la forma de distribución: es más débil que el logaritmo y la raíz cúbica. También se usa para reducir el sesgo correcto, y también tiene la ventaja de que se puede aplicar a valores cero. Tenga en cuenta que la raíz cuadrada de un área tiene las unidades de una longitud. Se aplica comúnmente a los datos contados, especialmente si los valores son en su mayoría bastante pequeños.x(1/2)

  • Cuadrado : el cuadrado, de x a , tiene un efecto moderado en la forma de distribución y podría usarse para reducir la inclinación de la izquierda. En la práctica, la razón principal para usarlo es ajustar una respuesta mediante una función cuadrática . Las cuadráticas tienen un punto de inflexión , ya sea máximo o mínimo, aunque el punto de inflexión en una función ajustada a los datos podría estar mucho más allá de los límites de las observaciones. La distancia de un cuerpo desde un origen es cuadrática si ese cuerpo se mueve bajo una aceleración constante, lo que da una justificación física muy clara para usar un cuadrático. De lo contrario, las cuadráticas generalmente se usan únicamente porque pueden imitar un y = a + b x + c x 2x2

    y=a+bx+cx2




    relación dentro de la región de datos. Fuera de esa región, pueden
    comportarse muy mal, porque toman valores arbitrariamente grandes para valores extremos de x, y a menos que la intersección a esté limitada a 0, pueden comportarse de manera poco realista cerca del origen.
    • La cuadratura generalmente tiene sentido solo si la variable en cuestión es cero o positiva, dado que y son idénticas.x 2(x)2x2

hadi gharibi
fuente
Gracias por la publicacion. de mucha ayuda. ¿Puede complementarlo con algunos ejemplos y figuras que describan cómo transforma los datos originales en datos separables?
Mvkt
1
@svk: Acabo de formatear de una manera que es comprensible, creo que hadi fue la persona que escribió la respuesta. Si mi suposición es correcta, podría haber copiado de algún libro. Veamos si responde de nuevo / sugiere algo. Else escribiría una respuesta
Toros91
2
como dijo @ Toros91, es la combinación de diferentes fuentes, recomiendo ver Cómo ganar una competencia de ciencia de datos: aprenda de los mejores Kagglers y también de los documentos stata
hadi gharibi
Alrite. aunque, ¿puede alguno de ustedes publicar algún código de ejemplo en python o matlab sobre cómo transformar los ejes x en la raíz cuadrada o la escala raíz del cubo? matlab tiene el diagrama de registro para la escala de registro. pero para otras escalas, será útil tener una trama con estos ejes transformados
Mvkt
1

Estos específicos podrían ser puramente heurísticos. Para las imágenes, aunque es bastante estándar: cambie RGB a BGR y reste la media de cada píxel. Esto se utiliza en todos los concursos / conjuntos de datos como Imagenet, Pascal VOC, MS COCO. La razón es que la red se presenta con un conjunto de datos estandarizado, ya que todas las imágenes pueden ser muy diferentes.

Alex
fuente
0

Lo mismo aquí, ni idea, no he visto esto antes. Supongo que probaron diferentes transformaciones y eligieron la que mejor funcionó. Como en el informe dicen que algunas otras transformaciones también estarían bien.

Tobi
fuente