¿Cuál es la razón detrás de tomar la transformación de registro de pocas variables continuas?

16

He estado haciendo un problema de clasificación y he leído el código y los tutoriales de muchas personas. Una cosa que he notado es que muchas personas toman np.logo logde variables continuas como loan_amounto applicant_incomeetc.

Solo quiero entender la razón detrás de esto. ¿Ayuda a mejorar la precisión de predicción de nuestro modelo? ¿Es obligatorio? o ¿Hay alguna lógica detrás de esto?

Proporcione alguna explicación si es posible. Gracias.

Sai Kumar
fuente

Respuestas:

27

Esto se hace cuando las variables abarcan varios órdenes de magnitud. El ingreso es un ejemplo típico: su distribución es "ley de poder", lo que significa que la gran mayoría de los ingresos son pequeños y muy pocos son grandes.

Este tipo de distribución de "cola gruesa" se estudia en escala logarítmica debido a las propiedades matemáticas del logaritmo:

losol(Xnorte)=nortelosol(X)

lo que implica

losol(104 4)=4 4losol(10)

y

losol(103)=3losol(10)

lo que transforma una gran diferencia

104 4-103
en una más pequeña
4 4-3
Comparando los valores.

Duccio Piovani
fuente
2
Buena respuesta especialmente hablando de distribuciones exponenciales.
Kasra Manshaei
1
@KasraManshaei Estaba hablando sobre leyes de poder en particular (el ingreso es un ejemplo típico): los valores extremos en la distribución exponencial son, por definición, muy raros. Por lo tanto, los datos que abarcan muchos órdenes de magnitud suelen ser leyes de poder.
Duccio Piovani
1
pero, por supuesto, en tales casos log ---> ln, que no cambia absolutamente el punto de la respuesta.
Duccio Piovani
Sí lo tengo. Como dijiste no hay muchos cambios.
Kasra Manshaei
6

Principalmente debido a una distribución sesgada. El logaritmo reduce naturalmente el rango dinámico de una variable, por lo que las diferencias se conservan mientras la escala no está tan sesgada. Imagine que algunas personas obtuvieron un préstamo de 100,000,000 y algunas obtuvieron 10000 y otras 0. Cualquier escala de características probablemente pondrá a 0 y 10000 tan cerca el uno del otro como el mayor número de todos modos empuja el límite. El logaritmo resuelve el problema.

Kasra Manshaei
fuente
Manshael, entonces puedo usar MinMaxScaler o StandardScaler ¿verdad? o ¿Es necesario tomar el registro?
Sai Kumar
Necesario. Si usa escaladores, comprimen los valores pequeños dramáticamente. Eso es lo que quise decir.
Kasra Manshaei
2
Si. Si tiene en cuenta los valores 1000,000,000 y 10000 y 0. En muchos casos, el primero es demasiado grande para permitir que otros vean correctamente su modelo. Pero si toma el logaritmo, tendrá 9, 4 y 0 respectivamente. Como puede ver, el rango dinámico se reduce mientras las diferencias están casi preservadas. Proviene de cualquier naturaleza exponencial en su característica. En esos casos, necesita el logaritmo como se muestra en la otra respuesta. Espero que haya ayudado :)
Kasra Manshaei
2
Bueno, escalando! Imagine dos variables con distribución normal (por lo que no hay necesidad de un logaritmo) pero una de ellas en la escala de 10 y la otra en la escala de millones. Una vez más, alimentarlos al modelo hace que el pequeño sea invisible. En este caso, usa escaladores para hacer que sus escalas sean razonables.
Kasra Manshaei
1
@KasraManshaei log (0) = -inf sin embargo.
JAD
5

Iniciar sesiónX0 0<X<-<Iniciar sesiónX<

X

JAD
fuente
3

Otra razón por la cual las transformaciones logarítmicas son útiles entra en juego para los datos de razón, debido al hecho de que log(A/B) = -log(B/A). Si traza una distribución de proporciones en la escala bruta, sus puntos caen en el rango (0, Inf). Cualquier proporción inferior a 1 se comprimirá en un área pequeña de la trama y, además, la trama se verá completamente diferente si cambia la proporción a en (B/A)lugar de (A/B). Si hace esto en una escala logarítmica, el rango es ahora (-Inf, +Inf), lo que significa que las relaciones menores que 1 y mayores que 1 se distribuyen más equitativamente. Si decide voltear la relación, simplemente voltea la gráfica alrededor de 0, de lo contrario, se ve exactamente igual. En una escala logarítmica, realmente no importa si muestra una relación como 1/10 or 10/1, lo cual es útil cuando no hay una opción obvia sobre cuál debería ser.

Wang nuclear
fuente
3

Deberías mirar la distribución lognormal .

Las personas pueden usar registros porque piensan que comprime la escala o algo así, pero el uso basado en principios de los registros es que está trabajando con datos que tienen una distribución lognormal. Esto tenderá a ser salarios, precios de la vivienda, etc., donde todos los valores son positivos y la mayoría son relativamente modestos, pero algunos son muy grandes.

Si puede tomar el registro de los datos y se vuelve normal, puede aprovechar muchas características de una distribución normal, como la media bien definida, la desviación estándar (y, por lo tanto, las puntuaciones z), la simetría, etc.

Del mismo modo, la adición de registros es lo mismo que la multiplicación de los valores no registrados. Lo que significa que ha convertido una distribución donde los errores son aditivos en uno donde son multiplicativos (es decir, basados ​​en porcentajes). Dado que las técnicas como la regresión OLS requieren una distribución de error normal, trabajar con registros amplía su aplicabilidad de los procesos aditivos a los multiplicativos.

Wayne
fuente
1
Si desea comparar elementos de forma libre de distribución, ¿no sería mejor tomar percentiles o deciles y usarlos en lugar del valor original?
William Payne
1
@WilliamPayne Claro, puedes usar un método sin distribución, aunque también estás renunciando a algo del poder de tener una distribución ... si tus suposiciones de distribución son correctas. Con supuestos mayores (correctos) viene un mayor poder. Los percentiles son esencialmente rangos, por lo que descarta la información de distancia que tiene, y el percentil de una muestra particular es una estimación puntual. Generalmente preferimos distribuciones a puntos.
Wayne
0

Diría que la razón principal no es distributiva, sino más bien debido a la relación no lineal. Los registros a menudo capturan relaciones saturantes ...

seanv507
fuente