He estado haciendo un problema de clasificación y he leído el código y los tutoriales de muchas personas. Una cosa que he notado es que muchas personas toman np.log
o log
de variables continuas como loan_amount
o applicant_income
etc.
Solo quiero entender la razón detrás de esto. ¿Ayuda a mejorar la precisión de predicción de nuestro modelo? ¿Es obligatorio? o ¿Hay alguna lógica detrás de esto?
Proporcione alguna explicación si es posible. Gracias.
fuente
Principalmente debido a una distribución sesgada. El logaritmo reduce naturalmente el rango dinámico de una variable, por lo que las diferencias se conservan mientras la escala no está tan sesgada. Imagine que algunas personas obtuvieron un préstamo de 100,000,000 y algunas obtuvieron 10000 y otras 0. Cualquier escala de características probablemente pondrá a 0 y 10000 tan cerca el uno del otro como el mayor número de todos modos empuja el límite. El logaritmo resuelve el problema.
fuente
fuente
Otra razón por la cual las transformaciones logarítmicas son útiles entra en juego para los datos de razón, debido al hecho de que
log(A/B) = -log(B/A)
. Si traza una distribución de proporciones en la escala bruta, sus puntos caen en el rango(0, Inf)
. Cualquier proporción inferior a 1 se comprimirá en un área pequeña de la trama y, además, la trama se verá completamente diferente si cambia la proporción a en(B/A)
lugar de(A/B)
. Si hace esto en una escala logarítmica, el rango es ahora(-Inf, +Inf)
, lo que significa que las relaciones menores que 1 y mayores que 1 se distribuyen más equitativamente. Si decide voltear la relación, simplemente voltea la gráfica alrededor de 0, de lo contrario, se ve exactamente igual. En una escala logarítmica, realmente no importa si muestra una relación como1/10 or 10/1
, lo cual es útil cuando no hay una opción obvia sobre cuál debería ser.fuente
Deberías mirar la distribución lognormal .
Las personas pueden usar registros porque piensan que comprime la escala o algo así, pero el uso basado en principios de los registros es que está trabajando con datos que tienen una distribución lognormal. Esto tenderá a ser salarios, precios de la vivienda, etc., donde todos los valores son positivos y la mayoría son relativamente modestos, pero algunos son muy grandes.
Si puede tomar el registro de los datos y se vuelve normal, puede aprovechar muchas características de una distribución normal, como la media bien definida, la desviación estándar (y, por lo tanto, las puntuaciones z), la simetría, etc.
Del mismo modo, la adición de registros es lo mismo que la multiplicación de los valores no registrados. Lo que significa que ha convertido una distribución donde los errores son aditivos en uno donde son multiplicativos (es decir, basados en porcentajes). Dado que las técnicas como la regresión OLS requieren una distribución de error normal, trabajar con registros amplía su aplicabilidad de los procesos aditivos a los multiplicativos.
fuente
Diría que la razón principal no es distributiva, sino más bien debido a la relación no lineal. Los registros a menudo capturan relaciones saturantes ...
fuente