Mi pregunta es si necesitamos estandarizar el conjunto de datos para asegurarnos de que todas las variables tengan la misma escala, entre [0,1], antes de ajustar la regresión logística. La formula es:
Mi conjunto de datos tiene 2 variables, describen lo mismo para dos canales, pero el volumen es diferente. Digamos que es el número de visitas de clientes en dos tiendas, y aquí está si un cliente compra. Porque un cliente puede visitar ambas tiendas, o dos veces la primera tienda, una vez la segunda tienda antes de realizar una compra. pero el número total de visitas de clientes para la primera tienda es 10 veces mayor que la segunda tienda. Cuando me ajusto a esta regresión logística, sin estandarización coef(store1)=37, coef(store2)=13
,; si estandarizo los datos, entonces coef(store1)=133, coef(store2)=11
. Algo como esto. ¿Qué enfoque tiene más sentido?
¿Qué sucede si estoy ajustando un modelo de árbol de decisión? Sé que los modelos de estructura de árbol no necesitan estandarización ya que el modelo en sí lo ajustará de alguna manera. Pero comprobando con todos ustedes.
fuente
C
cambios óptimos en el factor de regularización . Por lo tanto, debe elegirC
después de estandarizar los datos.Respuestas:
La estandarización no es necesaria para la regresión logística. El objetivo principal de estandarizar las características es ayudar a la convergencia de la técnica utilizada para la optimización. Por ejemplo, si usa Newton-Raphson para maximizar la probabilidad, la estandarización de las características agiliza la convergencia. De lo contrario, puede ejecutar su regresión logística sin ningún tratamiento de estandarización en las características.
fuente
@Aymen tiene razón, no necesita normalizar sus datos para la regresión logística. (Para obtener información más general, puede ser útil leer este hilo de CV: ¿ Cuándo debe centrar sus datos y cuándo debe estandarizar?; También puede observar que su transformación se denomina más comúnmente 'normalización', consulte: Cómo verificar un la distribución está normalizada? ) Permítanme abordar algunos otros puntos en la pregunta.
Vale la pena señalar aquí que en la regresión logística sus coeficientes indican el efecto de un cambio de una unidad en su variable predictiva sobre las probabilidades de registro de 'éxito'. El efecto de transformar una variable (como estandarizar o normalizar) es cambiar lo que llamamos una 'unidad' en el contexto de nuestro modelo. Sus datos de procesar variaron a través de cierto número de unidades en la métrica original. Después de que se normalizó, sus datos variaron de a . Es decir, un cambio de una unidad ahora significa pasar de la observación de menor valor a la observación de mayor valor. La cantidad de aumento en las probabilidades de éxito del registro no ha cambiado. A partir de estos hechos, sospecho que su primera variable ( ) abarcó0 1 133 / 37 ≈ 3,6 11 / 13 ≈ 0,85X 0 0 1 133 / 37 ≈ 3,6 unidades originales, y su segunda variable ( 11 / 13 ≈ 0,85
store1
store2
) abarcó solo unidades originales.fuente
Si usa la regresión logística con LASSO o la regresión de cresta (como lo hace la clase Weka Logistic ), debería hacerlo. Como señalan Hastie, Tibshirani y Friedman (página 82 del pdf o en la página 63 del libro):
También este hilo lo hace.
fuente