¿Es necesaria la estandarización antes de ajustar la regresión logística?

Mi pregunta es si necesitamos estandarizar el conjunto de datos para asegurarnos de que todas las variables tengan la misma escala, entre [0,1], antes de ajustar la regresión logística. La formula es:

\frac{X_{yo} - min (X_{yo})}{max (X_{yo}) - min (X_{yo})}

$\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)}$

Mi conjunto de datos tiene 2 variables, describen lo mismo para dos canales, pero el volumen es diferente. Digamos que es el número de visitas de clientes en dos tiendas, y aquí está si un cliente compra. Porque un cliente puede visitar ambas tiendas, o dos veces la primera tienda, una vez la segunda tienda antes de realizar una compra. pero el número total de visitas de clientes para la primera tienda es 10 veces mayor que la segunda tienda. Cuando me ajusto a esta regresión logística, sin estandarización coef(store1)=37, coef(store2)=13,; si estandarizo los datos, entonces coef(store1)=133, coef(store2)=11. Algo como esto. ¿Qué enfoque tiene más sentido?

¿Qué sucede si estoy ajustando un modelo de árbol de decisión? Sé que los modelos de estructura de árbol no necesitan estandarización ya que el modelo en sí lo ajustará de alguna manera. Pero comprobando con todos ustedes.

regression logistic standardization usuario1946504
fuente

No necesita estandarizar a menos que su regresión sea regularizada. Sin embargo, a veces ayuda a la interpretación, y rara vez duele.

alex

¿No es la forma habitual de estandarizar

\frac{x_{i} - \bar{x}}{s d (x)}

$\frac{x_i-\bar{x}}{sd(x)}$ ?

Peter Flom - Restablece a Monica

@ Peter, eso es lo que pensaba antes, pero encontré un artículo benetzkorn.com/2011/11/data-normalization-and-standardization/… >, parece que la normalización y la estandarización son cosas diferentes. Uno es hacer media 0 varianza 1, el otro es reescalar cada variable. Ahí es donde me confundo. Gracias por su respuesta.

user1946504

Para mí, la estandarización hace que la interpretación sea mucho más difícil.

Frank Harrell el

Para aclarar lo que dijo @alex, escalar sus datos significa los Ccambios óptimos en el factor de regularización . Por lo tanto, debe elegir Cdespués de estandarizar los datos.

akxlr

Respuestas:

La estandarización no es necesaria para la regresión logística. El objetivo principal de estandarizar las características es ayudar a la convergencia de la técnica utilizada para la optimización. Por ejemplo, si usa Newton-Raphson para maximizar la probabilidad, la estandarización de las características agiliza la convergencia. De lo contrario, puede ejecutar su regresión logística sin ningún tratamiento de estandarización en las características.

Aymen
fuente

Gracias por su respuesta. ¿Eso significa que se prefiere la estandarización? Como definitivamente queremos que el modelo converja y cuando tenemos millones de variables, es más fácil implementar la lógica de estandarización en la tubería de modelado que ajustar las variables una por una según sea necesario. ¿Estoy entendiendo bien?

user1946504

eso depende del propósito del análisis. El software moderno puede manejar datos bastante extremos sin estandarizar. Si hay una unidad natural para cada variable (años, euros, kg, etc.), dudaría en estandarizar, aunque me siento libre de cambiar la unidad de kg a, por ejemplo, toneladas o gramos, siempre que tenga más sentido.

Maarten Buis

@Aymen tiene razón, no necesita normalizar sus datos para la regresión logística. (Para obtener información más general, puede ser útil leer este hilo de CV: ¿ Cuándo debe centrar sus datos y cuándo debe estandarizar?; También puede observar que su transformación se denomina más comúnmente 'normalización', consulte: Cómo verificar un la distribución está normalizada? ) Permítanme abordar algunos otros puntos en la pregunta.

Vale la pena señalar aquí que en la regresión logística sus coeficientes indican el efecto de un cambio de una unidad en su variable predictiva sobre las probabilidades de registro de 'éxito'. El efecto de transformar una variable (como estandarizar o normalizar) es cambiar lo que llamamos una 'unidad' en el contexto de nuestro modelo. Sus datos de procesar variaron a través de cierto número de unidades en la métrica original. Después de que se normalizó, sus datos variaron de a . Es decir, un cambio de una unidad ahora significa pasar de la observación de menor valor a la observación de mayor valor. La cantidad de aumento en las probabilidades de éxito del registro no ha cambiado. A partir de estos hechos, sospecho que su primera variable ( ) abarcó $x$ $0$ $1$ store1 $133/37\approx 3.6$ unidades originales, y su segunda variable ( store2) abarcó solo unidades originales. $11/13\approx 0.85$

gung - Restablece a Monica
fuente

Si usa la regresión logística con LASSO o la regresión de cresta (como lo hace la clase Weka Logistic ), debería hacerlo. Como señalan Hastie, Tibshirani y Friedman (página 82 del pdf o en la página 63 del libro):

Las soluciones de cresta no son equivalentes bajo la escala de las entradas, por lo que normalmente se normalizan las entradas antes de resolver.

También este hilo lo hace.

eracle
fuente