Soy consciente del hecho de que las variables categóricas con k niveles deben codificarse con k-1 en la codificación ficticia (de manera similar para las variables categóricas de valores múltiples). Me preguntaba cuánto problema tiene una codificación de un punto (es decir, usando k variables en lugar de) sobre la codificación ficticia para diferentes métodos de regresión, principalmente regresión lineal, regresión lineal penalizada (Lasso, Ridge, ElasticNet), basada en árboles (bosques aleatorios , máquinas de aumento de gradiente).
Sé que en la regresión lineal, ocurren problemas de multicolinealidad (aunque en la práctica he ajustado la regresión lineal usando OHE sin ningún problema).
Sin embargo, ¿es necesario utilizar la codificación ficticia en todos ellos y cuán incorrectos serían los resultados si se utiliza la codificación de un solo uso?
Me centro en la predicción en modelos de regresión con múltiples variables categóricas (de alta cardinalidad), por lo que no me interesan los intervalos de confianza.
fuente
Respuestas:
El problema con la representación de una variable categórica que tiene niveles con k variables en regresión es que, si el modelo también tiene un término constante, entonces los términos serán linealmente dependientes y, por lo tanto, el modelo no será identificable. Por ejemplo, si el modelo es y , entonces cualquier opción del vector de parámetros es indistinguible de . Entonces, aunque el software puede estar dispuesto a darle estimaciones para estos parámetros, no están determinados de manera única y, por lo tanto, probablemente no serán muy útiles.k k X 2 = 1 - X 1 ( β 0 , β 1 , β 2 ) ( β 0 + β 2 ,μ = a0 0+ a1X1+ a2X2 X2= 1 - X1 ( β0 0, β1, β2) ( β0 0+ β2,β1- β2,0 )
La penalización hará que el modelo sea identificable, pero la codificación redundante seguirá afectando los valores de los parámetros de manera extraña, dado lo anterior.
El efecto de una codificación redundante en un árbol de decisión (o conjunto de árboles) probablemente sobrepondrá la característica en cuestión en relación con otras, ya que está representada con una variable redundante adicional y, por lo tanto, se elegirá con más frecuencia de lo que sería de otra manera. divisiones
fuente
Kodiologist tuvo una gran respuesta (+1). Los métodos de codificación de codificación única frente a codificación ficticia son los mismos, en términos de que la matriz de diseño está en el mismo espacio, con bases diferentes. (aunque la codificación one-hot tiene más columnas)
Por lo tanto, si se está centrando en la precisión en lugar de la interpretabilidad. Dos métodos de codificación no hacen ninguna diferencia.
fuente
Siento que la mejor respuesta a esta pregunta está enterrado en los comentarios por @MatthewDrury, que establece que no es una diferencia y que se debe utilizar la columna aparentemente redundante en cualquier enfoque regularizada. El razonamiento de @ MatthewDrury es
Creo que tiene razón.
fuente
k
niveles o conk-1
niveles según la situación. Además de su declaración (regularizada / no regularizada), ¿habría pautas sobre qué hacer en todos los casos?