Aprendí que, para crear un modelo de regresión, tenemos que ocuparnos de las variables categóricas convirtiéndolas en variables ficticias. Como ejemplo, si, en nuestro conjunto de datos, hay una variable como la ubicación:
Location
----------
Californian
NY
Florida
Tenemos que convertirlos como:
1 0 0
0 1 0
0 0 1
Sin embargo, se sugirió que tenemos que descartar una variable ficticia, sin importar cuántas variables ficticias hay.
¿Por qué necesitamos descartar una variable ficticia?
machine-learning
regression
categorical-data
Mithun Sarker Shuvro
fuente
fuente
Respuestas:
En pocas palabras, porque un nivel de su característica categórica (aquí ubicación) se convierte en el grupo de referencia durante la codificación ficticia para la regresión y es redundante. Estoy citando el formulario aquí "Una variable categórica de K categorías, o niveles, generalmente entra en una regresión como una secuencia de variables ficticias K-1. Esto equivale a una hipótesis lineal sobre las medias de nivel".
Esto ya se discutió en esta muy buena respuesta stats.stackexchange .
Yandex me dijo que hay un curso avanzado en Coursera que cubre este tema con más detalles si aún tiene dudas, consulte aquí . Tenga en cuenta que siempre puede auditar el contenido del curso de forma gratuita. ;-)
Otra buena publicación si desea una explicación exhaustiva con muchos ejemplos con perspectiva estadística y que no se limite solo a la codificación ficticia, consulte esto en UCLA (en R)
Tenga en cuenta que si está usando
pandas.get_dummies
, hay un parámetro, es decir,drop_first
para obtener k-1 dummies de k niveles categóricos eliminando el primer nivel. Tenga en cuentadefault = False
que significa que la referencia no se descarta y que se crean k dummies a partir de k niveles categóricos.fuente
No necesita bajar un nivel, dependiendo de su caso de uso.
Ver ¿
En qué casos no deberíamos descartar el primer nivel de variables categóricas?
y la pregunta mucho más general
En el aprendizaje supervisado, ¿por qué es malo tener características correlacionadas?
fuente