Estoy leyendo una presentación y recomienda no utilizar la codificación de omisión, pero está bien con una codificación activa. Pensé que ambos eran lo mismo. ¿Alguien puede describir cuáles son las diferencias entre ellos?
13
Estoy leyendo una presentación y recomienda no utilizar la codificación de omisión, pero está bien con una codificación activa. Pensé que ambos eran lo mismo. ¿Alguien puede describir cuáles son las diferencias entre ellos?
Respuestas:
Probablemente estén usando la "codificación de dejar uno afuera" para referirse a la estrategia de Owen Zhang.
De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
La columna codificada no es una variable ficticia convencional, sino que es la respuesta media en todas las filas para este nivel categórico, excluyendo la fila misma. Esto le brinda la ventaja de tener una representación de una columna de lo categórico mientras evita la fuga de respuesta directa
Esta imagen expresa bien la idea.
fuente