¿Cuál es la diferencia entre una codificación activa y dejar una codificación externa?

13

Estoy leyendo una presentación y recomienda no utilizar la codificación de omisión, pero está bien con una codificación activa. Pensé que ambos eran lo mismo. ¿Alguien puede describir cuáles son las diferencias entre ellos?

icm
fuente
1
No está claro (solo por su pregunta) qué es incluso dejar fuera. Debe editar esto para dar un puntero y explicar brevemente su comprensión de los dos, y por qué cree que son iguales.
Sean Owen el

Respuestas:

15

Probablemente estén usando la "codificación de dejar uno afuera" para referirse a la estrategia de Owen Zhang.

De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

La columna codificada no es una variable ficticia convencional, sino que es la respuesta media en todas las filas para este nivel categórico, excluyendo la fila misma. Esto le brinda la ventaja de tener una representación de una columna de lo categórico mientras evita la fuga de respuesta directa

Esta imagen expresa bien la idea. ingrese la descripción de la imagen aquí

Dex Groves
fuente
Su explicación es mejor que la de wacax en el enlace referido, gracias
Allan Ruin
Hola @Dex Groves, entonces la codificación leave_one_out para la prueba es siempre .5?
user7117436
3
¡Hola! Como se ve en la imagen, este ejemplo particular se relaciona con el problema de clasificación. ¿Alguien tiene experiencia con la codificación LOO dentro del problema de regresión? La pregunta principal es cómo agregar la variable objetivo. Ahora estoy haciendo experimentos y obtengo un sobreajuste enorme con mean (y).
Alexey Trofimov
1
para un problema de agrupamiento (sin supervisión), ¿es posible usar este tipo de codificación?
enneppi
@AlexeyTrofimov: pruebe una agregación con una varianza menor. Comenzaría con un binning diferente (como 1K, 2K, 2M, .. para valores grandes y int, o algún redondeo a un decimal para los valores y float) => mean (bin_f (y))
mork