¿Qué dicen los gráficos de elevación y ganancia en el contexto de un modelo de rotación de empleados?

8

Por lo tanto, estoy tratando de comprender mejor los gráficos de elevación y ganancia según se aplica a mi modelo de rotación de empleados (es decir, CHAID utilizado en SPSS Modeler). Para mis datos, esto significa predecir el número de personas que abandonan voluntariamente la empresa.

He revisado las referencias a continuación y tengo los conceptos básicos sobre la interpretación: lo que se traza en los ejes xey, y la curva ideal que está buscando. Incluso practiqué la construcción de mis propias tablas de ganancias y levantamientos en Excel.

Pero todos los ejemplos que he visto hasta ahora son para una campaña de correo directo. Ahora quiero saber qué significa esto para mis datos. ¿Significa simplemente, en el caso del gráfico de ganancias, que si muestreo el 10% superior de mis datos, puedo esperar el 40% de los términos frente al muestreo del 60% de los datos que obtienen el 80% de los términos? (suponga que el 40% y el 60% son los valores). Si es así, ¿qué importancia debo quitar de eso porque realmente no lo entiendo en el contexto de mi modelo de rotación?

Referencias

levantar-medir-en-minería de datos

¿Qué es un gráfico de elevación?

http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html

daniellopez46
fuente
1
¿Por qué estás usando CHAID? A mi entender, es un viejo método de clasificación de árboles que precede a CART y carece de muchas de las buenas propiedades estadísticas de CART.
Michael R. Chernick
(+1) por demostrar esfuerzo de investigación
steffen
@ Michael: Estoy de acuerdo, es un método más antiguo. Pero estoy en una posición en la que estoy recogiendo las piezas de lo que un analista anterior estaba usando desde que dejó la compañía. Por ahora solo estoy retomando desde donde lo dejó. Eventualmente quiero ramificar el uso de otros métodos e incluso conjuntos. @ Steffen: gracias.
daniellopez46

Respuestas:

8

A veces es útil imaginar el objetivo de dicho análisis y lo que una empresa puede hacer sin uno. Supongamos que la empresa a la que pertenecen los datos de rotación desea hacer algo en contra de una tasa de rotación (posiblemente) alta. Me imagino dos acciones posibles

  1. Averiguar lo que está impulsando a la gente a salir y solucionar este problema (no hay suficiente cuidado de la salud? N teamspirit?) , En general,
  2. Encuentre a los empleados que están considerando irse y hable con ellos, descubriendo qué los impulsa a solucionar los problemas específicamente para ellos.

Entonces, por qué es importante ?

Los gráficos de elevación son principalmente importantes para el segundo caso de uso. ¿Imagina lo que puede hacer una empresa cuando ha decidido invertir dinero hablando con los empleados 1 a 1 pero no tiene un modelo? La única opción es hablar con todos o con todos en una muestra aleatoria de un tamaño fijo. Hablar con todos, a pesar de la ganancia de identificar a todos los posibles partidarios, es demasiado costoso. Pero cuando solo se selecciona una muestra aleatoria para hablar, solo se identifica una fracción de todos los posibles partícipes mientras se sigue gastando mucho dinero. En ambos casos, la relación costo-por-licencia-prevención es bastante alta.

Pero cuando existe un buen modelo, la compañía puede decidir hablar solo con aquellos que tienen la mayor probabilidad de irse (aquellos con los puntajes más altos de acuerdo con el modelo), de modo que se identifique a más posibles partícipes, optimizando así el costo por -prevención-abandono .

Eche un vistazo nuevamente a las dos primeras tablas aquí: http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html . Digamos que "clientes" = "empleados" y "encuestados positivos" = "posibles partícipes" (ver datos a continuación).

Si la compañía decide que solo puede gastar suficiente dinero para hablar con 10000 empleados, identificará

  • 2000010000010000=2000 separadores se identifican sin un modelo
  • 60001000010000=6000 separadores se identifican con el modelo (seleccionando solo los mejores 10000 según la puntuación del modelo)

lo que significa

  • una mejora del factor que se representa como punto (10%, 3) en el gráfico de elevación .60002000=3
  • Se han identificado 6000 de 20000 total de partidores, es decir, 30%, que se representa como (10%, 30%) en la tabla de ganancias . La línea de base aquí es solo del 10%, porque al tomar una muestra aleatoria de 10000 empleados, solo se identifica de todos los posibles partidores .10000(20000/100000)20000=10000100000=0.1

El eje x en ambos casos muestra el porcentaje de empleados contactados, en este ejemplo específico 10%.

Apéndice

Los datos utilizados para hacer esta pregunta independiente de la pudrición del enlace.

Tasa global

Total de empleados contactados identificados
100000 20000

Efectividad del modelo cuando se contacta a los empleados en trozos de 10000

Total de empleados contactados identificados
10000 6000
20000 10000
30000 13000
40000 15800
50000 17000
60000 18000
70000 18800
80000 19400
90000 19800
100000 20000
steffen
fuente
el inglés no es mi lengua materna y no me gusta usar "egresados". ¿Cuál es el término correcto aquí?
steffen
Steffen, "egresados" es comprensible, pero los "partidarios" podrían ser más convencionales. El uso de "atrapado", sin embargo, es un poco discordante, porque esta palabra tiene connotaciones de alguien arrestado por malversación: un criminal es "atrapado" pero el sujeto de un estudio está "identificado".
whuber
1
Steffen, el término general que se usa para describir el modelado de abandono en la gestión de relaciones con los clientes / análisis de marketing es "Attriter". Esto se relaciona con la noción de desgaste. Sospecharía que ese término es apropiado en el mundo del análisis de recursos humanos, pero no puedo decirlo con certeza.
B_Miner
1
@Whuber, sí, es un término especializado. Uno también se refiere al desgaste "duro" y "suave". La primera suele ser una opción proactiva por parte del cliente y la segunda es menos una opción que la empresa podría influir / intervenir para corregir. Por ejemplo, algunos clientes son débiles porque se mudan, mueren o son eliminados por la compañía por falta de pago. En algunos modelos de abandono utilizando el análisis de supervivencia (típicamente tiempo discreto), los riesgos competitivos se utilizan para diferenciar estas causas de desgaste.
B_Miner
1
A veces, el desgaste suave también se usa para describir una relación que permanece técnicamente "activa" pero que el cliente deja de comprometerse (por ejemplo, todavía tiene una cuenta de tarjeta de crédito pero no ha cobrado nada en un período determinado).
B_Miner