Tengo un conjunto de datos que incluye un conjunto de clientes en diferentes ciudades de California, la hora de llamar a cada cliente y el estado de la llamada (Verdadero si el cliente responde la llamada y Falso si el cliente no responde).
Tengo que encontrar un momento adecuado para llamar a futuros clientes, de modo que la probabilidad de responder la llamada sea alta. Entonces, ¿cuál es la mejor estrategia para este problema? ¿Debería considerarlo como un problema de clasificación que las horas (0,1,2, ... 23) son las clases? ¿O debería considerarlo como una tarea de regresión que el tiempo es una variable continua? ¿Cómo puedo asegurarme de que la probabilidad de responder la llamada sea alta?
Cualquier ayuda sería apreciada. También sería genial si me refieres a problemas similares.
A continuación se muestra una instantánea de los datos.
fuente
Respuestas:
En realidad, puede encontrar problemas si modela esto como un problema de regresión sin una transformación adecuada. Por ejemplo, sabemos que la mayoría de las llamadas probablemente se responden durante el día y menos durante la noche y temprano en la mañana. Una regresión lineal tendría dificultades porque la relación es probablemente curvilínea, no lineal. Por la misma razón, tratar esto como una tarea de clasificación con regresión logística también sería problemático.
Según lo sugerido por otros encuestados, será útil reclasificar sus datos en períodos de tiempo, y le sugiero que primero pruebe algo como un árbol de decisión o un bosque aleatorio.
Dicho todo esto, este podría ser un caso para estadísticas descriptivas simples. Si traza la proporción de llamadas contestadas por hora del día (dividida por ciudad o cualquier otro grupo demográfico), ¿hay un mejor momento claro ? Si es así, ¿por qué complicar las cosas con un modelo?
fuente
Puedes probar lo siguiente:
Además, recomiendo agregar características adicionales como ocupación, género, etc., ya que las características enumeradas en la tabla (ciudad, etc.) son demasiado ambiguas y no brindan mucha información para diferenciar entre los clientes.
EDITADO según la sugerencia en los comentarios:
Al usar el modelo, cada cliente potencial se clasificaría como prefers_morning = yes / no, prefers_noon = yes / no y prefers_evening = yes / no. Según la hora del día, por ejemplo, en la mañana, el agente del centro de llamadas (o software) podría recoger y llamar a los clientes potenciales clasificados en el conjunto de preferencias de la mañana. Cuando es mediodía, el software de la llamada se recoge de la lista preferida de mediodía, y así sucesivamente.
fuente
Usaría una regresión logística: necesitará muestras donde no se recuperaron. Luego trataría la hora como un regresor ficticio estacional (23 horas como variables ficticias y dejaría que una fluya hacia la intersección).
Si no lo trata como un regresor ficticio estacional, tendrá que realizar algún tipo de transformación, porque la relación no será lineal.
Alguien sugirió previamente sustituir a media tarde, etc. como una variable categórica. Esa es una mala idea porque tienes los detalles y los estás perdiendo allí. Eso tendría un efecto similar a utilizar un binning óptimo para hacer que la relación sea lineal, pero todavía no creo que funcione. Prueba los regresores ficticios de temporada.
fuente