Al estudiar los métodos de minería de datos, he llegado a comprender que hay dos categorías principales:
Métodos predictivos:
- Clasificación
- Regresión
Métodos descriptivos:
- Agrupación
- reglas de asociación
Como quiero predecir la disponibilidad del usuario (salida) en función de la ubicación, la actividad, el nivel de batería (entrada para el modelo de entrenamiento), creo que es obvio que elegiría "Métodos predictivos", pero ahora parece que no puedo elegir entre clasificación y regresión. Por lo que entiendo hasta aquí, la clasificación puede resolver mi problema, porque la salida está "disponible" o "no disponible".
¿Puede la clasificación proporcionarme la probabilidad (o probabilidad) de que el usuario esté disponible o no?
Como en la salida, no solo sería 0 (no disponible) o 1 (disponible), sino que sería algo así como:
- disponible
- no disponible
¿Este problema también se puede resolver mediante regresión?
Entiendo que la regresión se usa para salida continua (no solo 0 o 1 salidas), pero la salida no puede ser el valor continuo de la disponibilidad del usuario (como la salida es significa que el usuario está disponible en un , implícitamente, el usuario está no disponible).
Puede usar la clasificación ingenua de bayes y calcular las probabilidades posteriores usando creencias previas o la regresión logística se puede usar con la función sigmoidea.
fuente