Si tengo un conjunto de datos de entrenamiento y entreno un Clasificador Naive Bayes en él y tengo un valor de atributo que tiene probabilidad cero. ¿Cómo manejo esto si luego quiero predecir la clasificación en los nuevos datos? El problema es que si hay un cero en el cálculo, todo el producto se convierte en cero, sin importar cuántos otros valores obtuve, lo que tal vez encuentre otra solución.
Ejemplo:
Todo el producto se convierte en porque en los datos de entrenamiento el atributo TimeZone US siempre es Sí en nuestro pequeño conjunto de datos de entrenamiento. ¿Cómo puedo manejar esto? ¿Debo usar un conjunto más grande de datos de entrenamiento o hay otra posibilidad de superar este problema?
classification
naive-bayes-classifier
fragante
fuente
fuente
Respuestas:
Un enfoque para superar este 'problema de frecuencia cero' en un entorno bayesiano es agregar uno al recuento para cada combinación de valor-clase de atributo cuando no se produce un valor de atributo con cada valor de clase. Entonces, por ejemplo, digamos que sus datos de entrenamiento se veían así:
Luego, debe agregar uno a cada valor en esta tabla cuando lo esté usando para calcular probabilidades:
fuente