¿Cómo manejar un factor cero en el cálculo del clasificador Naive Bayes?

Si tengo un conjunto de datos de entrenamiento y entreno un Clasificador Naive Bayes en él y tengo un valor de atributo que tiene probabilidad cero. ¿Cómo manejo esto si luego quiero predecir la clasificación en los nuevos datos? El problema es que si hay un cero en el cálculo, todo el producto se convierte en cero, sin importar cuántos otros valores obtuve, lo que tal vez encuentre otra solución.

Ejemplo:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

Todo el producto se convierte en porque en los datos de entrenamiento el atributo TimeZone US siempre es Sí en nuestro pequeño conjunto de datos de entrenamiento. ¿Cómo puedo manejar esto? ¿Debo usar un conjunto más grande de datos de entrenamiento o hay otra posibilidad de superar este problema? $0$

classification naive-bayes-classifier fragante
fuente

Si obtiene un valor de atributo discreto, su probabilidad no puede ser cero, por definición.

Paul

por qué agregamos un problema de frecuencia 1 en 0 cuál es la lógica detrás de esto por qué no agregamos otro número.

Aftab Hussaiin

Respuestas:

Un enfoque para superar este 'problema de frecuencia cero' en un entorno bayesiano es agregar uno al recuento para cada combinación de valor-clase de atributo cuando no se produce un valor de atributo con cada valor de clase. Entonces, por ejemplo, digamos que sus datos de entrenamiento se veían así:

\begin{array}{ccc} Correo no deseado = y mi s & Correo no deseado = norte o \\ Zona horaria = U S & 10 & 5 5 \\ Zona horaria = mi U & 0 0 & 0 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Luego, debe agregar uno a cada valor en esta tabla cuando lo esté usando para calcular probabilidades:

\begin{array}{ccc} Correo no deseado = y mi s & Correo no deseado = norte o \\ Zona horaria = U S & 11 & 6 6 \\ Zona horaria = mi U & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

Timleathart
fuente

En efecto. Tenga en cuenta que en algún momento puede agregar valores distintos de uno. Para más detalles ver en.wikipedia.org/wiki/Additive_smoothing

DaL