A mi entender (muy básico), Naive Bayes estima las probabilidades en función de las frecuencias de clase de cada característica en los datos de entrenamiento. Pero, ¿cómo calcula la frecuencia de las variables continuas? Y al hacer predicciones, ¿cómo clasifica una nueva observación que puede no tener los mismos valores que cualquier observación en el conjunto de entrenamiento? ¿Utiliza algún tipo de medida de distancia o encuentra el 1NN?
14
Respuestas:
Hay muchas formas de realizar la ingenua clasificación de Bayes (NBC). Una técnica común en NBC es recodificar los valores de la característica (variable) en cuartiles, de modo que a los valores inferiores al percentil 25 se les asigne 1, 25 a 50 a 2, 50 a 75 a 3 y mayor que el percentil 75 a 4. Por lo tanto, un solo objeto depositará un recuento en el contenedor Q1, Q2, Q3 o Q4. Los cálculos se realizan simplemente en estos contenedores categóricos. Los recuentos de contenedores (probabilidades) se basan entonces en el número de muestras cuyos valores variables caen dentro de un contenedor dado. Por ejemplo, si un conjunto de objetos tiene valores muy altos para la característica X1, esto dará como resultado muchos recuentos de bin en el bin para Q4 de X1. Por otro lado, si otro conjunto de objetos tiene valores bajos para la característica X1, esos objetos depositarán muchos recuentos en el contenedor para Q1 de la característica X1.
En realidad, no es un cálculo realmente inteligente, es más bien una forma de discretizar valores continuos para discretar, y la explotación a partir de entonces. El índice de Gini y la ganancia de información se pueden calcular fácilmente después de la discretización para determinar qué características son las más informativas, es decir, max (Gini).
Sin embargo, tenga en cuenta que hay muchas formas de realizar NBC, y muchas son bastante diferentes entre sí. Por lo tanto, solo necesita indicar cuál implementó en una charla o documento.
fuente
El corazón de Naive Bayes es la suposición heroica condicional:
De ninguna manera debe ser discreto. Por ejemplo, Gaussian Naive Bayes asume que cada categoría tiene una media y una varianza diferentes: densidad .x C p(x∣C=i)=ϕ(μi,σ2i)
Hay diferentes formas de estimar los parámetros, pero generalmente uno podría:
fuente