¿Por qué nadie usa el clasificador Bayesiano multinomial Naive Bayes?

15

Entonces, en el modelado de texto (sin supervisión), la asignación de Dirichlet latente (LDA) es una versión bayesiana del análisis semántico latente probabilístico (PLSA). Esencialmente, LDA = PLSA + Dirichlet antes de sus parámetros. Tengo entendido que LDA es ahora el algoritmo de referencia y se implementa en varios paquetes, mientras que PLSA ya no debería usarse.

Pero en la categorización de texto (supervisado), podríamos hacer exactamente lo mismo para el clasificador multinomial Naive Bayes y poner un Dirichlet antes que los parámetros. Pero no creo haber visto a nadie hacer eso, y la versión de "estimación puntual" de Naive Bayes multinomial parece ser la versión implementada en la mayoría de los paquetes. ¿Hay alguna razón para eso?

yo habitual
fuente

Respuestas:

7

Aquí hay un buen artículo que aborda algunas de las deficiencias 'sistémicas' del clasificador Multinomial Naive Bayes (MNB). La idea es que puede aumentar el rendimiento de MNB a través de algunos ajustes. Y sí mencionan el uso de los previos de Dirichlet (uniformes).

En general, si está interesado en MNB y aún no ha leído este documento, le recomendaría encarecidamente que lo haga.

Yo tambien encontre una tesis de maestría adjunta de la misma persona / personas pero aún no la he leído. Puedes echarle un vistazo.

Zhubarb
fuente
El segundo enlace está inactivo : probablemente dspace.mit.edu/handle/1721.1/7074 es la versión actualizada
beldaz
5

Sospecho que la mayoría de las implementaciones de NB permiten la estimación de las probabilidades condicionales con la corrección de Laplace , que proporciona una solución MAP al clasificador Bayesiano NB (con un Dirichlet particular anterior). Como señala @Zhubarb (+1), los tratamientos bayesianos de los clasificadores NB ya se han derivado e implementado (vale la pena leer la tesis / documentos de Rennie). Sin embargo, la suposición de independencia de NB es casi siempre errónea, en cuyo caso hacer que el modelo dependa más de esa suposición (a través de un tratamiento bayesiano completo) podría no ser algo bueno.

Dikran Marsupial
fuente
0

No creo que lo que describas sea verdad. Los modelos probabilísticos para LDA y MNB son diferentes.

Una diferencia principal entre los dos es que en el modelo generativo para LDA, cuando se dibuja una palabra, primero se elige un tema para esa palabra, y luego se elige una palabra de la distribución de ese tema. Iow cada palabra en un documento se puede extraer de un tema diferente.

En el modelo generativo para MNB, al documento se le asigna una clase y todas las palabras en ese documento se extraen de la (misma) distribución para esa clase.

Jurgen
fuente