Alisado en el modelo Naive Bayes

Un predictor de Naive Bayes hace sus predicciones usando esta fórmula:

PAG (Y = y El | X = X) = α PAG (Y = y) \prod_{yo} PAG (X_{yo} = X_{yo} El | Y = y)

$P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y)$

donde es un factor de normalización. Esto requiere estimar los parámetros partir de los datos. Si hacemos esto con -smoothing, obtenemos la estimación $\alpha$ $P(X_i=x_i|Y=y)$ $k$

\hat{PAG} (X_{yo} = X_{yo} El | Y = y) = \frac{# # {X_{yo} = X_{yo}, Y = y} + k}{# # {Y = y} + {norte}_{yo} k}

$\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik}$

donde hay valores posibles para . Estoy bien con esto. Sin embargo, para lo anterior, tenemos $n_i$ $X_i$

\hat{PAG} (Y = y) = \frac{# # {Y = y}}{norte}

$\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N}$

donde hay ejemplos en el conjunto de datos. ¿Por qué no suavizamos también lo anterior? O más bien, ¿ suavizamos lo anterior? Si es así, ¿qué parámetro de suavizado elegimos? Parece un poco tonto elegir también , ya que estamos haciendo un cálculo diferente. ¿Hay consenso? ¿O no importa demasiado? $N$ $k$

machine-learning probability-theory statistics Chris Taylor
fuente

Respuestas:

La razón típica para suavizar en primer lugar es manejar casos donde . Si esto no se hiciera, siempre obtendríamos siempre que este fuera el caso. $\#\{X_i = x_i | Y = y\} = 0$ $P(Y=y|X=x) = 0$

Esto sucede cuando, por ejemplo, al clasificar documentos de texto, encuentra una palabra que no estaba en sus datos de entrenamiento, o simplemente no apareció en alguna clase en particular.

Por otro lado, en el caso de la probabilidad previa de clase, , esta situación no debería ocurrir. Si lo hiciera, significaría que está tratando de asignar objetos a clases que ni siquiera aparecían en los datos de entrenamiento. $P(Y = y)$

Además, nunca he encontrado el término -smoothing. El suavizado de Laplace o aditivo es mucho más común. $k$

Alto
fuente

La razón para suavizar en general es evitar sobreajustar los datos. El caso en que el recuento de alguna clase es cero es solo un caso particular de sobreajuste (que resulta ser particularmente malo). Es posible que desee suavizar las probabilidades cuando se observa cada clase. Supongo que me molesta la aparente asimetría: el suavizado de Laplace corresponde a suponer que hay observaciones adicionales en su conjunto de datos. ¿Por qué ignorarías esas observaciones al ajustar el anterior?

Chris Taylor

P (Y = y)

$P(Y = y)$

P (X_{i} = x_{i} | Y = y)

$P(X_i = x_i | Y = y)$

"esta situación no debería ocurrir. Si lo hiciera, significaría que está tratando de asignar objetos a clases que ni siquiera aparecían en los datos de entrenamiento". Uhh ... ¿cómo asignaría un clasificador un objeto a una clase que nunca había visto antes (es decir, no está en los datos de entrenamiento)?

Jemenake

@Jemenake El problema normalmente se conoce como aprendizaje de tiro cero, por ejemplo, vea Aprendizaje de tiro cero con códigos de salida semánticos

alto

cuando entrenamos el modelo usando el conjunto de datos de entrenamiento, podríamos construir un vocabulario usando las palabras que aparecen en el conjunto de datos de entrenamiento, entonces ¿por qué no simplemente eliminar palabras nuevas que no están en el vocabulario cuando hacemos predicciones en el conjunto de pruebas?

aguacate