Estoy tratando de encontrar un enfoque para detectar anuncios fraudulentos en mi sitio web. Creo que el problema tiene mucho en común con la detección de correo electrónico no deseado (para el cual un clasificador bayesiano ingenuo es una solución común) ya que muchas de las señales que indican una estafa se encontrarán en el texto del anuncio.
Sin embargo, hay ciertas otras informaciones que pueden ser buenos indicadores de estafa, pero no estoy seguro de si un clasificador de Bayes podría usarlas, porque involucran valores numéricos (con valores sospechosos en los extremos del rango) que simples valores binarios correspondientes a la presencia o ausencia de una palabra en el texto.
Por ejemplo, muchos anuncios de estafa tienen el precio del artículo muy bajo (para atraer muchas vistas), por lo que me gustaría que un precio más bajo de lo normal sea un fuerte indicador de que el anuncio puede ser una estafa.
¿Bayes sigue siendo una buena opción para mis necesidades? Si no, ¿podría recomendarme un enfoque diferente?
fuente
Los ingenuos Bayes ciertamente pueden trabajar con atributos numéricos así como con atributos discretos (las preocupaciones del módulo sobre la adecuación de la distribución asumida como se menciona en otras respuestas). Sin embargo, debe considerar si realmente desea usar Naive Bayes, ya que la metodología no discriminatoria se descompondrá cada vez más a medida que combine datos de varias fuentes, con correlaciones potencialmente fuertes.
Si desea conservar una interpretación probabilística, considere la regresión logística, que es un análogo exacto de Naive Bayes con un objetivo discriminatorio en lugar de generativo (vea este documento, por ejemplo: Regresión logística contra Naive Bayes . Puede encontrar varias implementaciones de la misma: I como Mallet , si puede usar java (accesible como una herramienta de línea de comandos o una API).
Si no es necesaria una interpretación probabilística estricta, puede usar un SVM. Hay muchas implementaciones de esto, pero el estándar de facto (con una variante disponible en la mayoría de los idiomas) es LibSVM .
fuente
Puede usar valores numéricos con bastante facilidad. En el término P (Característica | estafa = Sí), podría poner una distribución gaussiana o cualquier otra distribución empírica a partir de los datos de entrenamiento (por ejemplo, ordenar los datos, crear una función que devuelva el percentil del valor numérico de entrada dado). Aquí hay un escrito que describe que
fuente