Tengo una cadena HTML y quiero saber si una palabra que proporciono es relevante en esa cadena.
La relevancia podría medirse según la frecuencia en el texto.
Un ejemplo para ilustrar mi problema:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
Ahora quiero probar algunas otras palabras:
bike repairs
dog poo
bike repairs
debe marcarse como relevante, mientras dog poo
que no debe marcarse como relevante.
Preguntas:
- ¿Como se puede hacer esto?
- Cómo filtrar palabras ambiguas como
in
oor
Gracias por tus ideas!
Supongo que es algo que Google hace para descubrir qué palabras clave son relevantes para un sitio web. Básicamente estoy tratando de reproducir sus clasificaciones en la página.
machine-learning
data-mining
Hendrik
fuente
fuente
Respuestas:
Ese es un resumen del proceso de recuperación de información
Introducción a la recuperación de información por Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze es un muy buen libro para iniciarse en IR.
O simplemente use Apache Solr para sacar todo lo que necesita de la caja (o Apache Lucene , que Solr usa, para construir su propia aplicación)
fuente
Recuerdo hace mucho tiempo jugar con Elastic Search (el sitio web es muy diferente ahora de lo que recuerdo). Aquí hay algunas cosas sobre el manejo del lenguaje humano: http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/languages.html
Tenga en cuenta que la búsqueda elástica es como una gran bazuca para su problema. Si su problema es muy simple, tal vez quiera ir desde cero. Hay algunos documentos en la web al respecto.
fuente