Preguntas etiquetadas con text-mining

Se refiere a un subconjunto de minería de datos relacionado con la extracción de información de datos en forma de texto mediante el reconocimiento de patrones. El objetivo de la minería de texto es a menudo clasificar un documento dado en una de varias categorías de forma automática, y mejorar este rendimiento dinámicamente, convirtiéndolo en un ejemplo de aprendizaje automático. Un ejemplo de este tipo de minería de texto son los filtros de spam utilizados para el correo electrónico.

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

13
Escalado de datos de forma ética y rentable

Pocas cosas en la vida me dan placer, como extraer datos estructurados y no estructurados de Internet y utilizarlos en mis modelos. Por ejemplo, el Data Science Toolkit (o RDSTKpara los programadores de R) me permite extraer muchos datos buenos basados ​​en la ubicación utilizando IP o...

12
Algoritmo de coincidencia de preferencias

Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de...

11
Uso de la agrupación en el procesamiento de texto

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras...