Ciencia de los datos

12
Instancias vs. núcleos cuando se usa EC2

Trabajando en lo que a menudo se podría llamar proyectos de "datos medios", he podido paralelizar mi código (principalmente para modelar y predecir en Python) en un solo sistema en cualquier lugar de 4 a 32 núcleos. Ahora estoy buscando escalar a los clústeres en EC2 (probablemente con StarCluster...

12
Algoritmo de coincidencia de preferencias

Hay un proyecto paralelo en el que estoy trabajando en el que necesito estructurar una solución al siguiente problema. Tengo dos grupos de personas (clientes). El grupo Atiene la intención de comprar y el grupo Btiene la intención de vender un producto determinado X. El producto tiene una serie de...

12
Datos de sentimiento para Emoji

Para experimentar, nos gustaría usar el Emoji incorporado en muchos Tweets como datos de verdad / entrenamiento básicos para un simple análisis cuantitativo de opiniones. Los tweets generalmente no están estructurados para que la PNL funcione bien. De todos modos, hay 722 Emoji en Unicode 6.0, y...

12
Ayuda sobre NER en NLTK

He estado trabajando en NLTK por un tiempo usando Python. El problema al que me enfrento es que no hay ayuda disponible para entrenar NER en NLTK con mis datos personalizados. Han usado MaxEnt y lo han entrenado en ACE corpus. He buscado mucho en la web pero no pude encontrar ninguna manera de...