Tengo este proyecto paralelo en el que rastreo los sitios web de noticias locales en mi país y quiero crear un índice de criminalidad e índice de inestabilidad política. Ya he cubierto la parte de recuperación de información del proyecto. Mi plan es hacer:
- Extracción de temas sin supervisión.
- Detección de casi duplicados.
- Clasificación supervisada y nivel de incidentes (crimen / político - alto / medio / bajo).
Usaré python y sklearn y ya he investigado los algoritmos que puedo usar para esas tareas. Creo que 2. podría darme un factor de relevancia de una historia: cuantos más periódicos publiquen sobre una historia o tema, más relevante será para ese día.
Mi próximo paso es crear el índice mensual, semanal y diario (en todo el país y por ciudades) en función de las características que tengo, y estoy un poco perdido aquí ya que la "sensibilidad a la inestabilidad" podría aumentar con el tiempo. Quiero decir, el índice del mayor incidente de inestabilidad del año pasado podría ser menor que el índice de este año. También si usar escala fija 0-100 o no.
Más tarde, me gustaría poder predecir incidentes basados en esto, por ejemplo, si la sucesión de eventos en las últimas semanas está conduciendo a un incidente mayor. Pero por ahora estaré contento de hacer funcionar la clasificación y construir el modelo de índice.
Agradecería cualquier puntero a un documento, lecturas relevantes o pensamientos. Gracias.
PD: Perdón si la pregunta no pertenece aquí.
ACTUALIZACIÓN : Todavía no "lo logré", pero recientemente hubo noticias sobre un grupo de científicos que están trabajando en un sistema para predecir los eventos utilizando archivos de noticias y publicaron un documento relevante Mining the Web para predecir eventos futuros (PDF )
fuente
Respuestas:
Considere variaciones en la puntuación GINI.
Está normalizado y su salida varía de 0 a 1.
EDITAR:
Por qué GINI es "genial" o al menos potencialmente apropiado:
Es una medida de desigualdad o inequidad. Se utiliza como una medida sin escala para caracterizar la heterogeneidad de las redes sin escala, incluidas las redes infinitas y aleatorias. Es útil para construir árboles CART porque es la medida del poder de división de una división de datos en particular.
Por su alcance:
Porque está normalizado:
Referencias
fuente