Estoy trabajando en un problema de clasificación de texto usando Random Forest como clasificadores, y un enfoque de bolsa de palabras. Estoy usando la implementación básica de Random Forests (el presente en scikit), que crea una condición binaria en una sola variable en cada división. Dado esto, ¿hay alguna diferencia entre usar características simples de tf (frecuencia de término)? donde cada palabra tiene un peso asociado que representa el número de apariciones en el documento, o tf-idf (término frecuencia * frecuencia inversa del documento), donde el término frecuencia también se multiplica por un valor que representa la relación entre el número total de documentos y el número de documentos que contienen la palabra)?
En mi opinión, no debería haber ninguna diferencia entre estos dos enfoques, porque la única diferencia es un factor de escala en cada característica, pero dado que la división se realiza a nivel de características individuales, esto no debería hacer una diferencia.
¿Estoy en lo cierto en mi razonamiento?
Respuestas:
Los árboles de decisión (y, por lo tanto, los bosques aleatorios) son insensibles a las transformaciones monótonas de las características de entrada.
Dado que multiplicar por el mismo factor es una transformación monótona, supongo que para los bosques aleatorios no hay diferencia.
Sin embargo, eventualmente puede considerar el uso de otros clasificadores que no tengan esta propiedad, por lo que puede tener sentido usar todo el TF * IDF.
fuente