¿Por qué el clasificador de regresión de cresta funciona bastante bien para la clasificación de texto?

18

Durante un experimento para la clasificación de texto, encontré que el clasificador de cresta genera resultados que constantemente superan las pruebas entre los clasificadores que se mencionan y aplican con mayor frecuencia para las tareas de minería de texto, como SVM, NB, kNN, etc. Sin embargo, no he elaborado en la optimización de cada clasificador en esta tarea de clasificación de texto específica, excepto algunos ajustes simples sobre los parámetros.

Tal resultado también se mencionó Dikran Marsupial .

No proviene de antecedentes estadísticos, después de leer algunos materiales en línea, todavía no puedo entender las principales razones de esto. ¿Alguien podría proporcionar algunas ideas sobre tal resultado?

Escama
fuente

Respuestas:

16

Los problemas de clasificación de texto tienden a ser de dimensiones bastante altas (muchas características), y es probable que los problemas de dimensiones altas sean separables linealmente (ya que puede separar cualquier punto d + 1 en un espacio d-dimensional con un clasificador lineal, independientemente de cómo los puntos están etiquetados). Por lo tanto, es probable que los clasificadores lineales, ya sean regresión de crestas o SVM con un núcleo lineal, funcionen bien. En ambos casos, el parámetro de cresta o C para el SVM (como tdc menciona +1) controla la complejidad del clasificador y ayuda a evitar el sobreajuste al separar los patrones de cada clase por márgenes grandes (es decir, la superficie de decisión pasa por el medio de la brecha entre las dos colecciones de puntos). Sin embargo, para obtener un buen rendimiento, los parámetros de cresta / regularización deben ajustarse correctamente (utilizo la validación cruzada de dejar uno fuera, ya que es barato).

Sin embargo, la razón por la que la regresión de crestas funciona bien es que los métodos no lineales son demasiado potentes y es difícil evitar un ajuste excesivo. Puede haber un clasificador no lineal que ofrezca un mejor rendimiento de generalización que el mejor modelo lineal, pero es demasiado difícil estimar esos parámetros utilizando la muestra finita de datos de entrenamiento que tenemos. En la práctica, cuanto más simple es el modelo, menos problemas tenemos para estimar los parámetros, por lo que hay menos tendencia a un ajuste excesivo, por lo que obtenemos mejores resultados en la práctica.

Otro problema es la selección de características, la regresión de crestas evita el sobreajuste al regularizar los pesos para mantenerlos pequeños, y la selección del modelo es sencilla, ya que solo tiene que elegir el valor de un único parámetro de regresión. Si intenta evitar el sobreajuste eligiendo el conjunto óptimo de características, la selección del modelo se vuelve difícil ya que hay un grado de libertad (más o menos) para cada característica, lo que hace posible que se ajuste demasiado el criterio de selección de características y usted terminar con un conjunto de características que es óptimo para esta muestra particular de datos, pero que ofrece un rendimiento deficiente de generalización. Por lo tanto, no realizar la selección de funciones y usar la regularización a menudo puede proporcionar un mejor rendimiento predictivo.

A menudo uso Bagging (formar un comité de modelos entrenados en muestras de arranque del conjunto de entrenamiento) con modelos de regresión de cresta, que a menudo proporciona una mejora en el rendimiento, y como todos los modelos son lineales, puede combinarlos para formar un solo modelo lineal. , por lo que no hay un rendimiento afectado en la operación.

Dikran Marsupial
fuente
d1re
Normalmente se supone que los puntos están en "posición general", de modo que (por ejemplo) no se encuentran en una línea recta, en cuyo caso en un espacio de 2-d puede separar 3 puntos. Si todos los puntos se encuentran en línea recta, entonces realmente habitan en un subespacio 1-d incrustado en un espacio 2-d.
Dikran Marsupial
En wikipedia existe la declaración "dado que el método promedia varios predictores, no es útil para mejorar los modelos lineales" aunque no estoy seguro de por qué esto debería ser cierto.
tdc
No veo por qué eso debería ser cierto tampoco. Sospecho que el problema de que un modelo lineal empaquetado puede representarse exactamente por un solo modelo lineal, sin embargo, el problema es la estimación de los parámetros del modelo único, no la forma del modelo. He descubierto que el embolsado mejora la generalización, pero la ganancia es generalmente pequeña a menos que tenga muchas más características que las observaciones (de modo que la estimación del modelo es inestable y un pequeño cambio en los datos produce un gran cambio en el modelo).
Dikran Marsupial
¡Tal vez deberías actualizar la página de Wikipedia! Suenas bien informado sobre el asunto ...
TDC
6

La regresión de cresta, como su nombre lo indica, es un método de regresión en lugar de clasificación. Presumiblemente está utilizando un umbral para convertirlo en un clasificador. En cualquier caso, simplemente está aprendiendo un clasificador lineal que está definido por un hiperplano. La razón por la que funciona es porque la tarea en cuestión es esencialmente linealmente separable, es decir, un hiperplano simple es todo lo que se necesita para separar las clases. El parámetro "cresta" le permite trabajar en casos que no son completamente linealmente separables o problemas que son deficientes en rango (en cuyo caso la optimización sería degenerada).

En este caso, no hay razón para que otros clasificadores no funcionen bien, suponiendo que se hayan implementado correctamente. Por ejemplo, el SVM encuentra el "hiperplano de separación óptimo" (es decir, el hiperplano que maximiza el margen, o espacio, entre las clases). El Cparámetro de SVM es un parámetro de control de capacidad análogo al parámetro de cresta, que permite algunas clasificaciones erróneas (valores atípicos). Suponiendo que el proceso de selección de parámetros se haya llevado a cabo diligentemente, esperaría que los dos métodos produjeran casi exactamente los mismos resultados en dicho conjunto de datos.

tdc
fuente
2
Recuerdo haber leído que se puede demostrar que la clasificación binaria LS-SVM es equivalente a la Regresión de Ridge en las etiquetas -1,1, su formulación es la misma.
Firebug
Piensa que podrías tener razón en eso
tdc