Los lugares que he estado leyendo sobre la maldición de la dimensionalidad lo explican conjuntamente con kNN principalmente, y los modelos lineales en general. Regularmente veo a los mejores clasificados en Kaggle usando miles de características en el conjunto de datos que apenas tiene 100k puntos de datos. Utilizan principalmente árboles potenciados y NN, entre otros. Que muchas características parecen demasiado altas y creo que se verían afectadas por la maldición de la dimensionalidad. Pero ese no parece ser el caso, ya que estos modelos los convierten en los mejores de la competencia. Entonces, volviendo a mi pregunta original: ¿algunos modelos se ven afectados por la maldición de la dimensionalidad más que otros?
Específicamente, estoy interesado en los siguientes modelos (solo porque estos son los que conozco / utilizo):
- Regresión Lineal y Logística
- Árboles de decisión / Bosque aleatorio / Árboles potenciados
- Redes neuronales
- SVM
- kNN
- k-significa agrupamiento
fuente
Respuestas:
En general, la maldición de la dimensionalidad hace que el problema de buscar en un espacio sea mucho más difícil y afecta a la mayoría de los algoritmos que "aprenden" a través de la división de su espacio vectorial. Cuanto mayor sea la dimensionalidad de nuestro problema de optimización, más datos necesitamos para llenar el espacio sobre el que estamos optimizando.
Modelos lineales generalizados
Árboles de
decisión Los árboles de decisión también sufren la maldición de la dimensionalidad. Los árboles de decisión dividen directamente el espacio muestral en cada nodo. A medida que aumenta el espacio muestral, aumenta la distancia entre los puntos de datos, lo que hace que sea mucho más difícil encontrar una división "buena".
Bosques al
azar Los bosques al azar usan una colección de árboles de decisión para hacer sus predicciones. Pero en lugar de usar todas las características de su problema, los árboles individuales solo usan un subconjunto de las características. Esto minimiza el espacio que cada árbol está optimizando y puede ayudar a combatir el problema de la maldición de la dimensionalidad.
Los
algoritmos de refuerzo de Boosted Tree , como AdaBoost, sufren la maldición de la dimensionalidad y tienden a sobreajustarse si no se utiliza la regularización. No profundizaré, porque la publicación ¿AdaBoost es menos o más propenso a sobreajustar? explica la razón por qué mejor de lo que podría
Redes neuronales
Las redes neuronales son raras en el sentido de que ambas son y no son impactadas por la maldición de la dimensionalidad dependiente de la arquitectura, activaciones, profundidad, etc. Por lo tanto, para reiterar la maldición de la dimensionalidad es el problema que una gran cantidad de puntos son necesarios en alta dimensiones para cubrir un espacio de entrada. Una forma de interpretar redes neuronales profundas es pensar que todas las capas esperan que la última capa haga una proyección complicada de un múltiple de alta dimensión en un múltiple de menor dimensión, donde luego la última capa se clasifica en la parte superior. Entonces, por ejemplo, en una red convolucional para clasificación donde la última capa es una capa softmax, podemos interpretar que la arquitectura realiza una proyección no lineal en una dimensión más pequeña y luego realiza una regresión logística multinomial (la capa softmax) en esa proyección. Entonces, en cierto sentido, la representación comprimida de nuestros datos nos permite evitar la maldición de la dimensionalidad. Una vez más, esta es una interpretación, en realidad la maldición de la dimensionalidad impacta las redes neuronales, pero no al mismo nivel que los modelos descritos anteriormente.
SVM
SVM tiende a no sobreajustarse tanto como los modelos lineales generalizados debido a la regularización excesiva que ocurre. Echa un vistazo a esta publicación SVM, Overfitting, curse of dimensionality para más detalles.
K-NN, K-medias
Tanto K-mean como K-NN se ven muy afectados por la maldición de la dimensionalidad, ya que ambos usan la medida de la distancia al cuadrado L2. A medida que aumenta la cantidad de dimensiones, también aumenta la distancia entre varios puntos de datos. Es por eso que necesita una mayor cantidad de puntos para cubrir más espacio con la esperanza de que la distancia sea más descriptiva.
Siéntase libre de preguntar detalles sobre los modelos, ya que mis respuestas son bastante generales. Espero que esto ayude.
fuente