¿Cuál es la ventaja de reducir la dimensionalidad de los predictores para propósitos de regresión?

¿Cuáles son las aplicaciones o ventajas de las técnicas de regresión de reducción de dimensiones (DRR) o de reducción supervisada de dimensionalidad (SDR) sobre las técnicas de regresión tradicionales (sin ninguna reducción de dimensionalidad)? Esta clase de técnicas encuentra una representación de baja dimensión del conjunto de características para el problema de regresión. Los ejemplos de tales técnicas incluyen Regresión inversa en rodajas, Direcciones principales de arpillera, Estimación de la varianza promedio en rodajas, Regresión inversa en rodajas del núcleo, Regresión de componentes principales, etc.

En términos de RMSE con validación cruzada, si un algoritmo funcionó mejor en una tarea de regresión sin ninguna reducción de dimensionalidad, ¿cuál es el uso real de la reducción de dimensionalidad para la regresión? No entiendo el punto de estas técnicas.
¿Se utilizan estas técnicas por casualidad para reducir la complejidad de espacio y tiempo para la regresión? Si esa es la principal ventaja, serían útiles algunos recursos sobre la reducción de la complejidad para los conjuntos de datos de alta dimensión cuando se utilizan estas técnicas. Discuto esto con el hecho de que ejecutar una técnica DRR o SDR en sí requiere algo de tiempo y espacio. ¿Es esta regresión SDR / DRR + en un conjunto de datos de baja intensidad más rápido que solo la regresión en un conjunto de datos de alta intensidad?
¿Se ha estudiado esta configuración solo por interés abstracto y no tiene una buena aplicación práctica?

Como un pensamiento secundario: a veces hay suposiciones de que la distribución conjunta de las características y la respuesta encuentra en una variedad. Tiene sentido aprender la variedad de la muestra observada en este contexto para resolver un problema de regresión. $X$ $Y$

regression machine-learning pca dimensionality-reduction coche fúnebre
fuente

Usted habla sobre el aprendizaje múltiple, por lo que el siguiente blog podría ser de ayuda: normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds

kjetil b halvorsen

Respuestas:

De acuerdo con la hipótesis del múltiple, se supone que los datos se encuentran en un múltiple de baja dimensión, lo que implica que el residuo es ruido, por lo que si realiza su reducción de dimensionalidad correctamente, debería mejorar el rendimiento modelando la señal en lugar del ruido. No es solo una cuestión de espacio y complejidad.

Emre
fuente

pero no veo que las técnicas como SIR funcionen mejor después de la reducción de dimensionalidad de manera sólida. Corríjame si estoy equivocado o si conoce una técnica SDR / DDR que puede encontrar esta señal mejor, en una configuración de regresión, hágame saber de qué técnica (nombre) es.

coche fúnebre

Por supuesto, depende del algoritmo de regresión y de la dimensionalidad intrínseca de los datos. No puedo hablar por SIR en particular, pero aquí hay un artículo que compara varios algoritmos de regresión en el conjunto de datos MNIST, que es de baja dimensión. Tal vez podría compartir algunos datos problemáticos para que la gente pueda echarle un vistazo.

Emre

¿Qué es "la hipótesis múltiple"?

ameba dice Reinstate Monica

La hipótesis de que los datos de alta dimensión tienden a estar en la vecindad de una variedad de baja dimensión .

Emre

Me pregunto si esto es similar a las redes neuronales y al escalamiento multidimensional no lineal, ya que "parece" que debería ser genial en todas partes, pero en la práctica funciona bien en un conjunto más limitado de casos

shadowtalker

El propósito de la reducción de la dimensionalidad en la regresión es la regularización.

La mayoría de las técnicas que enumeró no son muy conocidas; No he oído hablar de ninguno de ellos, aparte de la regresión de componentes principales (PCR). Por lo tanto, responderé sobre la PCR, pero espero que lo mismo se aplique a las otras técnicas también.

Las dos palabras clave aquí son sobreajuste y regularización . Para un tratamiento y una discusión largos, lo remito a Los elementos del aprendizaje estadístico , pero muy brevemente, lo que sucede si tiene muchos predictores ( ) y no hay suficientes muestras ( ) es que la regresión estándar se ajustará a los datos y usted construya un modelo que parezca tener un buen rendimiento en el conjunto de entrenamiento pero que en realidad tenga un rendimiento muy pobre en cualquier conjunto de prueba. $p$ $n$

En un ejemplo extremo, cuando el número de predictores excede el número de muestras (las personas se refieren al problema ), en realidad puede ajustarse perfectamente a cualquier variable de respuesta , logrando un rendimiento aparentemente del . Esto es claramente una tontería. $p>n$ $y$ $100\%$

Para lidiar con el sobreajuste, uno debe usar la regularización , y hay muchas estrategias de regularización diferentes. En algunos enfoques, uno intenta reducir drásticamente el número de predictores, reduciendo el problema a la situación de , y luego usar la regresión estándar. Esto es exactamente lo que hace la regresión de componentes principales. Ver The Elements , secciones 3.4--3.6. La PCR generalmente es subóptima y, en la mayoría de los casos, algunos otros métodos de regularización funcionarán mejor, pero es fácil de entender e interpretar. $p\ll n$

Tenga en cuenta que la PCR tampoco es arbitraria (por ejemplo, es probable que el mantenimiento aleatorio de las dimensiones sea mucho peor). La razón de esto es que la PCR está estrechamente relacionada con la regresión de crestas, que es un regularizador de contracción estándar que se sabe que funciona bien en una gran variedad de casos. Vea mi respuesta aquí para la comparación: Relación entre la regresión de cresta y la regresión de PCA . $p$

Para ver un aumento en el rendimiento en comparación con la regresión estándar, necesita un conjunto de datos con muchos predictores y no tantas muestras, y definitivamente necesita usar validación cruzada o un conjunto de pruebas independiente. Si no vio ningún aumento en el rendimiento, quizás su conjunto de datos no tenía suficientes dimensiones.

Hilos relacionados con buenas respuestas:

ameba dice reinstalar Monica
fuente

Dadas sus publicaciones , es seguro asumir que él sabe esto.

Emre

Gracias, @Emre, no tenía idea de quién era el OP. Podría haber entendido mal la pregunta, pero después de releerla ahora no veo cómo puedo interpretarla de manera diferente. Si uno pregunta cuál es la ventaja práctica de la PCR, la respuesta es la regularización; La PCR en realidad está estrechamente relacionada con la regresión de crestas, que es uno de los métodos de regularización más estándar.

ameba dice Reinstate Monica

Pero incluso en Elements tuve la impresión de que LASSO supera a la PCR la mayor parte del tiempo de todos modos, y que la principal ventaja de la PCR es cuando

p > n

$p > n$

shadowtalker

@ssdecontrol: estoy de acuerdo. Creo que el consenso es que la PCR es bastante poco competitiva y casi siempre hay mejores enfoques. Esto también es lo que escribí en mi respuesta (¿no?), Pero la pregunta era específicamente sobre la reducción de la dimensionalidad de los predictores y sobre cuál podría ser su propósito. Mi respuesta es que el propósito es la regularización.

ameba dice Reinstate Monica

Entendido. Pero creo que podemos estar de acuerdo en que la pregunta se carga específicamente para cuestionar su utilidad dado que en realidad no es la mejor manera de regularizar a pesar de su atractivo intuitivo

shadowtalker