Seleccionar el número de componentes principales dispersos para incluir en la regresión

9

¿Alguien tiene experiencia con los enfoques para seleccionar el número de componentes principales dispersos para incluir en un modelo de regresión?

Frank Harrell
fuente
No tengo experiencia con eso específicamente, pero supongo que la validación cruzada sería un buen enfoque (como siempre).
ameba

Respuestas:

4

Si bien no tengo información directa sobre su pregunta, me encontré con algunos documentos de investigación , que podrían ser de su interés. Eso es, por supuesto, si entiendo correctamente que está hablando de PCA escasa , regresión de componentes principales y temas relacionados. En ese caso, aquí están los documentos:

Aleksandr Blekh
fuente
1
No sabía sobre todas estas referencias. Son muy buenos, gracias.
Frank Harrell
@FrankHarrell: ¡De nada! Me alegro de poder ayudar.
Aleksandr Blekh
1

Los resultados de validación cruzada también se usaron para determinar el número óptimo de dimensiones para el espacio LSI. Muy pocas dimensiones no aprovecharon el poder predictivo de los datos; mientras que demasiadas dimensiones resultaron en un ajuste excesivo. La figura 4 muestra la distribución de errores promedio para modelos con diferentes números de dimensiones LSI. Los modelos con espacios LSI de cuatro dimensiones produjeron la menor cantidad promedio de errores y la menor cantidad mediana de errores, por lo que el modelo final se construyó utilizando un espacio LSI de cuatro dimensiones.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Puedo publicar una copia si no eres miembro de ieee.

Esto es de un artículo que escribí en pregrado. Tuve un problema en el que necesitaba decidir cuántas dimensiones (la indexación semántica latente es similar a la PCA) para usar en mi modelo de regresión logística. Lo que hice fue elegir una métrica (es decir, la tasa de error cuando se usa una probabilidad de marcado de .5) y examiné la distribución de esta tasa de error para diferentes modelos entrenados en diferentes números de dimensiones. Luego elegí el modelo con la tasa de error más baja. Podría usar otras métricas como área bajo la curva ROC.

También podría usar algo como la regresión paso a paso para elegir el número de dimensiones para usted. ¿Qué tipo de regresión estás realizando específicamente?

¿Qué quieres decir con escaso por cierto?

Andrew Cassidy
fuente
PC dispersa es, por ejemplo, PCA con L1 (lazo). En la PCA ordinaria, generalmente podemos ingresar términos en el orden de variación explicado. Con PCA escaso, las cosas son un poco más erráticas, por lo que la selección es quizás más difícil.
Frank Harrell
La pregunta era específicamente sobre componentes principales dispersos , y esta respuesta (buena como está) no la aborda en absoluto , por lo que -1.
ameba
Y
@FrankHarrell que puede suceder potencialmente, pero es menos propenso a suceder si usa AIC en lugar de R-cuadrado
Andrew Cassidy
@amoeba Estoy confundido ... no, no abordé la parte "escasa" de los comentarios principales, pero ¿hiciste exactamente la misma sugerencia para usar la validación cruzada en un comentario?
Andrew Cassidy