Tengo un gran conjunto de datos que consta de los valores de varios cientos de variables financieras que podrían usarse en una regresión múltiple para predecir el comportamiento de un fondo indexado a lo largo del tiempo. Me gustaría reducir el número de variables a diez más o menos y al mismo tiempo conservar la mayor potencia predictiva posible. Agregado: El conjunto reducido de variables debe ser un subconjunto del conjunto de variables original para preservar el significado económico de las variables originales. Así, por ejemplo, no debería terminar con combinaciones lineales o agregados de las variables originales.
Algunas ideas (probablemente ingenuas) sobre cómo hacer esto:
- Realice una regresión lineal simple con cada variable y elija las diez con los valores más grandes . Por supuesto, no hay garantía de que las diez mejores variables individuales combinadas sean el mejor grupo de diez.
- Realice un análisis de componentes principales e intente encontrar las diez variables originales con las asociaciones más grandes con los primeros ejes principales.
No creo que pueda realizar una regresión jerárquica porque las variables no están realmente anidadas. Probar todas las combinaciones posibles de diez variables es computacionalmente inviable porque hay demasiadas combinaciones.
¿Existe un enfoque estándar para abordar este problema de reducir el número de variables en una regresión múltiple?
Parece que este sería un problema suficientemente común que habría un enfoque estándar.
Una respuesta muy útil sería aquella que no solo menciona un método estándar, sino que también ofrece una visión general de cómo y por qué funciona. Alternativamente, si no hay un enfoque estándar, sino más bien múltiples con diferentes fortalezas y debilidades, una respuesta muy útil sería una que discuta sus pros y sus contras.
El comentario de whuber a continuación indica que la solicitud en el último párrafo es demasiado amplia. En cambio, aceptaría como buena respuesta una lista de los principales enfoques, tal vez con una breve descripción de cada uno. Una vez que tenga los términos, puedo desenterrar los detalles de cada uno.
Respuestas:
Este problema generalmente se llama Selección de subconjunto y hay bastantes enfoques diferentes. Consulte Google Scholar para obtener una descripción general de los artículos relacionados .
fuente
El método 1 no funciona. El método 2 tiene esperanza dependiendo de cómo lo hagas. Es mejor ingresar los componentes principales en orden de variación descendente explicado. Un enfoque más interpretable es hacer un agrupamiento variable, luego reducir cada grupo a un puntaje único (sin usar Y), luego ajustar un modelo con los puntajes del grupo.
fuente
varclus
función en elHmisc
paquete R o PROC VARCLUS en SAS. La reducción de datos puede ayudar con el subconjunto de variables si ejerce un poco de precaución; puede eliminar un grupo completo si su valor es 0.3. Con los componentes principales, existen técnicas como la reducción de la batería, en las que esencialmente aproxima las PC con un subconjunto de sus variables constituyentes.En el capítulo 5 de Data Mining with R, el autor muestra algunas formas de elegir los predictores más útiles. (En el contexto de la bioinformática, ¡donde cada fila de muestra tiene más de 12,000 columnas!)
Primero usa algunos filtros basados en la distribución estadística. Por ejemplo, si tiene media docena de predictores, todos con una media y SD similares, entonces puede salirse con la suya con solo uno de ellos.
Luego muestra cómo usar un bosque aleatorio para encontrar cuáles son los predictores más útiles. Aquí hay un ejemplo abstracto autónomo. Puedes ver que tengo 5 buenos predictores, 5 malos. El código muestra cómo mantener los mejores 3.
El último enfoque del autor es utilizar un algoritmo de agrupamiento jerárquico para agrupar predictores similares en, por ejemplo, 30 grupos. Si desea 30 predictores diversos, elija uno de cada uno de esos 30 grupos, al azar.
Aquí hay un código, usando los mismos datos de muestra que el anterior, para elegir 3 de las 10 columnas:
Mis datos de muestra no se ajustan a este enfoque en absoluto, porque tengo 5 buenos predictores y 5 que son solo ruido. Si los 10 fueron predictores poco correlacionado con
y
, y tenía una buena oportunidad de ser aún mejor cuando se usan juntos (que es muy posible en el ámbito financiero), entonces este puede ser un enfoque bien.fuente
Puede considerar usar un método como LASSO que regularice los mínimos cuadrados seleccionando una solución que minimice la norma del vector de parámetros. Resulta que esto tiene el efecto en la práctica de minimizar el número de entradas distintas de cero en el vector de parámetros. Aunque LASSO es popular en algunos círculos estadísticos, se han considerado muchos otros métodos relacionados en el mundo de la detección de compresión.
fuente