Para la selección de predictores en regresión lineal multivariada con predictores adecuados, ¿qué métodos están disponibles para encontrar un subconjunto 'óptimo' de los predictores sin probar explícitamente todos los subconjuntos de ? En 'Análisis de supervivencia aplicada', Hosmer y Lemeshow hacen referencia al método de Kuk, pero no puedo encontrar el documento original. ¿Alguien puede describir este método o, mejor aún, una técnica más moderna? Uno puede asumir errores distribuidos normalmente.2 p
9
penalized
paquete R), j.mp/cooIT3 . Quizás este también, j.mp/bkDQUj . SaludosRespuestas:
Nunca he oído hablar del método de Kuk, pero el tema candente en estos días es la minimización de L1. La razón es que si usa un término de penalización del valor absoluto de los coeficientes de regresión, los que no son importantes deberían ir a cero.
Estas técnicas tienen algunos nombres divertidos: Lasso, LARS, selector de Dantzig. Puede leer los documentos, pero un buen lugar para comenzar es con Elementos del aprendizaje estadístico , Capítulo 3.
fuente
Este es un gran tema. Como se mencionó anteriormente, Hastie, Tibshirani y Friedman dan una buena introducción en Ch3 de Elementos de aprendizaje estadístico.
Algunos puntos 1) ¿Qué quieres decir con "mejor" u "óptimo"? Lo que es mejor en un sentido puede no serlo en otro. Dos criterios comunes son la precisión predictiva (predicción de la variable de resultado) y la producción de estimadores imparciales de los coeficientes. Algunos métodos, como la regresión Lasso y Ridge, inevitablemente producen estimadores de coeficientes sesgados.
2) La frase "mejores subconjuntos" en sí misma puede usarse en dos sentidos separados. Generalmente para referirse al mejor subconjunto entre todos los predictores que optimiza algunos criterios de construcción de modelos. Más específicamente, puede referirse al algoritmo eficiente de Furnival y Wilson para encontrar ese subconjunto entre números moderados (~ 50) de predictores lineales (Regressions by Leaps and Bounds. Technometrics, Vol. 16, No. 4 (noviembre de 1974), págs. 499-51)
http://www.jstor.org/stable/1267601
fuente
Lo que aprendí es que, en primer lugar, utiliza el Enfoque del mejor subconjunto como una herramienta de detección, luego los procedimientos de selección por pasos pueden ayudarlo a decidir finalmente qué modelos podrían ser los mejores modelos de subconjuntos (en este momento, el número de esos modelos es bastante pequeño para manejar). Si uno de los modelos cumple con las condiciones del modelo, hace un buen trabajo al resumir la tendencia en los datos y, lo más importante, le permite responder a su pregunta de investigación, entonces felicidades por su trabajo.
fuente