Cuando utilizo modelos de regresión, me siento receloso de incumplir un supuesto de asociación lineal; en su lugar, me gusta explorar la forma funcional de las relaciones entre las variables dependientes y explicativas utilizando la regresión de suavizado no paramétrico (por ejemplo , modelos aditivos generalizados , lowess / lowess , suavizadores de línea continua , etc.) antes de estimar un modelo paramétrico utilizando, según corresponda, la regresión de mínimos cuadrados no lineal para estimar parámetros para funciones sugeridas por el modelo no paramétrico.
¿Cuál es una buena manera de pensar acerca de la validación cruzada en la fase de regresión de suavizado no paramétrico de dicho enfoque? Me pregunto si podría encontrar una situación en la que en la muestra aleatoria de retención A una relación aproximada por una función de bisagra lineal de "barra rota" podría ser evidente, mientras que la muestra de retención B sugiere una relación que sería mejor aproximada por una función de bisagra de umbral parabólico.
¿Tomaría un enfoque no exhaustivo? Retener parte de los datos seleccionados al azar, realizar la regresión no paramétrica, interpretar formas funcionales plausibles para el resultado, y repetir esto unas pocas veces (manejables por los humanos) y contar mentalmente formas funcionales plausibles ?
¿O se tomaría un enfoque exhaustivo (p. Ej., LOOCV) y se usaría algún algoritmo para 'suavizar todos los suavizados' y se usaría el más suave para informar formas funcionales plausibles? (Aunque, por reflexión, creo que es poco probable que LOOCV produzca relaciones funcionales muy diferentes, ya que una forma funcional en una muestra lo suficientemente grande es poco probable que sea alterada por un solo punto de datos).
Por lo general, mis aplicaciones incluirán un número manejable de variables predictoras (por ejemplo, unas pocas docenas), pero el tamaño de mis muestras oscilará entre unos pocos cientos y unos cientos de miles. Mi objetivo es producir un modelo intuitivamente comunicado y fácilmente traducido que pueda ser utilizado para hacer predicciones por personas con conjuntos de datos distintos al mío, y que no incluyen las variables de resultado.
Referencias en respuestas muy bienvenidas.
Respuestas:
Me parece que hay dos confusiones en tu pregunta:
Primero, la regresión lineal (mínimo cuadrado) no requiere una relación lineal en las variables independientes , sino en los parámetros .
Por lo tanto, puede estimarse por mínimos cuadrados ordinarios ( es una función lineal de los parámetros , , ), mientras que no puede ( no es lineal en el parámetro ).y=a+b⋅xe−x+c⋅z1+x2 y a b c y=a+b⋅x+b2⋅z y b
En segundo lugar, ¿cómo se determina un modelo funcional "correcto" a partir de un suavizador, es decir, cómo se pasa del paso 1 al paso 2?
Hasta donde sé, no hay forma de inferir "qué funciones de los regresores usar" a partir de técnicas de suavizado como splines, redes neuronales, etc. Excepto tal vez trazando las salidas suavizadas y determinando las relaciones por intuición, pero eso no sucede No me parece muy robusto, y parece que uno no necesita suavizar esto, solo diagramas de dispersión.
Si su objetivo final es un modelo de regresión lineal, y su problema es que no sabe exactamente qué forma funcional de los regresores se debe usar, sería mejor que ajustara directamente un modelo de regresión lineal regularizado (como LASSO ) con un Expansión de base grande de los regresores originales (como polinomios de los regresores, exponenciales, registros, ...). El procedimiento de regularización debería eliminar los regresores innecesarios, dejándote con un modelo paramétrico (con suerte bueno). Y puede usar la validación cruzada para determinar el parámetro de penalización óptimo (que determina los grados reales de libertad del modelo).
Siempre puede usar regresiones no paramétricas como punto de referencia para el error de generalización, como una forma de verificar que su modelo lineal regularizado prediga datos externos tan bien como un suavizador no paramétrico.
fuente