¿Cómo debería uno decidir entre usar un modelo de regresión lineal o un modelo de regresión no lineal?
Mi objetivo es predecir Y.
En caso de sencilla y conjunto de datos podría fácilmente decidir qué modelo de regresión debe ser utilizado por el trazado de un gráfico de dispersión.
En caso de múltiples variantes como e . ¿Cómo puedo decidir qué modelo de regresión debe usarse? Es decir, ¿cómo decidiré si voy con un modelo lineal simple o modelos no lineales como cuadrático, cúbico, etc.
¿Existe alguna técnica o enfoque estadístico o parcelas gráficas para inferir y decidir qué modelo de regresión debe usarse?
Respuestas:
Este es un ámbito de estadísticas llamado selección de modelo. Se realiza mucha investigación en esta área y no hay una respuesta definitiva y fácil.
Supongamos que tiene y y desea saber si debe incluir un término en el modelo. En una situación como esta, su modelo más parsimonioso está anidado en su modelo más complejo. En otras palabras, las variables y (modelo parsimonioso) son un subconjunto de las variables y (modelo complejo). En la construcción de modelos tiene (al menos) uno de los siguientes dos objetivos principales:X1,X2 X3 X23 X1,X2 X3 X1,X2,X3 X23
Si su objetivo es el número 1, le recomiendo la Prueba de relación de probabilidad (LRT). LRT se usa cuando tiene modelos anidados y desea saber "¿son los datos significativamente más propensos a provenir del modelo complejo que el modelo parsimonous?". Esto le dará una idea de qué modelo explica mejor la relación entre sus datos.
Si su objetivo es el número 2, entonces te recomiendo algún tipo de técnica de validación cruzada (CV) ( CV -fold, dejar uno fuera CV, CV-prueba de formación) en función del tamaño de los datos. En resumen, estos métodos crean un modelo en un subconjunto de sus datos y predicen los resultados en los datos restantes. Elija el modelo que haga el mejor trabajo prediciendo sobre los datos restantes.k
fuente
Cuando busco en Google "modelo lineal o no lineal para regresión" obtengo algunos enlaces que conducen a este libro: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Este libro no es interesante, y no No confíes en el 100% (por alguna razón).
También encontré este artículo: http://hunch.net/?p=524 con título: Casi todos los problemas naturales requieren no linealidad
También encontré una pregunta similar con bastante buena explicación: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
Según mi experiencia, cuando no sabe qué modelo usa, use ambos e intente con otras funciones.
fuente
Como usted dice, los modelos lineales son típicamente más simples que los modelos no lineales, lo que significa que se ejecutan más rápido (construyendo y prediciendo), son más fáciles de interpretar y explicar y, por lo general, directos en las mediciones de errores. Por lo tanto, el objetivo es descubrir si los supuestos de una regresión lineal se mantienen con sus datos (si no es compatible con lineal, entonces vaya con no lineal). Por lo general, repetiría su gráfico de una sola variable con todas las variables individualmente, manteniendo constantes todas las demás variables.
Sin embargo, quizás lo más importante es que desea saber si puede aplicar algún tipo de transformación, interacción variable o variable ficticia para mover sus datos al espacio lineal. Si puede validar las suposiciones, o si conoce sus datos lo suficientemente bien como para aplicar transformaciones o modificaciones bien motivadas o informadas de manera inteligente, entonces desea continuar con esa transformación y utilizar la regresión lineal. Una vez que tenga los residuos, puede trazarlos frente a los valores pronosticados o las variables independientes para decidir si necesita pasar a métodos no lineales.
Hay un excelente desglose de los supuestos de regresión lineal aquí en Duke . Se enumeran los cuatro supuestos principales, y cada uno se desglosa en los efectos sobre el modelo, cómo diagnosticarlo en los datos y las posibles formas de "arreglar" (es decir, transformar o agregar) los datos para que el supuesto se mantenga. Aquí hay un pequeño extracto de la parte superior que resume los cuatro supuestos abordados, pero debe ir allí y leer los desgloses.
fuente