Decidir entre un modelo de regresión lineal o un modelo de regresión no lineal

¿Cómo debería uno decidir entre usar un modelo de regresión lineal o un modelo de regresión no lineal?

Mi objetivo es predecir Y.

En caso de sencilla y conjunto de datos podría fácilmente decidir qué modelo de regresión debe ser utilizado por el trazado de un gráfico de dispersión. $x$ $y$

En caso de múltiples variantes como e . ¿Cómo puedo decidir qué modelo de regresión debe usarse? Es decir, ¿cómo decidiré si voy con un modelo lineal simple o modelos no lineales como cuadrático, cúbico, etc. $x_1,x_2,...x_n$ $y$

¿Existe alguna técnica o enfoque estadístico o parcelas gráficas para inferir y decidir qué modelo de regresión debe usarse?

regression hypothesis-testing predictive-models nonlinear-regression shakthydoss
fuente

El "modelo no lineal" es una categoría bastante amplia. ¿Tenías uno en mente? ¿Cuáles son tus objetivos de análisis?

shadowtalker

Esto depende de tus objetivos. ¿Estás construyendo un modelo de predicción / pronóstico?

Aksakal

La predicción es mi objetivo.

shakthydoss

Si buscas algo como el enfoque de "trazar los datos" pero para múltiples predictores, hay gráficos de variables adicionales que pueden ser de algún valor. Pero si su objetivo es la predicción, el problema es que está eligiendo qué git en función de ver los datos, por lo que se verá mucho mejor en los datos que tiene que en otros datos (y hay muchos otros problemas que vienen con tal información enfoque para la selección del modelo): para evaluar adecuadamente la capacidad predictiva fuera de la muestra, debe evaluar las cosas en una muestra reservada / considerar algo como la validación cruzada.

Glen_b -Reinstala a Monica

Puede ser útil una discusión relacionada que comencé hace algún tiempo.

Aleksandr Blekh

Respuestas:

Este es un ámbito de estadísticas llamado selección de modelo. Se realiza mucha investigación en esta área y no hay una respuesta definitiva y fácil.

Supongamos que tiene y y desea saber si debe incluir un término en el modelo. En una situación como esta, su modelo más parsimonioso está anidado en su modelo más complejo. En otras palabras, las variables y (modelo parsimonioso) son un subconjunto de las variables y (modelo complejo). En la construcción de modelos tiene (al menos) uno de los siguientes dos objetivos principales: $X_1, X_2$ $X_3$ $X_3^2$ $X_1, X_2$ $X_3$ $X_1, X_2, X_3$ $X_3^2$

Explique los datos: está tratando de comprender cómo un conjunto de variables afecta su variable de respuesta o está interesado en cómo afecta a mientras controla los efectos de $X_1$ $Y$ $X_2,...X_p$
Predecir : desea predecir con precisión , sin preocuparse por qué o cuántas variables hay en su modelo $Y$ $Y$

Si su objetivo es el número 1, le recomiendo la Prueba de relación de probabilidad (LRT). LRT se usa cuando tiene modelos anidados y desea saber "¿son los datos significativamente más propensos a provenir del modelo complejo que el modelo parsimonous?". Esto le dará una idea de qué modelo explica mejor la relación entre sus datos.

Si su objetivo es el número 2, entonces te recomiendo algún tipo de técnica de validación cruzada (CV) ( CV -fold, dejar uno fuera CV, CV-prueba de formación) en función del tamaño de los datos. En resumen, estos métodos crean un modelo en un subconjunto de sus datos y predicen los resultados en los datos restantes. Elija el modelo que haga el mejor trabajo prediciendo sobre los datos restantes. $k$

TrynnaDoStat
fuente

Por favor, ¿podría hacer / explicar la diferencia entre los objetivos (1) y (2) más pronunciados? Actualmente no hay mucha diferencia.

ttnphns

@ttnphns Agregué una breve descripción de los dos objetivos.

TrynnaDoStat

@ TrynnaDoStat Solo confundido aquí por la declaración Elija el modelo que haga el mejor trabajo de predicción. Por mejor modelo quiere decir elegir entre el modelo lineal (parsimonioso) y el modelo complejo ... ¿verdad? Debido a que lo que sé es k-fold, los CV de dejar uno se utilizan para verificar el rendimiento del modelo en datos no vistos. No se utilizan para la selección del modelo. Estoy confundido aquí.

tushaR

Cuando busco en Google "modelo lineal o no lineal para regresión" obtengo algunos enlaces que conducen a este libro: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Este libro no es interesante, y no No confíes en el 100% (por alguna razón).

También encontré este artículo: http://hunch.net/?p=524 con título: Casi todos los problemas naturales requieren no linealidad

También encontré una pregunta similar con bastante buena explicación: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Según mi experiencia, cuando no sabe qué modelo usa, use ambos e intente con otras funciones.

404pio
fuente

Como usted dice, los modelos lineales son típicamente más simples que los modelos no lineales, lo que significa que se ejecutan más rápido (construyendo y prediciendo), son más fáciles de interpretar y explicar y, por lo general, directos en las mediciones de errores. Por lo tanto, el objetivo es descubrir si los supuestos de una regresión lineal se mantienen con sus datos (si no es compatible con lineal, entonces vaya con no lineal). Por lo general, repetiría su gráfico de una sola variable con todas las variables individualmente, manteniendo constantes todas las demás variables.

Sin embargo, quizás lo más importante es que desea saber si puede aplicar algún tipo de transformación, interacción variable o variable ficticia para mover sus datos al espacio lineal. Si puede validar las suposiciones, o si conoce sus datos lo suficientemente bien como para aplicar transformaciones o modificaciones bien motivadas o informadas de manera inteligente, entonces desea continuar con esa transformación y utilizar la regresión lineal. Una vez que tenga los residuos, puede trazarlos frente a los valores pronosticados o las variables independientes para decidir si necesita pasar a métodos no lineales.

Hay un excelente desglose de los supuestos de regresión lineal aquí en Duke . Se enumeran los cuatro supuestos principales, y cada uno se desglosa en los efectos sobre el modelo, cómo diagnosticarlo en los datos y las posibles formas de "arreglar" (es decir, transformar o agregar) los datos para que el supuesto se mantenga. Aquí hay un pequeño extracto de la parte superior que resume los cuatro supuestos abordados, pero debe ir allí y leer los desgloses.

Existen cuatro supuestos principales que justifican el uso de modelos de regresión lineal para fines de inferencia o predicción:

(i) linealidad y aditividad de la relación entre variables dependientes e independientes:

(a) El valor esperado de la variable dependiente es una función de línea recta de cada variable independiente, manteniendo las otras fijas.

(b) La pendiente de esa línea no depende de los valores de las otras variables.

(c) Los efectos de diferentes variables independientes sobre el valor esperado de la variable dependiente son aditivos.

(ii) independencia estadística de los errores (en particular, no hay correlación entre> errores consecutivos en el caso de datos de series temporales)

(iii) homocedasticidad (varianza constante) de los errores

(a) versus tiempo (en el caso de datos de series de tiempo)

(b) versus las predicciones

(c) versus cualquier variable independiente

(iv) normalidad de la distribución del error.

wwwslinger
fuente