Elegir un modelo de regresión

8

¿Cómo puede uno objetivamente (leer "algorítmicamente") seleccionar un modelo apropiado para hacer una simple regresión lineal de mínimos cuadrados con dos variables?

Por ejemplo, digamos que los datos parecen mostrar una tendencia cuadrática, y se genera una parábola que se ajusta bastante bien a los datos. ¿Cómo justificamos hacer de esto la regresión? ¿O cómo eliminamos la posibilidad de que exista un modelo mejor?

Lo que realmente me preocupa es esto: podríamos seguir agregando términos polinómicos hasta que tengamos un ajuste perfecto para el conjunto de datos (una interpolación de los puntos), sin ningún tipo de error. Pero esto sería inútil en cuanto a predecir o extrapolar, porque no habría razón para pensar que el "modelo" era realmente apropiado. Entonces, ¿cómo se equilibran las necesidades de precisión y atractivo intuitivo?

(Además, avísenme si esto se ha preguntado antes, supuse que habría sido pero no encontré nada).

Glen_b -Reinstate a Monica
fuente
1
La pregunta en sí realmente plantea la pregunta que debes hacerte: ¿por qué estoy construyendo este modelo de regresión? ¿Para qué usarás el modelo? ¿Qué esperas aprender del modelo? Estas son preguntas enormes que seguramente guiarán los pasos que debe seguir para construir el modelo.
jsk
Creo que la figura en la página de Wikipedia para sobreajustar habla por sí sola.
nico

Respuestas:

1

Puede mirar AIC, BIC o cualquiera de las otras medidas similares.

Podrías usar tus ojos y sentido del campo.

O podría evitar parte del problema utilizando splines.

Peter Flom
fuente
Gracias. Solo soy un principiante en estadística, ¿puedo preguntar si las medidas AIC, BIC son "objetivas" (como derivadas de algo) o están básicamente "inventadas" de la experiencia estadística?
AIC, BIC, etc. se derivan de dos cualidades importantes del modelo en consideración: el número de parámetros (k) y la probabilidad del modelo (L). Considere el : aquí vemos una compensación entre el número de parámetros y la probabilidad. AIC2k2ln(L)
abaumann
9

Es probable que no pueda encontrar un polinomio que constituya una descripción correcta de la relación, sin importar cuántos datos tenga.

Este problema puede extenderse a casi cualquier clase de modelos.

Sin embargo, generalmente estamos interesados ​​en obtener una buena descripción que sea suficiente para algún propósito (un modelo), en lugar de descubrir el proceso real (posiblemente demasiado complicado) que impulsa las observaciones.

De hecho, incluso cuando el proceso verdadero es de una clase hipotética de modelos potenciales, puede ser contraproducente descubrir el modelo verdadero (que podría ser de alto orden, por ejemplo, pero los términos de alto orden podrían ser muy pequeños). Puede ser que un modelo más simple (es decir, incorrecto ) sea mucho mejor para nuestros propósitos.

Por ejemplo, imagine que estamos tratando de predecir los siguientes valores en una serie algo ruidosa. Cualquier modelo que ajustemos tiene algún error en las estimaciones de los parámetros, y ese error será ampliado por el pronóstico. No se necesita mucho para tener un modelo de orden bajo (que está necesariamente sesgado) con un rendimiento de error de predicción cuadrático mucho mejor (digamos) que el orden del modelo 'verdadero'.

Una herramienta común para evaluar el rendimiento del modelo es la predicción fuera de la muestra (no necesariamente con el tiempo). La validación cruzada es una forma común de elegir modelos o comparar el rendimiento del modelo.

Rob Hyndman escribió una pequeña introducción agradable aquí .

Glen_b -Reinstate a Monica
fuente
1

Yo diría que muy a menudo las personas se alinean con uno de tres enfoques diferentes:

  • Frecuentes, que utilizan pruebas como la prueba F
  • bayesianos, que hacen uso de la inferencia bayesiana
  • chicos de teoría de la información, que usan BIC y AIC, al igual que otros ejemplos citados anteriormente.

El análisis frecuente es probablemente el más directo y el más criticado por sus defectos. La teoría de la información, por otro lado, experimentó un auge recientemente, atrayendo la atención de más y más personas a medida que pasa el tiempo. Creo que deberías tratar de entender un poco y sacar algunas ideas de cada uno de los tres enfoques. Si no tiene idea de qué deben contener los datos, entonces el enfoque frecuentista es una buena manera de comenzar; Por otro lado, si tiene alguna información sobre el modelo subyacente, eche un vistazo a la inferencia bayesiana. Y siempre mantendría bajo el número de parámetros libres, y eso es lo que AIC y BIC intentan equilibrar la información con los parámetros.

pedrofigueira
fuente
0

Usaría splines cúbicos restringidos que le permiten aproximar mejor la curva. Como un refinamiento adicional, puede usar AICc (o BIC) para elegir el número de nudos.

koenbro - Restablece a Monica
fuente
Realmente depende del problema específico y del conjunto de datos, a veces una línea recta es la mejor forma de decir algo sin ver los datos.
nico