¿Cómo puede uno objetivamente (leer "algorítmicamente") seleccionar un modelo apropiado para hacer una simple regresión lineal de mínimos cuadrados con dos variables?
Por ejemplo, digamos que los datos parecen mostrar una tendencia cuadrática, y se genera una parábola que se ajusta bastante bien a los datos. ¿Cómo justificamos hacer de esto la regresión? ¿O cómo eliminamos la posibilidad de que exista un modelo mejor?
Lo que realmente me preocupa es esto: podríamos seguir agregando términos polinómicos hasta que tengamos un ajuste perfecto para el conjunto de datos (una interpolación de los puntos), sin ningún tipo de error. Pero esto sería inútil en cuanto a predecir o extrapolar, porque no habría razón para pensar que el "modelo" era realmente apropiado. Entonces, ¿cómo se equilibran las necesidades de precisión y atractivo intuitivo?
(Además, avísenme si esto se ha preguntado antes, supuse que habría sido pero no encontré nada).
fuente
Respuestas:
Puede mirar AIC, BIC o cualquiera de las otras medidas similares.
Podrías usar tus ojos y sentido del campo.
O podría evitar parte del problema utilizando splines.
fuente
Es probable que no pueda encontrar un polinomio que constituya una descripción correcta de la relación, sin importar cuántos datos tenga.
Este problema puede extenderse a casi cualquier clase de modelos.
Sin embargo, generalmente estamos interesados en obtener una buena descripción que sea suficiente para algún propósito (un modelo), en lugar de descubrir el proceso real (posiblemente demasiado complicado) que impulsa las observaciones.
De hecho, incluso cuando el proceso verdadero es de una clase hipotética de modelos potenciales, puede ser contraproducente descubrir el modelo verdadero (que podría ser de alto orden, por ejemplo, pero los términos de alto orden podrían ser muy pequeños). Puede ser que un modelo más simple (es decir, incorrecto ) sea mucho mejor para nuestros propósitos.
Por ejemplo, imagine que estamos tratando de predecir los siguientes valores en una serie algo ruidosa. Cualquier modelo que ajustemos tiene algún error en las estimaciones de los parámetros, y ese error será ampliado por el pronóstico. No se necesita mucho para tener un modelo de orden bajo (que está necesariamente sesgado) con un rendimiento de error de predicción cuadrático mucho mejor (digamos) que el orden del modelo 'verdadero'.
Una herramienta común para evaluar el rendimiento del modelo es la predicción fuera de la muestra (no necesariamente con el tiempo). La validación cruzada es una forma común de elegir modelos o comparar el rendimiento del modelo.
Rob Hyndman escribió una pequeña introducción agradable aquí .
fuente
Yo diría que muy a menudo las personas se alinean con uno de tres enfoques diferentes:
El análisis frecuente es probablemente el más directo y el más criticado por sus defectos. La teoría de la información, por otro lado, experimentó un auge recientemente, atrayendo la atención de más y más personas a medida que pasa el tiempo. Creo que deberías tratar de entender un poco y sacar algunas ideas de cada uno de los tres enfoques. Si no tiene idea de qué deben contener los datos, entonces el enfoque frecuentista es una buena manera de comenzar; Por otro lado, si tiene alguna información sobre el modelo subyacente, eche un vistazo a la inferencia bayesiana. Y siempre mantendría bajo el número de parámetros libres, y eso es lo que AIC y BIC intentan equilibrar la información con los parámetros.
fuente
Usaría splines cúbicos restringidos que le permiten aproximar mejor la curva. Como un refinamiento adicional, puede usar AICc (o BIC) para elegir el número de nudos.
fuente