Contexto:
De una pregunta sobre Mathematics Stack Exchange (¿Puedo construir un programa) , alguien tiene un conjunto de puntos y , y quiere ajustarle una curva, lineal, exponencial o logarítmica. El método habitual es comenzar eligiendo uno de estos (que especifica el modelo) y luego hacer los cálculos estadísticos.
Pero lo que realmente se quiere es encontrar la "mejor" curva de lineal, exponencial o logarítmica.
Ostensiblemente, uno podría probar los tres y elegir la curva mejor ajustada de los tres de acuerdo con el mejor coeficiente de correlación.
Pero de alguna manera siento que esto no es del todo kosher. El método generalmente aceptado es elegir primero su modelo, uno de esos tres (o alguna otra función de enlace), luego, a partir de los datos, calcule los coeficientes. Y después de elegir de facto, lo mejor de todo es la recolección de cerezas. Pero para mí, ya sea que esté determinando una función o coeficientes a partir de los datos, sigue siendo lo mismo, su procedimiento es descubrir lo mejor ... (digamos que qué función es -también- se descubrirá otro coeficiente).
Preguntas:
- ¿Es apropiado elegir el modelo que mejor se ajuste entre los modelos lineales, exponenciales y logarítmicos, en base a una comparación de estadísticas de ajuste?
- Si es así, ¿cuál es la forma más adecuada de hacer esto?
- Si la regresión ayuda a encontrar parámetros (coeficientes) en una función, ¿por qué no puede haber un parámetro discreto para elegir cuál de las tres familias de curvas sería la mejor?
Respuestas:
fuente
Esta es una pregunta que es válida en dominios muy diversos.
El mejor modelo es el que puede predecir puntos de datos que no se utilizaron durante la estimación de parámetros. Lo ideal sería calcular los parámetros del modelo con un subconjunto del conjunto de datos y evaluar el rendimiento del ajuste en otro conjunto de datos. Si está interesado en los detalles, realice una búsqueda con "validación cruzada".
Entonces la respuesta a la primera pregunta es "No". No puede simplemente tomar el modelo que mejor se ajuste. Imagen que está ajustando un polinomio con enésimo grado a N puntos de datos. Será un ajuste perfecto, porque todo el modelo pasará exactamente todos los puntos de datos. Sin embargo, este modelo no se generalizará a nuevos datos.
La forma más adecuada, por lo que puedo decir, es calcular cuánto puede generalizar su modelo a otros conjuntos de datos utilizando métricas que castigan simultáneamente la amplitud de los residuos y el número de parámetros en su modelo. AIC y BIC son algunas de estas métricas que conozco.
fuente
Dado que muchas personas exploran habitualmente el ajuste de varias curvas a sus datos, no sé de dónde provienen sus reservas. Por supuesto, existe el hecho de que un cuadrático siempre se ajustará al menos tan bien como un lineal, y un cúbico, al menos tan bien como un cuadrático, por lo que hay formas de probar la importancia estadística de agregar un término no lineal y, por lo tanto, Evite la complejidad innecesaria. Pero la práctica básica de probar muchas formas diferentes de una relación es solo una buena práctica. De hecho, uno podría comenzar con una regresión loess muy flexible para ver cuál es el tipo de curva más plausible para ajustarse.
fuente
Realmente necesita encontrar un equilibrio entre la ciencia / teoría que conduce a los datos y lo que los datos le dicen. Como han dicho otros, si te dejas encajar en cualquier posible transformación (polinomios de cualquier grado, etc.), terminarás sobreajustando y obteniendo algo que es inútil.
Una forma de convencerse de esto es a través de la simulación. Elija uno de los modelos (lineal, exponencial, log) y genere datos que sigan este modelo (con una elección de los parámetros). Si su varianza condicional de los valores de y es pequeña en relación con la dispersión de la variable x, entonces una simple gráfica hará obvio qué modelo se eligió y cuál es la "verdad". Pero si elige un conjunto de parámetros de modo que no sea obvio en los gráficos (probablemente el caso en el que una solución analítica sea de interés), analice cada una de las 3 formas y vea cuál es el "mejor" ajuste. Espero que descubra que el "mejor" ajuste a menudo no es el "verdadero".
Por otro lado, a veces queremos que los datos nos digan lo más posible y es posible que no tengamos la ciencia / teoría para determinar completamente la naturaleza de la relación. El artículo original de Box y Cox (JRSS B, vol. 26, no. 2, 1964) analiza formas de comparar entre varias transformaciones en la variable y, su conjunto de transformaciones dado tiene casos lineales y log como casos especiales (pero no exponenciales) , pero nada en la teoría del artículo lo limita solo a su familia de transformaciones, la misma metodología podría extenderse para incluir una comparación entre los 3 modelos que le interesan.
fuente