Determinación de la función de ajuste de curva de mejor ajuste a partir de funciones lineales, exponenciales y logarítmicas

18

Contexto:

De una pregunta sobre Mathematics Stack Exchange (¿Puedo construir un programa) , alguien tiene un conjunto de puntos y , y quiere ajustarle una curva, lineal, exponencial o logarítmica. El método habitual es comenzar eligiendo uno de estos (que especifica el modelo) y luego hacer los cálculos estadísticos.xy

Pero lo que realmente se quiere es encontrar la "mejor" curva de lineal, exponencial o logarítmica.

Ostensiblemente, uno podría probar los tres y elegir la curva mejor ajustada de los tres de acuerdo con el mejor coeficiente de correlación.

Pero de alguna manera siento que esto no es del todo kosher. El método generalmente aceptado es elegir primero su modelo, uno de esos tres (o alguna otra función de enlace), luego, a partir de los datos, calcule los coeficientes. Y después de elegir de facto, lo mejor de todo es la recolección de cerezas. Pero para mí, ya sea que esté determinando una función o coeficientes a partir de los datos, sigue siendo lo mismo, su procedimiento es descubrir lo mejor ... (digamos que qué función es -también- se descubrirá otro coeficiente).

Preguntas:

  • ¿Es apropiado elegir el modelo que mejor se ajuste entre los modelos lineales, exponenciales y logarítmicos, en base a una comparación de estadísticas de ajuste?
  • Si es así, ¿cuál es la forma más adecuada de hacer esto?
  • Si la regresión ayuda a encontrar parámetros (coeficientes) en una función, ¿por qué no puede haber un parámetro discreto para elegir cuál de las tres familias de curvas sería la mejor?
Mitch
fuente
1
He agregado la etiqueta de selección de modelo para su conveniencia: vincularla producirá una gran cantidad de hilos directamente relevantes. Otras etiquetas que vale la pena mirar incluyen aic . Eventualmente, debe descubrir que al enunciado matemático de este problema le faltan dos elementos esenciales: una descripción de cómo y por qué los puntos pueden desviarse de una curva teórica y una indicación del costo de no obtener exactamente la curva correcta. En ausencia de esos elementos, hay muchos enfoques diferentes que pueden producir diferentes respuestas, lo que demuestra que "mejor" está mal definido.
whuber
1
Puede reservar un porcentaje de sus datos para validar el modelo y elegir el modelo que mejor se adapte a ese conjunto de datos de validación. Entonces, en esencia, tendría tres conjuntos distintos para dividir sus datos en 1. los datos para entrenar un solo modelo 2. datos que validan cada modelo que le permite seleccionar el mejor modelo y 3. sus datos de validación final reales que no se tocan .
kleineg
1
@kleineg Eso suena como la dirección correcta. La elección del modelo (p. Ej., Entre lin / exp / log) es como un hiperparámetro de un solo modelo, que de alguna manera es solo otra etapa de parámetros regulares, y entrar en él por etapas separadas de tren / validación / prueba podría generalizarse.
Mitch
Relevante: {Una forma sutil de sobreajustar] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ): elegir entre múltiples funciones del modelo (por ejemplo, exp vs lineal vs log) es solo Otro parámetro. Se podría considerar como un hiperparámetro (que necesitaría un paso de validación) o un parámetro regular en una función complicada de combinación (donde se probaría en un paso de prueba).
Mitch

Respuestas:

9
  • Es posible que desee consultar el software gratuito llamado Eureqa . Tiene el objetivo específico de automatizar el proceso de encontrar tanto la forma funcional como los parámetros de una relación funcional dada.
  • Si está comparando modelos, con diferentes números de parámetros, generalmente querrá usar una medida de ajuste que penalice los modelos con más parámetros. Existe una rica literatura sobre qué medida de ajuste es más apropiada para la comparación de modelos, y los problemas se vuelven más complicados cuando los modelos no están anidados. Me interesaría escuchar lo que otros piensan que es el índice de comparación de modelos más adecuado dado su escenario (como punto secundario, recientemente hubo una discusión en mi blog sobre los índices de comparación de modelos en el contexto de la comparación de modelos para el ajuste de curvas).
  • Desde mi experiencia, los modelos de regresión no lineal se usan por razones más allá del ajuste estadístico puro a los datos dados:
    1. Los modelos no lineales hacen predicciones más plausibles fuera del rango de los datos.
    2. Los modelos no lineales requieren menos parámetros para un ajuste equivalente
    3. Los modelos de regresión no lineal a menudo se aplican en dominios donde existe una importante investigación previa y selección de modelos de guía teórica.
Jeromy Anglim
fuente
5

Esta es una pregunta que es válida en dominios muy diversos.

El mejor modelo es el que puede predecir puntos de datos que no se utilizaron durante la estimación de parámetros. Lo ideal sería calcular los parámetros del modelo con un subconjunto del conjunto de datos y evaluar el rendimiento del ajuste en otro conjunto de datos. Si está interesado en los detalles, realice una búsqueda con "validación cruzada".

Entonces la respuesta a la primera pregunta es "No". No puede simplemente tomar el modelo que mejor se ajuste. Imagen que está ajustando un polinomio con enésimo grado a N puntos de datos. Será un ajuste perfecto, porque todo el modelo pasará exactamente todos los puntos de datos. Sin embargo, este modelo no se generalizará a nuevos datos.

La forma más adecuada, por lo que puedo decir, es calcular cuánto puede generalizar su modelo a otros conjuntos de datos utilizando métricas que castigan simultáneamente la amplitud de los residuos y el número de parámetros en su modelo. AIC y BIC son algunas de estas métricas que conozco.

bonobo
fuente
3

Dado que muchas personas exploran habitualmente el ajuste de varias curvas a sus datos, no sé de dónde provienen sus reservas. Por supuesto, existe el hecho de que un cuadrático siempre se ajustará al menos tan bien como un lineal, y un cúbico, al menos tan bien como un cuadrático, por lo que hay formas de probar la importancia estadística de agregar un término no lineal y, por lo tanto, Evite la complejidad innecesaria. Pero la práctica básica de probar muchas formas diferentes de una relación es solo una buena práctica. De hecho, uno podría comenzar con una regresión loess muy flexible para ver cuál es el tipo de curva más plausible para ajustarse.

rolando2
fuente
3
Si los ajustes cuadráticos son mejores, dependerá de cómo haya puesto en funcionamiento un buen ajuste. En particular, si usa una medida de ajuste que penaliza los modelos con más parámetros (por ejemplo, AIC), entonces, por ejemplo, el ajuste puede ser peor para cuadrático versus lineal.
Jeromy Anglim
99
@rolando, tal vez estoy malinterpretando, pero, francamente, este tipo de consejo (no calificado) es precisamente el tipo de cosas contra las cuales, como estadísticos, pasamos tanto tiempo "luchando". Particularmente, si el OP está interesado en algo más que un simple ajuste de curva, por ejemplo, predicción o inferencia, es muy importante comprender las implicaciones del enfoque de las estadísticas de "solo intente lo que pueda pensar".
cardenal
2
Tengo problemas para conciliar estos comentarios con la tradición de Anscombe, Tukey, Mosteller, Tufte y Cleveland, que enfatiza la necesidad de visualizar y explorar datos y evaluar la forma de cada relación antes de construir un modelo, establecer coeficientes o generando otras estadísticas.
rolando2
8
Hay mucha controversia con respecto a sus enfoques. Una forma demasiado simplificada de resumir estos problemas es que si desea aprender sobre patrones y hacer nuevos descubrimientos que necesitan validación posterior, el análisis exploratorio es apropiado. Si desea hacer una inferencia (razón de una muestra particular a una población general usando valores P, intervalos de confianza, etc.), no tanto.
Frank Harrell
44
Este es el hilo de comentarios más productivo que he visto en CV, especialmente el intercambio b / t rolando2 (3 ^) y @FrankHarrell. También encuentro ambos enfoques muy atractivos. Mi propia resolución es planificar qué probar de antemano y solo ajustar / probar ese modelo para sacar conclusiones firmes, pero también explorar a fondo los datos (sin creer que los resultados necesariamente tienen) para descubrir lo que podría ser cierto y planificación para el próximo estudio. (¿Debo realizar otro estudio y verificar algo, sería interesante / importante?) La clave son sus creencias sobre los resultados de estos análisis.
gung - Restablece a Monica
3

Realmente necesita encontrar un equilibrio entre la ciencia / teoría que conduce a los datos y lo que los datos le dicen. Como han dicho otros, si te dejas encajar en cualquier posible transformación (polinomios de cualquier grado, etc.), terminarás sobreajustando y obteniendo algo que es inútil.

Una forma de convencerse de esto es a través de la simulación. Elija uno de los modelos (lineal, exponencial, log) y genere datos que sigan este modelo (con una elección de los parámetros). Si su varianza condicional de los valores de y es pequeña en relación con la dispersión de la variable x, entonces una simple gráfica hará obvio qué modelo se eligió y cuál es la "verdad". Pero si elige un conjunto de parámetros de modo que no sea obvio en los gráficos (probablemente el caso en el que una solución analítica sea de interés), analice cada una de las 3 formas y vea cuál es el "mejor" ajuste. Espero que descubra que el "mejor" ajuste a menudo no es el "verdadero".

Por otro lado, a veces queremos que los datos nos digan lo más posible y es posible que no tengamos la ciencia / teoría para determinar completamente la naturaleza de la relación. El artículo original de Box y Cox (JRSS B, vol. 26, no. 2, 1964) analiza formas de comparar entre varias transformaciones en la variable y, su conjunto de transformaciones dado tiene casos lineales y log como casos especiales (pero no exponenciales) , pero nada en la teoría del artículo lo limita solo a su familia de transformaciones, la misma metodología podría extenderse para incluir una comparación entre los 3 modelos que le interesan.

Greg Snow
fuente