¿Cómo puedo comparar modelos sin ajustar?

La regresión y el aprendizaje automático se utilizan en las ciencias naturales para probar hipótesis, estimar parámetros y hacer predicciones ajustando modelos a los datos. Sin embargo, cuando tengo un modelo a priori , no quiero hacer ningún ajuste, por ejemplo, un modelo de un sistema físico determinista calculado a partir de los primeros principios. Simplemente quiero saber qué tan bien coincide mi modelo con los datos y luego entender qué partes del modelo contribuyen significativamente a la coincidencia. ¿Podría alguien señalarme una forma estadísticamente rigurosa de hacer esto?

En términos más específicos, supongamos que tengo un sistema físico para el cual una variable dependiente ( varía de 1 a , el tamaño de la muestra) en condiciones variables descritas por tres variables independientes , , y . Aunque el sistema real que generó los datos es complicado, hice algunas suposiciones simplificadoras para derivar un modelo teórico para el sistema, de modo que $y_i$ $i$ $n$ $x_{1,i}$ $x_{2,i}$ $x_{3,i}$ $f$

$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$ ,

donde es una función no lineal (y no linealizable) de las variables independientes y es la diferencia entre los valores medidos y predichos por el modelo. está completamente preespecificado; no se realiza ningún ajuste y no se estiman parámetros. Mi primer objetivo es determinar si es un modelo razonable para el proceso que produjo los valores medidos . $f$ $\epsilon_i$ $f$ $f$ $y_i$

También desarrollé modelos simplificados y , que están anidados en (si eso importa en este caso). Mi segundo objetivo es determinar si coincide con los datos significativamente mejor que o , lo que sugiere que las características que diferencian modelo a partir de modelos y juegan un papel importante en el proceso que genera . $g(x_{1,i}, x_{2,i})$ $h(x_{1,i})$ $f$ $f$ $g$ $h$ $f$ $g$ $h$ $y_i$

Ideas hasta ahora

Quizás si hubiera alguna forma de determinar la cantidad de parámetros o la cantidad de grados de libertad para mi modelo matemático, sería posible utilizar procedimientos existentes como una prueba de razón de probabilidad o una comparación AIC. Sin embargo, dada la forma no lineal de y la ausencia de parámetros obvios, no estoy seguro de si es razonable asignar parámetros o asumir lo que constituye un grado de libertad. $f$

He leído que las medidas de bondad de ajuste, como el coeficiente de determinación ( ), se pueden usar para comparar el rendimiento del modelo. Sin embargo, no me queda claro cuál podría ser el umbral para una diferencia significativa entre los valores de . Además, debido a que no ajusto el modelo a los datos, la media de los residuos no es cero y puede ser diferente para cada modelo. Por lo tanto, un modelo de coincidencia adecuada que tiende a subestimar los datos podría arrojar un valor de tan pobre como un modelo imparcial pero poco adaptado a los datos. $R^2$ $R^2$ $R^2$

También he leído un poco sobre las pruebas de bondad de ajuste (por ejemplo, Anderson-Darling), pero como las estadísticas no son mi campo, no estoy seguro de qué tan bien se adapta este tipo de prueba a mi propósito. Cualquier orientación sería apreciada.

modeling simulation goodness-of-fit model-comparison jbacks
fuente

¿Hay algún valor de parámetro para la función no lineal f()que deba determinarse a partir de un ajuste a los datos, o la función está f()completamente especificada previamente?

EdM

@EdM ¡Gracias por eso! Editó la pregunta para aclarar que festá completamente especificada previamente. Es como un cuadro negro que produce la respuesta yde las variables de entrada, y quiero saber qué tan bien lo está haciendo en comparación con los cuadros negros de la competencia. Una situación análoga podría estar tratando de evaluar la coincidencia entre la salida de una simulación numérica y las mediciones realizadas en el sistema físico real.

jbacks

Respuestas:

En esta situación, básicamente está comparando las distribuciones de entre los 3 modelos. Por lo tanto, debe examinar cuestiones como: $\epsilon_i$

¿Los valores medios de diferentes entre los 3 modelos, y alguno de estos valores medios es diferente de 0? (Es decir, ¿hay algún sesgo en alguno de los modelos y los 3 modelos difieren en el sesgo?) $\epsilon_i$
¿Existe alguna relación sistemática de con los valores predichos del modelo correspondiente, o con los valores de las variables independientes ? Debe considerar las tres variables independientes aquí, incluso si el modelo en particular solo usara 1 o 2 de ellas. $\epsilon_i$ $x_{1,i},x_{2,i}, x_{3,1}$
¿Existen diferencias significativas en las variaciones de entre los 3 modelos? $\epsilon_i$

Los detalles de la mejor manera de abordar estas preguntas dependerán de la naturaleza de sus datos. Por ejemplo, si los valores de son necesariamente positivos y tienen errores de medición típicos proporcionales a sus valores (como suele ser el caso en la práctica), podría tener sentido hacer este análisis sobre las diferencias entre transformado log y las predicciones transformadas por log de Cada uno de sus modelos. $y_i$ $y_i$

El análisis visual de las distribuciones de entre los 3 modelos, por ejemplo con gráficos de densidad, sería un primer paso importante. $\epsilon_i$

Dependiendo de la naturaleza de los datos, las pruebas estadísticas paramétricas o no paramétricas estándar para las diferencias en los valores medios, aplicadas a para los 3 modelos, abordarían el problema 1. $\epsilon_i$

El problema 2 es esencialmente lo que se hace para examinar la calidad de cualquier modelo ajustado; en su caso, este análisis puede mostrar dominios de las variables independientes sobre las cuales uno o más de sus modelos especificados previamente no funcionan bien. Las gráficas de versus valores predichos y valores de variables independientes, con curvas de loess para resaltar tendencias, para cada uno de sus modelos serían útiles. $\epsilon_i$

Si no hay sesgo en ninguno de los modelos y el análisis del problema 2 no muestra problemas, entonces el problema 3 restante es si alguno de los modelos es superior en términos de precisión / varianza. En el caso ideal con normalmente distribuido dentro de cada modelo, las pruebas F podrían probar la igualdad de las variaciones. $\epsilon_i$

EdM
fuente

¡Pensar en la distribución residual como el objeto de comparación es un cambio de perspectiva útil! a) ¿Conocería algún análisis publicado que utilice un método similar? Siento que mi situación es inusual. Cualquier precedente publicado sería útil. b) La media de cada distribución residual es distinta de cero y visiblemente diferente para dos de mis modelos, y espero que ANOVA lo confirme. Sabiendo esto, ¿sería sensato examinar las diferencias entre la varianza de cada distribución residual (Problema 3)? ¿Podrían los patrones expuestos a través del Problema 2 invalidar una comparación de variaciones?

jbacks

@jbacks No conozco un precedente publicado, pero no creo que este enfoque sea difícil de vender si existe una base teórica sólida para su (s) modelo (s). En este análisis basado en la teoría, enfóquese en las razones del sesgo sistemático (error medio distinto de cero, Problema I) entre predicciones y observaciones. Eso parecería llegar más directamente al valor relativo de los modelos. El problema II (cualquier patrón de magnitud / dirección de error relacionado con valores de variables independientes o valores predichos) debería ilustrar hacia dónde se desvían sus modelos. Las comparaciones de las variaciones del modelo son de menor interés.

EdM

@jbacks también considera trabajar con observaciones / predicciones en una escala transformada, como logarítmica. Un sesgo en términos de error en una escala no transformada podría reducirse o eliminarse después de la transformación. Tenga en cuenta que el uso de errores porcentuales, sugerido en otra respuesta, es equivalente a observar las diferencias entre las predicciones y observaciones transformadas logarítmicamente. Tendrás que juzgar si eso sería apropiado para esta situación.

EdM

Esto parece plausible, y voy a intentarlo. Gracias de nuevo por su comprensión.

jbacks

Una comparación probabilística de los modelos, por ejemplo, que implica cierta probabilidad calculada a partir de $\epsilon$ con algunos datos (y derivados de esta prueba AIC o ratio), tiene poco sentido.

Esto es porque

Ya sabes con certeza que el modelo se equivocará.
Los residuos con los que terminas no tienen relación con la distribución hipotética de errores que usas para probar diferentes hipótesis. (no tiene un modelo estadístico / probabilístico)
Su objetivo no es probar una hipótesis (ciencia básica / pura), sino caracterizar el rendimiento de predicción de un modelo simplificado (ciencia aplicada).

La mayoría de las personas describen modelos en términos del porcentaje de error para las predicciones.

Ejemplos:

Predicción de caída de presión de flujo de tubería de lodo utilizando correlaciones de factor de fricción de ley de potencia compuesta-Reynolds basadas en diferentes números de Reynolds no newtonianos

Se muestra que estas correlaciones se pueden usar para predecir la caída de presión dentro de ± 20% para una concentración de lodo y condición operativa.
Predecir la viscosidad efectiva de los nanofluidos en función de la reología de las suspensiones de partículas sólidas.

El presente modelo se adapta a los valores de viscosidad 501 con desviaciones medias inferiores al 5% y el 75% de ellos están dentro del coeficiente de correlación 0,78–1.
Aplicación de inteligencia artificial para modelar asfalto-viscosidad de goma

La Figura 2 presenta una comparación entre la viscosidad medida ( $\rho$ ) y la viscosidad calculada por el modelo de Einstein. Una diferencia entre los valores calculados y medidos confirma que existe una elevada interacción física entre la base de asfalto y las partículas de caucho.
Método de contribución de bonos para estimar las constantes de la ley de Henry

Se determinó un coeficiente de correlación (r2) de 0,94 para la relación entre los LWAPC conocidos (coeficientes de partición de registro agua-aire) y los LWAPC estimados por enlace para el conjunto de datos compuestos de 345.

Básicamente, puede buscar en Google cualquier modelo que sea una simplificación de la realidad y encontrará personas que describen su discrepancia con la realidad en términos de coeficientes de correlación, o porcentaje de variación.

Quiero probar la hipótesis de que el "fenómeno A" que implica x_3,i contribuye de manera medible a la producción de y. Modelo fincorpora fenómeno Hace un tiempo g , y hno, por lo que si mi hipótesis fuera cierta, yo predeciría que modelo fse comporta significativamente mejor que cualquiera g o h.

Para tal comparación, podría considerar el rendimiento medido como una muestra, una muestra tomada de una población de rendimiento más grande (hipotética).

Entonces desea describir los parámetros de la distribución de la población de los errores $\epsilon$ y compara esos. Esto podría considerarlo como probabilístico. Por ejemplo, podría expresarlo como "el error promedio del modelo es $y \pm x$ ' . Su hipótesis es sobre aquellos parámetros que describen la distribución de los errores.

Sin embargo, este punto de vista es un poco problemático, ya que a menudo la "muestra" que se utiliza para medir el rendimiento, en realidad no es una selección aleatoria (por ejemplo, son mediciones a lo largo de un rango predefinido o entre un conjunto práctico seleccionado de elementos). Entonces, cualquier cuantificación del error en la estimación del rendimiento general no debe basarse en un modelo de selección aleatoria (por ejemplo, utilizando la varianza en la muestra para describir el error de la estimación). Por lo tanto, todavía tiene poco sentido usar un modelo probabilístico para describir las comparaciones. Puede ser suficiente simplemente declarar datos descriptivos y hacer su "estimación" sobre la generalización basada en argumentos lógicos.

Sexto Empírico
fuente

¡Estos ejemplos son útiles! Sin embargo, estoy un poco confundido por su afirmación de que mi objetivo no implica una prueba de hipótesis. A medida que lo enmarco, quiero probar la hipótesis de que la participación del "fenómeno A" x_3,icontribuye de manera considerable a la producción de y. Modelo fincorpora fenómeno Hace un tiempo g, y hno, por lo que si mi hipótesis fuera cierta, yo predeciría que modelo fse comporta significativamente mejor que cualquiera go h.

jbacks

@jbacks para tal comparación, podría considerar el rendimiento medido como una muestra tomada de una gran población de rendimiento. Entonces desea describir los parámetros de la distribución de la población de los errores

ϵ

$\epsilon$ y compara esos. Esto podría considerarlo como probabilístico. Por ejemplo, podría expresarlo como "el error promedio del modelo es

x \pm y

$x \pm y$ '. Su hipótesis es sobre esos parámetros.

Sextus Empiricus

Gracias por ampliar ese comentario con tu edición. Entre esta perspectiva y la otra respuesta, creo que tengo un camino plausible a seguir. ¡Muy apreciado!

jbacks