La regresión y el aprendizaje automático se utilizan en las ciencias naturales para probar hipótesis, estimar parámetros y hacer predicciones ajustando modelos a los datos. Sin embargo, cuando tengo un modelo a priori , no quiero hacer ningún ajuste, por ejemplo, un modelo de un sistema físico determinista calculado a partir de los primeros principios. Simplemente quiero saber qué tan bien coincide mi modelo con los datos y luego entender qué partes del modelo contribuyen significativamente a la coincidencia. ¿Podría alguien señalarme una forma estadísticamente rigurosa de hacer esto?
En términos más específicos, supongamos que tengo un sistema físico para el cual una variable dependiente ( varía de 1 a , el tamaño de la muestra) en condiciones variables descritas por tres variables independientes , , y . Aunque el sistema real que generó los datos es complicado, hice algunas suposiciones simplificadoras para derivar un modelo teórico para el sistema, de modo que
,
donde es una función no lineal (y no linealizable) de las variables independientes y es la diferencia entre los valores medidos y predichos por el modelo. está completamente preespecificado; no se realiza ningún ajuste y no se estiman parámetros. Mi primer objetivo es determinar si es un modelo razonable para el proceso que produjo los valores medidos .
También desarrollé modelos simplificados y , que están anidados en (si eso importa en este caso). Mi segundo objetivo es determinar si coincide con los datos significativamente mejor que o , lo que sugiere que las características que diferencian modelo a partir de modelos y juegan un papel importante en el proceso que genera .
Ideas hasta ahora
Quizás si hubiera alguna forma de determinar la cantidad de parámetros o la cantidad de grados de libertad para mi modelo matemático, sería posible utilizar procedimientos existentes como una prueba de razón de probabilidad o una comparación AIC. Sin embargo, dada la forma no lineal de y la ausencia de parámetros obvios, no estoy seguro de si es razonable asignar parámetros o asumir lo que constituye un grado de libertad.
He leído que las medidas de bondad de ajuste, como el coeficiente de determinación ( ), se pueden usar para comparar el rendimiento del modelo. Sin embargo, no me queda claro cuál podría ser el umbral para una diferencia significativa entre los valores de . Además, debido a que no ajusto el modelo a los datos, la media de los residuos no es cero y puede ser diferente para cada modelo. Por lo tanto, un modelo de coincidencia adecuada que tiende a subestimar los datos podría arrojar un valor de tan pobre como un modelo imparcial pero poco adaptado a los datos.
También he leído un poco sobre las pruebas de bondad de ajuste (por ejemplo, Anderson-Darling), pero como las estadísticas no son mi campo, no estoy seguro de qué tan bien se adapta este tipo de prueba a mi propósito. Cualquier orientación sería apreciada.
f()
que deba determinarse a partir de un ajuste a los datos, o la función estáf()
completamente especificada previamente?f
está completamente especificada previamente. Es como un cuadro negro que produce la respuestay
de las variables de entrada, y quiero saber qué tan bien lo está haciendo en comparación con los cuadros negros de la competencia. Una situación análoga podría estar tratando de evaluar la coincidencia entre la salida de una simulación numérica y las mediciones realizadas en el sistema físico real.Respuestas:
En esta situación, básicamente está comparando las distribuciones de entre los 3 modelos. Por lo tanto, debe examinar cuestiones como:ϵyo
Los detalles de la mejor manera de abordar estas preguntas dependerán de la naturaleza de sus datos. Por ejemplo, si los valores de son necesariamente positivos y tienen errores de medición típicos proporcionales a sus valores (como suele ser el caso en la práctica), podría tener sentido hacer este análisis sobre las diferencias entre transformado log y las predicciones transformadas por log de Cada uno de sus modelos.yyo yyo
El análisis visual de las distribuciones de entre los 3 modelos, por ejemplo con gráficos de densidad, sería un primer paso importante.ϵyo
Dependiendo de la naturaleza de los datos, las pruebas estadísticas paramétricas o no paramétricas estándar para las diferencias en los valores medios, aplicadas a para los 3 modelos, abordarían el problema 1.ϵyo
El problema 2 es esencialmente lo que se hace para examinar la calidad de cualquier modelo ajustado; en su caso, este análisis puede mostrar dominios de las variables independientes sobre las cuales uno o más de sus modelos especificados previamente no funcionan bien. Las gráficas de versus valores predichos y valores de variables independientes, con curvas de loess para resaltar tendencias, para cada uno de sus modelos serían útiles.ϵyo
Si no hay sesgo en ninguno de los modelos y el análisis del problema 2 no muestra problemas, entonces el problema 3 restante es si alguno de los modelos es superior en términos de precisión / varianza. En el caso ideal con normalmente distribuido dentro de cada modelo, las pruebas F podrían probar la igualdad de las variaciones.ϵyo
fuente
Una comparación probabilística de los modelos, por ejemplo, que implica cierta probabilidad calculada a partir deϵ con algunos datos (y derivados de esta prueba AIC o ratio), tiene poco sentido.
Esto es porque
La mayoría de las personas describen modelos en términos del porcentaje de error para las predicciones.
Ejemplos:
Predicción de caída de presión de flujo de tubería de lodo utilizando correlaciones de factor de fricción de ley de potencia compuesta-Reynolds basadas en diferentes números de Reynolds no newtonianos
Predecir la viscosidad efectiva de los nanofluidos en función de la reología de las suspensiones de partículas sólidas.
Aplicación de inteligencia artificial para modelar asfalto-viscosidad de goma
Método de contribución de bonos para estimar las constantes de la ley de Henry
Básicamente, puede buscar en Google cualquier modelo que sea una simplificación de la realidad y encontrará personas que describen su discrepancia con la realidad en términos de coeficientes de correlación, o porcentaje de variación.
Para tal comparación, podría considerar el rendimiento medido como una muestra, una muestra tomada de una población de rendimiento más grande (hipotética).
Entonces desea describir los parámetros de la distribución de la población de los erroresϵ y compara esos. Esto podría considerarlo como probabilístico. Por ejemplo, podría expresarlo como "el error promedio del modelo es y± x ' . Su hipótesis es sobre aquellos parámetros que describen la distribución de los errores.
Sin embargo, este punto de vista es un poco problemático, ya que a menudo la "muestra" que se utiliza para medir el rendimiento, en realidad no es una selección aleatoria (por ejemplo, son mediciones a lo largo de un rango predefinido o entre un conjunto práctico seleccionado de elementos). Entonces, cualquier cuantificación del error en la estimación del rendimiento general no debe basarse en un modelo de selección aleatoria (por ejemplo, utilizando la varianza en la muestra para describir el error de la estimación). Por lo tanto, todavía tiene poco sentido usar un modelo probabilístico para describir las comparaciones. Puede ser suficiente simplemente declarar datos descriptivos y hacer su "estimación" sobre la generalización basada en argumentos lógicos.
fuente
x_3,i
contribuye de manera considerable a la producción dey
. Modelof
incorpora fenómeno Hace un tiempog
, yh
no, por lo que si mi hipótesis fuera cierta, yo predeciría que modelof
se comporta significativamente mejor que cualquierag
oh
.