He tomado una muestra de puntos de datos de una población. Cada uno de estos puntos tiene un valor verdadero (conocido por la verdad básica) y un valor estimado. Luego calculo el error para cada punto muestreado y luego calculo el RMSE de la muestra.
¿Cómo puedo inferir algún tipo de intervalo de confianza alrededor de este RMSE, basado en el tamaño de muestra ?
Si estuviera usando la media, en lugar de la RMSE, entonces no tendría problemas para hacerlo, ya que puedo usar la ecuación estándar
pero no sé si esto es válido para RMSE en lugar de la media. ¿Hay alguna manera de que pueda adaptar esto?
(He visto esta pregunta , pero no tengo problemas con la distribución normal de mi población, que es de lo que trata la respuesta)
confidence-interval
robintw
fuente
fuente
Respuestas:
Con un razonamiento similar al de aquí , podría dar una respuesta a su pregunta bajo ciertas condiciones.
Vamos ser tu verdadero valor para el i t h punto de datos y x i el valor estimado. Si suponemos que las diferencias entre los valores estimados y verdaderos tienenxi ith x^i
media cero (es decir, el x i se distribuyen alrededor de x i )x^i xi
seguir una distribución normal
y todos tienen la misma desviación estándarσ
en breve:
entonces realmente quieres un intervalo de confianza para .σ
Si las suposiciones anteriores son verdaderas sigue unadistribuciónχ 2 n conn(non-1) grados de libertad. Esto significa
Por lo tanto, es su intervalo de confianza.
Aquí hay un programa de Python que simula su situación.
Espero que ayude.
Si no está seguro de si se aplican los supuestos o si desea comparar lo que escribí con un método diferente, siempre puede intentar el arranque .
fuente
El razonamiento en la respuesta de fabee parece correcto si se aplica al STDE (desviación estándar del error), no al RMSE. Usando una nomenclatura similar,i = 1 ,... ,norte is an index representing each record of data, xi is the true value and x^i is a measurement or prediction.
The errorϵi , BIAS, MSE (mean squared error) and RMSE are given by:
Agreeing on these definitions, the BIAS corresponds to the sample mean ofϵ , but MSE is not the biased sample variance. Instead:
Thus, in my opinion the confidence intervals established by fabee refer to the sample standard deviation ofϵ , STDE. Similarly, confidence intervals may be established for the BIAS based on the z-score (or t-score if n<30 ) and STDE/n−−√ .
fuente
Following Faaber 1999, the uncertainty of RMSE is given as
fuente