RMSE entre dos rásteres paso a paso

8

¿Alguien puede mostrar cómo calcular el RMSE (error cuadrático medio) entre los siguientes dos rásteres paso a paso y analizar los valores mínimos y máximos de los resultados obtenidos y cómo interpretarlos.

 First raster (original, 2 by 2):
 1 2
 3 4

 Second raster (obtained, 2 by 2):
 2 2
 4 1
hasta
fuente

Respuestas:

13

Cálculo

  1. Resta una trama de la otra. (La dirección de la resta no importa).

    -1 0
    -1 3

  2. Cuadrar el resultado.

    1 0
    1 9

  3. Promedio de los valores.

    (1 + 0 + 1 + 9)/(1 + 1 + 1 + 1) = 11/4.

    (Escribí esto de manera sugerente para mostrar cómo se pueden manejar las celdas de datos faltantes si su SIG no tiene esta capacidad: Cree una cuadrícula de indicadores con 1 donde tenga datos y 0 en otro lugar. Divida la suma de su cuadrícula por la suma de la cuadrícula de indicadores. En Spatial Analyst puede obtener las sumas como sumas focales).

  4. Toma la raíz cuadrada.

    Sqrt(11/4) = 1.66

Interpretación

Este número es una medida de la diferencia típica celda por celda entre las dos cuadrículas. Cuando las cuadrículas tienen cientos de valores o más (como la mayoría), no exhiben valores extremos extremos o periféricos, y la diferencia promedio es cero , entonces la regla general estándar para interpretar el rmse es:

  • Aproximadamente 2/3 de todas las celdas diferirán en menos de la rmse.

  • Alrededor del 95% de todas las células diferirán en menos del doble de la rmse.

  • Será inusual ver diferencias más de tres veces superiores.

En una cuadrícula de cualquier tamaño ( por ejemplo, un millón de celdas), "inusual" todavía se traduce en varios miles de celdas: alrededor de una fracción del uno por ciento de todas ellas.

En el ejemplo, que es trivialmente pequeño, sabiendo que hay 4 celdas y el valor de rmse es 1.66, pensaríamos "aproximadamente 2/3 - digamos 2 o 3 - de las celdas están de acuerdo dentro de 1.66. Probablemente todas aceptar dentro de 2 * 1.66 = 3.32 ". El estado actual de las cosas, como podemos ver en el resultado del paso (1), es que 3/4 de las celdas están de acuerdo dentro de 1,66 y todas están de acuerdo dentro de 3.

Cuando las cuadrículas varían enormemente y exhiben enormes rangos de valores, puede desconfiar de las reglas generales. De la desigualdad de Chebyshev que todavía sabe que

  • No más de 1/4 de las células difieren en más del doble de la rmse.

  • No más de 1/9 de las células difieren en más de tres veces la rmse.

  • En general, elija cualquier número k igual a 2 o mayor. No más de 1 / k ^ 2 de las celdas difieren en más de k veces la rmse.

Esta es una regla universal , válida para cualquier par de cuadrículas, mientras que la regla general anterior supone que la distribución de las diferencias de las celdas es aproximadamente "en forma de campana" sin muchos valores atípicos extremos.

Editar

Las interpretaciones anteriores suponen que está comparando dos cuadrículas destinadas a representar la misma cosa, hasta el error de medición, de modo que su diferencia promedio es cero (o lo suficientemente cerca). Cuando la diferencia promedio es apreciable (en comparación con el rmse), estas interpretaciones son incorrectas, pero rara vez tiene sentido usar el rmse. En cambio, uno (a) informará la diferencia promedio y (b) restará su cuadrado después del paso (3). Esto da el cuadrado medio residual en lugar de la diferencia cuadrática media. Su raíz cuadrada es el tamaño típico de las variaciones entre las dos cuadrículas en relación con su diferencia promedio . Con esta advertencia, la interpretación puede usar las mismas reglas generales que antes.

whuber
fuente
@whuber: muchas gracias !!! ¿Hay algún libro que describa este proceso como lo haces en detalle? o papel? como una referencia. una vez más muchas gracias !!! Realmente lo aprecio.
@whuber: ¿cómo cambiaría el cálculo si tenemos los siguientes rásteres, raster1 (3 por 3) = {{1,2, -9999}, {2,3, -9999}, {4,5, -9999}} y raster2 (3 por 3) = {{2,2, -9999}, {- 9999,3,4}, {- 9999, -9999, -9999}}. donde ningún valor de datos es -9999. ¡¡¡muchas gracias!!!
@opl La diferencia de los dos es igual a {{-1,0, Null}, {Null, 0, Null}, {Null, Null, Null}}. Por lo tanto, la diferencia al cuadrado es igual a {{1,0, Null}, {Null, 0, Null}, {Null, Null, Null}} y el indicador es igual a {{1,1, Null}, {Null, 1, Null} , {Nulo, Nulo, Nulo}}. Sus sumas son 1 y 3, respectivamente, dando un cuadrado medio de 1/3 y hay un rms de Sqrt (1/3).
whuber
@whuber: ¿es posible decir que el valor 'rmse' resultante estará en un rango específico, como digamos min 0 y max 10 ...? así que puedo decir que, si está cerca del valor mínimo, entonces es mejor, y cuando está más cerca del valor máximo, se está desviando significativamente, o al revés. ¡gracias por adelantado!
@opl Por lo general, no puede predecir la respuesta por adelantado a menos que sepa algo acerca de cómo es probable que varíen las cuadrículas. Por ejemplo, los metadatos para cada cuadrícula pueden proporcionar una indicación cuantitativa de su probable desviación de la verdad. Digamos, cada uno es un DEM y uno tiene un error vertical declarado de + -15 my el otro tiene un error vertical declarado de + -20 m. Tomando estos como indicaciones aproximadas de la desviación estándar, podemos combinarlos para estimar un error relativo de Sqrt (15 ^ 2 + 20 ^ 2) = 25 m. En este caso, esperaría que la distancia entre los dos sea de unos 25 m.
whuber