RMSE vs. Coeficiente de Determinación

21

Estoy evaluando un modelo físico y me gustaría saber cuál de los métodos debería usar aquí (entre RMSE y Coefficient of Determination R2)

El problema es el siguiente: tengo una función que genera predicciones para el valor de entrada x, . También tengo la observación real para ese valor que llamo .yX¯=F(X)yX

Mi pregunta es cuáles son los pros y los contras de RMSE o . Los he visto a ambos ser utilizados en documentos para el problema en el que estoy trabajando.R2

MarkSAlen
fuente

Respuestas:

16

Los he usado a los dos y tengo algunos puntos que destacar.

  • Rmse es útil porque es simple de explicar. Todos saben lo que es.
  • Rmse no muestra valores relativos. Si , debe conocer específicamente el rango . Si , entonces 0.2 es un buen valor. Si , ya no parece tan bueno.α < y x < β α = 1 , β = 1000 α = 0 , β = 1rmetrosmi=0.2 0.2α<yX<βα=1,β=1000α=0 0,β=1
  • En línea con el enfoque anterior, rmse es una buena manera de ocultar el hecho de que las personas que encuestó, o las mediciones que tomó son en su mayoría uniformes (todos calificaron el producto con 3 estrellas), y sus resultados se ven bien porque los datos lo ayudaron. Si los datos fueran un poco aleatorios, encontraría su modelo orbitando a Júpiter.
  • Utilice el coeficiente de determinación ajustado, en lugar del ordinarioR2
  • El coeficiente de determinación es difícil de explicar. Incluso las personas del campo necesitan una sugerencia de nota al pie como \ nota al pie {El coeficiente de determinación ajustado es la proporción de variabilidad en un conjunto de datos que puede explicarse por el modelo estadístico. Este valor muestra qué tan bien el modelo puede predecir los resultados futuros. puede tomar 0 como mínimo y 1 como máximo.}R2
  • Sin embargo, el coeficiente de determinación es muy preciso para determinar qué tan bien su modelo explica un fenómeno. si , independientemente de los valores de , su modelo es malo. Creo que el punto de corte para un buen modelo comienza desde 0.6, y si tiene algo alrededor de 0.7-0.8, su modelo es muy bueno.y xR2=0.2 0.2yX
  • Para recapitular, dice que, con su modelo, puede explicar el 70% de lo que está sucediendo en los datos reales. El resto, 30%, es algo que no sabe y no puede explicar. Probablemente sea porque hay factores de confusión o porque cometiste algunos errores al construir el modelo.R2=0.7
  • En informática, casi todos usan rmse. Las ciencias sociales usan más a menudo.R2
  • Si no necesita justificar los parámetros en su modelo, simplemente use rmse. Sin embargo, si necesita colocar, eliminar o cambiar sus parámetros mientras construye su modelo, debe usar para mostrar que estos parámetros pueden explicar mejor los datos.R2
  • Si va a usar , codifique en el lenguaje R. Tiene bibliotecas, y solo le das los datos para tener todos los resultados.R2

Para un aspirante a informático, fue emocionante escribir sobre estadísticas. Atentamente.

Cuneyt
fuente
8
This value shows how well future outcomes can be predicted by the model- Esto es extremadamente engañoso y se inclina simplemente hacia el mal . No hay garantía de que un alto coeficiente de determinación en un modelo dado se relacione con qué tan bien se pronosticarán los resultados futuros.
Prophet60091
55
Creo que declaraciones como " si su modelo es maloR2=0.2 0.2 ", " su modelo es muy bueno " son generalizaciones generales. Si cualquier cosa por un problema del mundo real un de 0,8 haría que los problemas de sobreajuste fuertemente sospechosos ...R2=0.7-0.8R2
usεr11852 dice Restablecer Monic
3
si = 0.2, independientemente de los valores de yx, su modelo es malo. Creo que el punto de corte para un buen modelo comienza desde 0.6, y si tiene algo alrededor de 0.7-0.8, su modelo es muy bueno. Esto depende en gran medida del campo en el que esté trabajando. Imagine que intenta predecir índices relevantes de intercambio de pila para el próximo año. Serías el hombre más rico del mundo con un de 0.2. R 2R2R2
Jan Hackenberg
Estoy de acuerdo con Jan Hackenberg y Prophet60091. Partes de su respuesta son definitivamente incorrectas y no entiendo por qué esta es la respuesta aceptada y la gente está votando. En realidad, esto probablemente significa que las personas están usando sus métricas sin saber cómo interpretarlas ...
Cord Kaldemeyer
9

No importa qué medida de error administre, considere dar su vector de resultados completo en un apéndice. Las personas a las que les gusta comparar con su método pero prefieren otra medición de error pueden derivar dicho valor de su tabla.

R2 :

  • No refleja errores sistemáticos. Imagine que mide diámetros en lugar de radios de objetos circulares. Tiene una sobreestimación esperada del 100%, pero puede alcanzar un cercano a 1.R2

  • No estoy de acuerdo con los comentarios anteriores de que es difícil de entender. Cuanto mayor sea el valor, más preciso será su modelo, pero puede incluir errores sistemáticos.R2

  • Puede expresarse mediante la fórmula fácil de entender en la que construye la razón de la suma de los residuos al cuadrado y se divide por la media:

R2=1-SSmimetromiunnorte=1-(yyo-yyo¯)2(yyo-y¯)2

  • debe expresarse en su versión más avanzada de . Aquí más predictores castigan al modelo. Se espera que sea más robusto contra el sobreajuste.Runrej.2

RMETROSmi :

  • Puede alcanzar un bajo solo si tiene una alta precisión (los valores atípicos simples pero grandes castigan fuertemente) y ningún error sistemático. Entonces, en cierto modo, un bajo mejor calidad que un alto .RMETROSmiRMETROSmiR2

  • Este número tiene una unidad y no es fácil de interpretar para personas que no están familiarizadas con sus datos. Se puede dividir, por ejemplo, con la media de los datos para producir un . Tenga cuidado, esta no es la única definición de . Algunas personas prefieren dividir por el rango de sus datos en lugar de dividir por la media.rmil.RMETROSmirmil.RMETROSmi

Como otras personas mencionaron, la elección podría depender de su campo y estado del arte. ¿Existe un método ampliamente aceptado para comparar también? Use la misma medida que ellos y podrá vincular directamente los beneficios de sus métodos fácilmente en la discusión.

Jan Hackenberg
fuente
7

Tanto el Root-Mean-Square-Error (RMSE) como el coeficiente de determinación ( )R2 ofrecen información diferente, pero complementaria, que debe evaluarse al evaluar su modelo físico. Ninguno de los dos es "mejor", pero algunos informes podrían centrarse más en una métrica dependiendo de la aplicación en particular.

Usaría lo siguiente como una guía muy general para comprender la diferencia entre ambas métricas:

El RMSE le da una idea de cuán cerca (o lejos) están sus valores pronosticados de los datos reales que está intentando modelar. Esto es útil en una variedad de aplicaciones en las que desea comprender la precisión y precisión de las predicciones de su modelo (por ejemplo, modelar la altura del árbol).

Pros

  1. Es relativamente fácil de entender y comunicar ya que los valores informados están en las mismas unidades que la variable dependiente que se está modelando.

Contras

  1. Es sensible a los errores grandes (penaliza los errores de predicción grandes más que los errores de predicción más pequeños).

El coeficiente de determinación ( )R2 es útil cuando intenta comprender qué tan bien las variables independientes seleccionadas explican la variabilidad en sus variables dependientes. Esto es útil cuando intenta explicar qué factores podrían estar impulsando el proceso subyacente de interés (por ejemplo, variables climáticas y condiciones del suelo relacionadas con la altura de los árboles).

Pros

  1. Da una idea general de qué tan bien las variables seleccionadas se ajustan a los datos.

Contras

  1. R2R2

Por supuesto, lo anterior estará sujeto al tamaño de la muestra y al diseño de la muestra, y a un entendimiento general de que la correlación no implica causalidad.

Profeta 60091
fuente
1

También hay MAE, error absoluto medio. A diferencia de RMSE, no es demasiado sensible a los grandes errores. Por lo que he leído, algunos campos prefieren RMSE, otros MAE. Me gusta usar ambos.

JenSCDC
fuente
0

En realidad, para que los científicos estadísticos conozcan el mejor ajuste del modelo, entonces RMSE es muy importante para esas personas en su sólida investigación. Si RMSE está muy cerca de cero, entonces el modelo se ajusta mejor.

El coeficiente de determinación es bueno para otros científicos como la agricultura y otros campos. Es un valor entre 0 y 1. Si es 1, el 100% de los valores coinciden con los conjuntos de datos observados. Si es 0, entonces los datos son completamente heterogéneos. Dr.SK.Khadar Babu, Universidad VIT, Vellore, Tamil Nadu, India.

Dr.SK.Khadar Babu
fuente
0

Si se agrega algún número a cada elemento de uno de los vectores, RMSE cambia. Lo mismo si todos los elementos en uno o ambos vectores se multiplican por un número. El código R sigue;

#RMSE vs pearson's correlation
one<-rnorm(100)
two<-one+rnorm(100)

rumis<-(two - one)^2
(RMSE<-sqrt(mean(rumis)))
cor(one,two)

oneA<-one+100

rumis<-(two - oneA)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneA,two)

oneB<-one*10
twoB<-two*10

rumis<-(twoB - oneB)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneB,twoB)
cor(oneB,twoB)^2
ran8
fuente
0

En última instancia, la diferencia es solo la estandarización, ya que ambos conducen a la elección del mismo modelo, porque RMSE multiplicado por el número de observaciones está en el numerador o R ​​al cuadrado, y el denominador de este último es constante en todos los modelos (solo trace una medida contra el otro para 10 modelos diferentes).

mirekphd
fuente