¿Es apropiado el valor R cuadrado para comparar modelos?

17

Estoy tratando de identificar el mejor modelo para predecir los precios de los automóviles, utilizando los precios y las funciones disponibles en los sitios de anuncios clasificados de automóviles.

Para esto utilicé un par de modelos de la biblioteca scikit-learn y modelos de redes neuronales de pybrain y neurolab. El enfoque que utilicé hasta ahora es ejecutar una cantidad fija de datos a través de algunos modelos (algoritmos de aprendizaje automático) y comparar los valores de R2 que se calcularon con el módulo de métricas scikit-learn.

  1. ¿ R2 un buen método para comparar el rendimiento de diferentes modelos?
  2. Aunque obtuve resultados bastante aceptables para modelos como Elastic net y Random forest, obtuve valores muy pobres R2para los modelos de redes neuronales, entonces ¿es R2 un método apropiado para evaluar redes neuronales (o métodos no lineales)?
Manik
fuente
2
La respuesta corta es no . Podría ayudarlo a leer mi respuesta aquí: Evaluación y comparación de modelos para seleccionar el mejor modelo , que está bastante relacionado con su pregunta. Aquí se describe una solución candidata . Para una comprensión más general, puede intentar leer algunos de los hilos en el sitio categorizados bajo la etiqueta de selección de modelo .
gung - Restablece a Monica
@gung ¡Gracias! ¿Puedo preguntar cuál sería una medida adecuada de bondad de ajuste para la regresión utilizando redes neuronales?
Manik

Respuestas:

18

Creo que la parte crucial a considerar al responder su pregunta es

Estoy tratando de identificar el mejor modelo para predecir los precios de los automóviles.

porque esta afirmación implica algo sobre por qué quieres usar el modelo. La elección y la evaluación del modelo deben basarse en lo que desea lograr con sus valores ajustados.

En primer lugar, permite recapitular lo que haceR2 : Se calcula una medida a escala basado en la función de pérdida cuadrática, que estoy seguro de que son ya conscientes. Para ver esto, definir residual para su i-ésima observación y i y el valor ajustado correspondiente y i . Usando la notación conveniente S S R : = N i = 1 e 2 i , S S T : = ei=yiy^iyiy^iSSR:=i=1Nei2,R2se define simplemente comoR2=1-SSR/SST.SST:=i=1N(yiy¯)2R2R2=1SSR/SST

En segundo lugar, veamos qué significa usar para la elección / evaluación del modeloR2 . Supongamos que elegimos entre un conjunto de predicciones que se generaron usando un modelo M : M M , donde M es la colección de modelos bajo consideración (en su ejemplo, esta colección contendría redes neuronales, bosques aleatorios, redes elásticas, ...) Dado que S S T permanecerá constante entre todos los modelos, si se minimiza RY¯MM:MMMSST que se elija exactamente el modelo que minimiza S S R . En otras palabras, elegirásR2SSR que produce la pérdida mínima de error al cuadrado!MM

Tercero, consideremos por qué R2 o, de manera equivalente, podría ser interesante para la elección del modelo . Tradicionalmente, la pérdida cuadrada ( norma L 2 ) se usa por tres razones: (1) es más fácil de calcular que las desviaciones mínimas absolutas (LAD, la norma L 1 ) porque no aparece ningún valor absoluto en el cálculo, (2) castiga el ajuste valores que están muy lejos del valor real mucho más que LAD (en un sentido cuadrado en lugar de absoluto) y, por lo tanto, se asegura de que tengamos valores atípicos menos extremos, (3) es simétrico : sobreestimar o subestimar el precio de un automóvil es considerado igual de malo.SSR L2L1

Cuarto (y último), veamos si esto es lo que necesita para sus predicciones. El punto que podría ser de mayor interés aquí es (3) del último párrafo. Suponga que quiere adoptar una postura neutral y no es ni comprador ni vendedor de un automóvil. Entonces, puede tener sentido: eres imparcial y deseas castigar las desviaciones a precios excesivos o insuficientes de manera idéntica. Lo mismo se aplica si solo desea modelar la relación entre las cantidades sin desear predecir valores no observados. Ahora suponga que está trabajando para un consumidor / comprador con un presupuesto ajustado: en esta situación, es posible que desee castigar la sobreestimación del precio en un sentido cuadrático, pero la subestimación en un sentido L p , donde 1 R2Lp . Para p = 1 , castigarías en un sentido de desviación absoluta. Esto puede verse para reflejar los objetivos e intenciones del comprador, y sesgar la estimación a la baja podría ser de interés para él / ella. Por el contrario, podría cambiar la idea si modelara las predicciones de precios para el vendedor. Huelga decir que cualquier norma L p podría elegirse para reflejar las preferencias del modelador / agente para el que modela. También puede castigar porcompletofuera de lanorma L p , y usar la pérdida constante, exponencial o de registro en un lado y una pérdida diferente en el otro.1p<2p=1LpLp

En resumen, la elección / evaluación del modelo no puede considerarse independientemente del objetivo del modelo.

Jeremias K
fuente