Estoy tratando de identificar el mejor modelo para predecir los precios de los automóviles, utilizando los precios y las funciones disponibles en los sitios de anuncios clasificados de automóviles.
Para esto utilicé un par de modelos de la biblioteca scikit-learn y modelos de redes neuronales de pybrain y neurolab. El enfoque que utilicé hasta ahora es ejecutar una cantidad fija de datos a través de algunos modelos (algoritmos de aprendizaje automático) y comparar los valores de que se calcularon con el módulo de métricas scikit-learn.
- ¿ un buen método para comparar el rendimiento de diferentes modelos?
- Aunque obtuve resultados bastante aceptables para modelos como Elastic net y Random forest, obtuve valores muy pobres para los modelos de redes neuronales, entonces ¿es un método apropiado para evaluar redes neuronales (o métodos no lineales)?
Respuestas:
Creo que la parte crucial a considerar al responder su pregunta es
porque esta afirmación implica algo sobre por qué quieres usar el modelo. La elección y la evaluación del modelo deben basarse en lo que desea lograr con sus valores ajustados.
En primer lugar, permite recapitular lo que haceR2 : Se calcula una medida a escala basado en la función de pérdida cuadrática, que estoy seguro de que son ya conscientes. Para ver esto, definir residual para su i-ésima observación y i y el valor ajustado correspondiente y i . Usando la notación conveniente S S R : = ∑ N i = 1 e 2 i , S S T : = ∑ei=yi−y^i yi y^i SSR:=∑Ni=1e2i ,R2se define simplemente comoR2=1-SSR/SST.SST:=∑Ni=1(yi−y¯)2 R2 R2=1−SSR/SST
En segundo lugar, veamos qué significa usar para la elección / evaluación del modeloR2 . Supongamos que elegimos entre un conjunto de predicciones que se generaron usando un modelo M : M ∈ M , donde M es la colección de modelos bajo consideración (en su ejemplo, esta colección contendría redes neuronales, bosques aleatorios, redes elásticas, ...) Dado que S S T permanecerá constante entre todos los modelos, si se minimiza RY¯M M:M∈M M SST que se elija exactamente el modelo que minimiza S S R . En otras palabras, elegirásR2 SSR que produce la pérdida mínima de error al cuadrado!M∈M
Tercero, consideremos por quéR2 o, de manera equivalente, podría ser interesante para la elección del modelo . Tradicionalmente, la pérdida cuadrada ( norma L 2 ) se usa por tres razones: (1) es más fácil de calcular que las desviaciones mínimas absolutas (LAD, la norma L 1 ) porque no aparece ningún valor absoluto en el cálculo, (2) castiga el ajuste valores que están muy lejos del valor real mucho más que LAD (en un sentido cuadrado en lugar de absoluto) y, por lo tanto, se asegura de que tengamos valores atípicos menos extremos, (3) es simétrico : sobreestimar o subestimar el precio de un automóvil es considerado igual de malo.SSR L2 L1
Cuarto (y último), veamos si esto es lo que necesita para sus predicciones. El punto que podría ser de mayor interés aquí es (3) del último párrafo. Suponga que quiere adoptar una postura neutral y no es ni comprador ni vendedor de un automóvil. Entonces, puede tener sentido: eres imparcial y deseas castigar las desviaciones a precios excesivos o insuficientes de manera idéntica. Lo mismo se aplica si solo desea modelar la relación entre las cantidades sin desear predecir valores no observados. Ahora suponga que está trabajando para un consumidor / comprador con un presupuesto ajustado: en esta situación, es posible que desee castigar la sobreestimación del precio en un sentido cuadrático, pero la subestimación en un sentido L p , donde 1 ⩽R2 Lp . Para p = 1 , castigarías en un sentido de desviación absoluta. Esto puede verse para reflejar los objetivos e intenciones del comprador, y sesgar la estimación a la baja podría ser de interés para él / ella. Por el contrario, podría cambiar la idea si modelara las predicciones de precios para el vendedor. Huelga decir que cualquier norma L p podría elegirse para reflejar las preferencias del modelador / agente para el que modela. También puede castigar porcompletofuera de lanorma L p , y usar la pérdida constante, exponencial o de registro en un lado y una pérdida diferente en el otro.1⩽p<2 p=1 Lp Lp
En resumen, la elección / evaluación del modelo no puede considerarse independientemente del objetivo del modelo.
fuente