¿Cuál es la mejor función de coste para entrenar a un red neural para llevar a cabo la regresión ordinal , es decir, para predecir un resultado cuyo valor existe en una escala arbitraria donde sólo la ordenación relativa entre diferentes valores es significativa (por ejemplo: para predecir qué el tamaño del producto una orden voluntad cliente : 'pequeño' (codificado como 0), 'mediano' (codificado como 1), 'grande' (codificado como 2) o 'extragrande' (codificado como 3))? Estoy tratando de averiguar si hay mejores alternativas que la pérdida cuadrática (modelando el problema como una regresión 'vainilla') o la pérdida de entropía cruzada (modelando el problema como clasificación).
fuente