Utilice el coeficiente de correlación de Pearson como objetivo de optimización en el aprendizaje automático

12

En el aprendizaje automático (para problemas de regresión), a menudo veo que se usa el error cuadrático medio (MSE) o el error absoluto medio (MAE) como la función de error para minimizar (más el término de regularización). Me pregunto si hay situaciones en las que sería más apropiado usar el coeficiente de correlación. Si tal situación existe, entonces:

  1. ¿En qué situaciones es el coeficiente de correlación una mejor métrica en comparación con MSE / MAE?
  2. En estas situaciones, ¿MSE / MAE sigue siendo una buena función de costo de proxy para usar?
  3. ¿Es posible maximizar el coeficiente de correlación directamente? ¿Es esta una función objetivo estable para usar?

No pude encontrar casos en los que el coeficiente de correlación se usa directamente como la función objetivo en la optimización. Agradecería que la gente me pueda señalar información en esta área.

aha
fuente

Respuestas:

7

Maximizar la correlación es útil cuando la salida es muy ruidosa. En otras palabras, la relación entre entradas y salidas es muy débil. En tal caso, minimizar MSE tenderá a hacer que la salida sea cercana a cero, de modo que el error de predicción sea el mismo que la varianza de la salida de entrenamiento.

El uso directo de la correlación como función objetivo es posible para el enfoque de descenso de gradiente (simplemente cámbielo para minimizar la correlación negativa). Sin embargo, no sé cómo optimizarlo con el enfoque SGD, porque la función de costo y el gradiente implican salidas de todas las muestras de entrenamiento.

Otra forma de maximizar la correlación es minimizar MSE limitando la variación de salida para que sea la misma que la variación de salida de entrenamiento. Sin embargo, la restricción también involucra todas las salidas, por lo que no hay forma (en mi opinión) de aprovechar el optimizador SGD.

EDITAR: en caso de que la capa superior de la red neuronal sea una capa de salida lineal, podemos minimizar MSE y luego ajustar los pesos y el sesgo en la capa lineal para maximizar la correlación. El ajuste se puede hacer de manera similar a CCA ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Bo Tian
fuente
1

Utilizamos la correlación de Pearson en nuestra investigación y funciona bien. En nuestro caso es bastante estable. Dado que es una medida invariante de traducción y escala, solo es útil si desea predecir la forma, no valores precisos. Por lo tanto, es útil si no sabe si su objetivo está en el espacio de solución de su modelo y solo le interesa la forma. Por el contrario, MSE reduce la distancia promedio entre la predicción y los objetivos, por lo que intenta ajustar los datos tanto como sea posible. Esta es probablemente la razón por la cual MSE se usa más ampliamente, porque generalmente está interesado en predecir valores precisos. Si minimiza el MSE, la correlación aumentará.

HCRuiz
fuente