Estoy entrenando una red neuronal artificial (retropropagación, retroalimentación) con datos distribuidos no normales. Además de la raíz del error cuadrático medio, la literatura a menudo sugiere el coeficiente de correlación de Pearson para evaluar la calidad de la red entrenada. Pero, ¿es razonable el coeficiente de correlación de Pearson si los datos de entrenamiento no se distribuyen normalmente? ¿No sería más razonable utilizar una medida de correlación basada en el rango, por ejemplo, Spearman rho?
9
Respuestas:
El coeficiente de correlación de Pearson mide la asociación lineal. Al estar basado en segundos momentos centrales empíricos, está influenciado por valores extremos. Por lo tanto:
La evidencia de no linealidad en un diagrama de dispersión de los valores reales frente a los pronosticados sugeriría usar una alternativa como el coeficiente de correlación de rango (Spearman);
Si la relación parece monotónica en promedio (como en la fila superior de la ilustración), un coeficiente de correlación de rango será efectivo;
De lo contrario, la relación es curvilínea (como en algunos ejemplos de la fila inferior de la ilustración, como la del extremo izquierdo o el medio en forma de U) y probablemente cualquier medida de correlación será una descripción inadecuada; El uso de un coeficiente de correlación de rango no solucionará esto.
La presencia de datos periféricos en el diagrama de dispersión indica que el coeficiente de correlación de Pearson puede estar exagerando la fuerza de la relación lineal. Puede o no ser correcto; Úselo con la debida precaución. El coeficiente de correlación de rango podría o no ser mejor, dependiendo de cuán confiables sean los valores periféricos.
(Imagen copiada del artículo de Wikipedia sobre el coeficiente de correlación momento-producto de Pearson ).
fuente