Clasificación con etiquetas ruidosas?

13

Estoy tratando de entrenar una red neuronal para la clasificación, pero las etiquetas que tengo son bastante ruidosas (alrededor del 30% de las etiquetas están equivocadas).

La pérdida de entropía cruzada realmente funciona, pero me preguntaba si hay alguna alternativa más efectiva en este caso. o es la pérdida de entropía cruzada el óptimo?

No estoy seguro, pero estoy pensando en "recortar" un poco la pérdida de entropía cruzada, de modo que la pérdida para un punto de datos no sea mayor que un límite superior, ¿funcionará?

¡Gracias!

Actualización
Según la respuesta de Lucas, obtuve lo siguiente para las derivadas para la salida de predicción y la entrada de la función softmax . Así que supongo que esencialmente está agregando un término de suavizado a las derivadas. Derivados para la pérdida de entropía cruzada original: $y$ $z$ $\frac{3}{7N}$

{pag}_{yo} = 0,3 / / norte + 0.7 y_{yo}

$p_i=0.3/N+0.7y_i$

l = - \sum t_{yo} Iniciar sesión ({pag}_{yo})

$l=-\sum t_i\log(p_i)$

\frac{\partial l}{\partial y_{yo}} = - t_{yo} \frac{\partial Iniciar sesión ({pag}_{yo})}{\partial {pag}_{yo}} \frac{\partial {pag}_{yo}}{\partial y_{yo}} = - 0.7 \frac{t_{yo}}{{pag}_{yo}} = - \frac{t_{yo}}{\frac{3}{7 7 norte} + y_{yo}}

$\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i}$

\frac{\partial l}{\partial z_{yo}} = 0.7 \sum_{j} \frac{t_{j}}{{pag}_{j}} \frac{\partial y_{j}}{\partial z_{yo}} = y_{yo} \sum_{j} t_{j} \frac{y_{j}}{\frac{3}{7 7 norte} + y_{j}} - t_{yo} \frac{y_{yo}}{\frac{3}{7 7 norte} + y_{yo}}

$\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}$

\frac{\partial l}{\partial y_{yo}} = - \frac{t_{yo}}{y_{yo}}

$\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i}$

\frac{\partial l}{\partial z_{yo}} = y_{yo} - t_{yo}

$\frac{\partial l}{\partial z_i}=y_i-t_i$ Avíseme si estoy equivocado. ¡Gracias!

Actualización
Acabo de leer un artículo de Google que aplica la misma fórmula que en la respuesta de Lucas pero con diferentes interpretaciones.

En la Sección 7, Regularización del modelo mediante suavizado de etiquetas

$∂l/∂z_k$

Pero en lugar de agregar el término de suavizado a las predicciones, lo agregaron a la verdad básica , lo que resultó ser útil.

$\epsilon$

machine-learning neural-networks loss-functions noise dontloo
fuente

3

Existen numerosos trabajos sobre este tema: github.com/subeeshvasu/Awesome-Learning-with-Label-Noise

guest_anonym

10

Lo que hay que hacer aquí es cambiar el modelo, no la pérdida. Su objetivo sigue siendo clasificar correctamente tantos puntos de datos como sea posible (lo que determina la pérdida), pero sus suposiciones sobre los datos han cambiado (que están codificadas en un modelo estadístico , la red neuronal en este caso).

$\mathbf{p}_t$ $\ell(y_t, \mathbf{p}_t)$ $y_t$

{\tilde{pag}}_{t} = 0,3 / / norte + 0.7 {pag}_{t}

$\mathbf{\tilde p}_t = 0.3/N + 0.7 \mathbf{p}_t$

en cambio y optimizar

\sum_{t} ℓ (y_{t}, 0,3 / / norte + 0.7 {pag}_{t}),

$\sum_t \ell(y_t, 0.3/N + 0.7 \mathbf{p}_t),$

$N$

Lucas
fuente

{\tilde{p}}_{t}

$\tilde{p}_t$

0.3 / N + 0.7 p_{t}

$0.3/N +0.7p_t$

{\tilde{p}}_{t}

$\tilde{p}_t$

P r o b (\tilde{y} = + 1 | t) = 0.7 P r o b (y = + 1 | t) + 0.3 P r o b (y = - 1 | t)

$Prob(\tilde{y} = +1|t) = 0.7Prob(y=+1|t) + 0.3Prob(y = -1|t)$

P r o b (\tilde{y} = - 1 | t) = 0.7 P r o b (y = - 1 | t) + 0.3 P r o b (y = + 1 | t)

$Prob(\tilde{y} = -1|t) = 0.7Prob(y=-1|t) + 0.3Prob(y = +1|t)$

1 / N

$1/N$

0

Reconozco que este es un foro de estadísticas y la expectativa se centra en las derivaciones matemáticas, pero si puede ser útil y está usando Python, hay un paquete para la clasificación con etiquetas ruidosas llamado cleanlab: https://github.com/ cgnorthcutt / cleanlab / .

El cleanlabpaquete Python pip install cleanlab, del cual soy autor, encuentra errores de etiqueta en conjuntos de datos y admite clasificación / aprendizaje con etiquetas ruidosas. Funciona con scikit-learn, PyTorch, Tensorflow, FastText, etc.

Para aprender con etiquetas ruidosas.

# Code taken from https://github.com/cgnorthcutt/cleanlab
from cleanlab.classification import LearningWithNoisyLabels
from sklearn.linear_model import LogisticRegression

# Learning with noisy labels in 3 lines of code.

# Wrap around any classifier. Works with sklearn/pyTorch/Tensorflow/FastText/etc.
lnl = LearningWithNoisyLabels(clf=LogisticRegression())
lnl.fit(X = X_train_data, s = train_noisy_labels)
# Estimate the predictions you would have gotten by training with *no* label errors.
predicted_test_labels = lnl.predict(X_test)

Para encontrar errores de etiqueta en su conjunto de datos.

from cleanlab.latent_estimation import estimate_cv_predicted_probabilities

# Find the indices of label errors in 2 lines of code.

probabilities = estimate_cv_predicted_probabilities(
    X_train_data, 
    train_noisy_labels, 
    clf=LogisticRegression(),
)
label_error_indices = get_noise_indices(
    s = train_noisy_labels, 
    psx = probabilities, 
)

Algunos ejemplos con FastText (NLP) y PyTorch (MNIST AlexNet).

Documentación: https://l7.curtisnorthcutt.com/cleanlab-python-package

cgnorthcutt
fuente

Clasificación con etiquetas ruidosas?

Respuestas: