En mi opinión, los datos de entrada correlacionados deben conducir a un sobreajuste en las redes neuronales porque la red aprende la correlación, por ejemplo, el ruido en los datos.
¿Es esto correcto?
fuente
En mi opinión, los datos de entrada correlacionados deben conducir a un sobreajuste en las redes neuronales porque la red aprende la correlación, por ejemplo, el ruido en los datos.
¿Es esto correcto?
En realidad no.
La pregunta como tal es un poco general y combina dos cosas que no están realmente relacionadas. El sobreajuste generalmente se entiende como la cualidad opuesta a ser una descripción generalizada; en el sentido de que una red sobreajustada (o sobreentrenada) tendrá menos poder de generalización. Esta calidad está determinada principalmente por la arquitectura de la red, la capacitación y el procedimiento de validación. Los datos y sus propiedades solo entran como "algo en lo que sucede el procedimiento de entrenamiento". Esto es más o menos "conocimiento de libros de texto"; puedes probar "Una introducción al aprendizaje estadístico" de James, Witten, Hastie y Tibshirani. O "Pattern Recognition" de Bishop (mi libro favorito sobre el tema general). O "Reconocimiento de patrones y aprendizaje automático", también de Bishop.
Para la correlación en sí: considere que el espacio de entrada tiene una determinada dimensión. No importa qué transformación use, la dimensionalidad seguirá siendo la misma: el álgebra lineal lo dice. En un caso, la base dada no estará correlacionada por completo; esto es lo que obtienes cuando des correlacionas las variables o simplemente aplicas PAT (transformación del eje principal). Toma cualquier libro de álgebra lineal para esto.
Dado que una red neuronal con una arquitectura adecuada puede modelar cualquier función (!), Puede suponer con seguridad que también podría modelar primero el PAT y luego hacer lo que sea que deba hacer, por ejemplo, clasificación, regresión, etc.
También podría considerar la correlación como una característica, que debería ser parte de la descripción de la red neuronal, ya que es una propiedad de los datos. La naturaleza de la correlación no es realmente importante, a menos que sea algo que no debería ser parte de los datos. En realidad, este sería un tema diferente: debe modelar o cuantificar algo como el ruido en la entrada y tenerlo en cuenta.
Entonces, en resumen no. Los datos correlacionados significan que debe trabajar más para hacer que el manejo de los datos sea técnicamente más simple y efectivo. Puede ocurrir un sobreajuste, pero no sucederá porque hay datos correlacionados.
querubín es correcto en lo que respecta a su declaración sobre el ajuste excesivo. Sin embargo, creo que la discusión de características altamente correlacionadas y ANN simplifica demasiado el problema.
Sí, es cierto en teoría que un ANN puede aproximarse a cualquier función. Sin embargo, en la práctica no es una buena idea incluir numerosas características altamente correlacionadas. Hacerlo introducirá muchas redundancias dentro del modelo. La inclusión de tales redundancias introducirá complejidades innecesarias y, al hacerlo, podría aumentar el número de mínimos locales. Dado que la función de pérdida de un ANN no es inherentemente suave, introducir una rugosidad innecesaria no es una gran idea.
fuente