Me pregunto por qué usamos la suposición gaussiana al modelar el error. En el curso de ML de Stanford , el Prof. Ng lo describe básicamente de dos maneras:
- Es matemáticamente conveniente. (Está relacionado con el ajuste de mínimos cuadrados y es fácil de resolver con pseudoinverso)
- Debido al Teorema del límite central, podemos suponer que hay muchos hechos subyacentes que afectan el proceso y la suma de estos errores individuales tenderá a comportarse como en una distribución normal media cero. En la práctica, parece ser así.
Estoy interesado en la segunda parte en realidad. El Teorema del límite central funciona para las muestras iid hasta donde yo sé, pero no podemos garantizar que las muestras subyacentes sean iid.
¿Tiene alguna idea sobre la suposición gaussiana del error?
regression
normality-assumption
pac-learning
petrichor
fuente
fuente
Respuestas:
Creo que básicamente has dado en el clavo en la pregunta, pero veré si puedo agregar algo de todos modos. Voy a responder esto de una manera indirecta ...
El campo de estadísticas robustas examina la cuestión de qué hacer cuando falla la suposición gaussiana (en el sentido de que hay valores atípicos):
También se han aplicado en ML, por ejemplo en Mika el al. (2001) Enfoque de programación matemática para el algoritmo Kernel Fisher , describen cómo se puede usar la pérdida robusta de Huber con KDFA (junto con otras funciones de pérdida). Por supuesto, esta es una pérdida de clasificación, pero KFDA está estrechamente relacionada con la máquina de vectores de relevancia (consulte la sección 4 del documento de Mika).
Como se implica en la pregunta, existe una estrecha conexión entre las funciones de pérdida y los modelos de error bayesianos (consulte aquí para una discusión).
Sin embargo, tiende a darse el caso de que tan pronto como comience a incorporar funciones de pérdida "funky", la optimización se vuelve difícil (tenga en cuenta que esto también ocurre en el mundo bayesiano). Por lo tanto, en muchos casos, las personas recurren a funciones de pérdida estándar que son fáciles de optimizar y, en cambio, realizan un procesamiento previo adicional para garantizar que los datos se ajusten al modelo.
El otro punto que menciona es que el CLT solo se aplica a las muestras que son IID. Esto es cierto, pero los supuestos (y el análisis que lo acompaña) de la mayoría de los algoritmos son los mismos. Cuando comienzas a buscar datos que no son IID, las cosas se vuelven mucho más complicadas. Un ejemplo es si hay una dependencia temporal, en cuyo caso el enfoque es suponer que la dependencia solo abarca una determinada ventana y, por lo tanto, las muestras pueden considerarse aproximadamente IID fuera de esta ventana (ver, por ejemplo, este papel brillante pero resistente Chromatic PAC -Bayes Bounds para datos no IID: aplicaciones a los procesos de clasificación y mezcla β estacionaria ), después de lo cual se puede aplicar el análisis normal.
Entonces, sí, todo se reduce en parte a la conveniencia, y en parte porque en el mundo real, la mayoría de los errores se ven (aproximadamente) gaussianos. Por supuesto, siempre se debe tener cuidado al mirar un nuevo problema para asegurarse de que no se violen los supuestos.
fuente