Debo usar el núcleo exponencial cuadrado (SE) para la regresión del proceso gaussiano. Las ventajas de este núcleo son: 1) simple: solo 3 hiperparámetros; 2) suave: este núcleo es gaussiano.
¿Por qué a la gente le gusta tanto la "suavidad"? Sé que el núcleo gaussiano es infinitamente diferenciable, pero ¿es eso tan importante? (Avíseme si hay otras razones por las que el núcleo SE es tan popular).
PD: Me dijeron que la mayoría de las señales en el mundo real (sin ruido) son suaves , por lo que es razonable usar núcleos suaves para modelarlas. ¿Podría alguien ayudarme a entender este concepto?
machine-learning
kakanana
fuente
fuente
Respuestas:
" Natura non facit saltus " es un viejo principio en filosofía. Además, la belleza y la armonía son tales principios. Otro principio filosófico que tiene impacto en las estadísticas es el pensamiento cualitativo: tradicionalmente no pensamos en los tamaños de los efectos, sino en si un efecto está ahí o no. Esto permitió probar las hipótesis. Los estimadores son demasiado precisos para su percepción de la naturaleza. Tómalo como es.
La estadística tiene que servir a la percepción humana. Por lo tanto, no se aceptan los puntos de discontinuidad. Uno preguntaría de inmediato: ¿Por qué es exactamente esto una discontinuidad? Especialmente en la estimación de densidad, estos puntos de discontinuidad se deben principalmente a la naturaleza no asintótica de los datos reales. Pero no desea aprender sobre su cierta muestra finita sino sobre el hecho natural subyacente. Si crees que esta naturaleza no salta, entonces necesitas estimadores suaves.
Desde un punto de vista matemático estricto, apenas hay una razón para ello. Además, desde Leibniz y Newton se conocieron fenómenos naturales que no son suaves. Habla con el científico natural para el que trabajas. Desafíe su punto de vista de suavidad / discontinuidad y luego haga lo que ambos decidieron ser más útiles para su comprensión.
fuente
Hay dos razones más de cuestiones prácticas. La primera es que las funciones analíticas son mucho más fáciles de trabajar matemáticamente y, por lo tanto, demuestran teoremas sobre sus algoritmos y les dan una base más sólida.
fuente
Hay muchas motivaciones, dependiendo del problema. Pero la idea es la misma: agregar conocimiento a priori sobre algún problema para lograr una mejor solución y hacer frente a la complejidad. Una forma más de decirlo es: selección de modelo. Aquí un buen ejemplo de selección de modelo .
Otra idea, profundamente relacionada con ella, es encontrar una medida de similitud de muestras de datos (hay diferentes términos que se relacionan con esa idea: mapeos topográficos, distancia métrica, aprendizaje múltiple, ...).
Ahora, consideremos un ejemplo práctico: reconocimiento óptico de caracteres. Si toma la imagen de un personaje, esperaría que el clasificador se encargue de las variaciones: si gira, desplaza o escala la imagen, debería poder detectarla. Además, si aplica una modificación ligeramente a la entrada, esperaría que la respuesta / comportamiento de su clasificador varíe ligeramente también, porque ambas muestras (la original y la modificada son muy similares). Aquí es donde entra en vigor la aplicación de la suavidad.
Hay una gran cantidad de documentos relacionados con esta idea, pero esta (invariancia de transformación en reconocimiento de patrones, distancia tangente y propagación tangente, Simard et al.) Ilustra estas ideas con gran detalle.
fuente