¿Cómo demostrar que la suposición múltiple es correcta?

9

En el aprendizaje automático, a menudo se supone que un conjunto de datos se encuentra en un múltiple liso de baja dimensión (el supuesto múltiple), pero ¿hay alguna forma de demostrar que si se cumplen ciertas condiciones, entonces el conjunto de datos se genera (aproximadamente)? de un múltiple liso de baja dimensión?

Por ejemplo, dada una secuencia de datos donde (digamos la secuencia de imágenes de caras con diferentes ángulos) y una secuencia de etiquetas correspondiente donde (digamos los ángulos de la secuencia de caras). Supongamos que cuando y X_ {i + 1} están muy cerca, sus etiquetas y_i e y_ {i + 1} también están muy cerca, podemos imaginar que es probable que \ {\ mathbf {X} _1 \ ldots \ mathbf { X} _n \}{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}Acuéstese en una variedad de baja dimensión. ¿Es esto cierto? Si es así, ¿cómo podemos probarlo? ¿O qué condiciones necesita satisfacer la secuencia para que se pueda demostrar que la suposición múltiple es verdadera?

pensar
fuente

Respuestas:

10

Rápidamente se hace evidente, al mirar muchos relatos de la "suposición múltiple", que muchos escritores son notablemente descuidados sobre su significado. Los más cuidadosos lo definen con una advertencia sutil pero enormemente importante : que los datos se encuentran en o cerca de una variedad de baja dimensión.

Incluso aquellos que no incluyen la cláusula "o cerca de" adoptan claramente el supuesto múltiple como una ficción aproximada, conveniente para realizar análisis matemáticos, porque sus aplicaciones deben contemplar desviaciones entre los datos y el múltiple estimado. De hecho, muchos escritores más tarde introducen un mecanismo explícito para las desviaciones, como contemplar la regresión de contra donde está restringido a descansar en un múltiple pero la puede incluir desviaciones aleatorias Esto es equivalente a suponer que las tuplas encuentran cercayxxMkRd y(xi,yi)a, pero no necesariamente en, una variedad dimensional inmersa de la formak

(x,f(x))Mk×RRd×RRd+1

para alguna función suave (regresión) . Dado que podemos ver todos los puntos perturbados , que están simplemente cerca de la gráfica de (un múltiple dimensional), como acostado en la variedad -dimensional , esto ayuda a explicar por qué tal descuido acerca de distinguir "en" de "cerca de" puede no ser importante en teoría.f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

La diferencia entre "encendido" y "cercano a" es muy importante para las aplicaciones. "Cerrar a" permite que los datos puedan desviarse del múltiple. Como tal, si elige estimar esa variedad, entonces se puede cuantificar la cantidad típica de desviación entre los datos y la variedad. Un colector ajustado será mejor que otro cuando la cantidad típica de desviación sea menor, ceteris paribus.

Figura

La figura muestra dos versiones de la suposición del múltiple para los datos (puntos azules grandes): el múltiple negro es relativamente simple (requiere solo cuatro parámetros para describir) pero solo se acerca a los datos, mientras que el múltiple de puntos rojos se ajusta a los datos perfectamente pero es complicado (se necesitan 17 parámetros).

Como en todos estos problemas, existe una compensación entre la complejidad de describir la variedad y la bondad del ajuste (el problema del sobreajuste). Siempre es posible encontrar una variedad unidimensional que se ajuste perfectamente a cualquier cantidad finita de datos en (como con la variedad de puntos rojos en la figura, simplemente ejecute una curva suave a través de todos los puntos , en cualquier orden: es casi seguro que no se intersecará, pero si lo hace, perturbe la curva en la vecindad de cualquier intersección para eliminarla). En el otro extremo, si solo se permite una clase limitada de colectores (como los hiperplanos euclidianos rectos únicamente), un buen ajuste puede ser imposible, independientemente de las dimensiones, y la desviación típica entre los datos y el ajuste puede ser grande.Rd

Esto conduce a una forma directa y práctica de evaluar el supuesto múltiple: si el modelo / predictor / clasificador desarrollado a partir del supuesto múltiple funciona aceptablemente bien, entonces el supuesto estaba justificado. Por lo tanto, las condiciones apropiadas buscadas en la pregunta serán que alguna medida relevante de bondad de ajuste sea ​​aceptablemente pequeña. (¿Qué medida? Depende del problema y equivale a seleccionar una función de pérdida).

Es posible que múltiples de diferentes dimensiones (con diferentes tipos de restricciones en su curvatura) puedan ajustarse a los datos, y predecir datos retenidos, igualmente bien. No se puede "probar" nada sobre la "variedad" subyacente en general, especialmente cuando se trabaja con conjuntos de datos humanos grandes y desordenados. Todo lo que podemos esperar es que el colector ajustado sea un buen modelo.

Si no se te ocurre un buen modelo / predictor / clasificador, entonces la suposición múltiple es inválida, estás asumiendo variedades de una dimensión demasiado pequeña, o no has buscado lo suficiente o lo suficientemente bien.

whuber
fuente
1
+1 Muy bien. Permítanme agregar (sin implicar que comparten mi punto de vista) que esto muestra una vez más por qué la forma de pensar basada en principios pero escéptica y a menudo tentativa que se ha cultivado en las estadísticas durante muchos años es muy importante para los a menudo vagos, rápidos, nuevos y brillantes. mundo de juguete de aprendizaje automático y ciencia de datos.
Momo
5

Cualquier conjunto finito de puntos puede caber en cualquier variedad (se necesita referencia de teorema, no puedo recordar cuál es el teorema, solo recuerdo este hecho de uni).

Si uno no quiere que se identifiquen todos los puntos, entonces la dimensión más baja posible es 1.

Tomemos como ejemplo simple, dados los puntos N 2d, existe un polinomio de orden N - 1 donde todos los puntos N se encuentran en ese polinomio. Por lo tanto, tenemos una variedad 1d para cualquier conjunto de datos 2d. Creo que la lógica de las dimensiones arbitrarias es similar.

Entonces, ese no es el problema, los supuestos reales están en la estructura / simplicidad de la variedad, particularmente cuando se tratan las variedades Riemannianas conectadas como espacios métricos. ¡He leído documentos sobre este hocus pocus múltiple, y descubrí que si lees con atención, surgen algunas suposiciones bastante grandes!

Las suposiciones hechas son cuando se asume que la definición inducida de "cercanía" "preserva la información en nuestro conjunto de datos", pero dado que esto no se define formalmente en términos de Teoría de la Información, la definición resultante es bastante ad hoc y una suposición bastante grande. En particular, el problema parece ser que se preserva la "cercanía", es decir, dos puntos cercanos, permanecen cerca, pero que la "lejanía" no lo es, por lo que dos puntos "lejanos" no se quedan lejos.

En conclusión, desconfiaría de tales trucos en el aprendizaje automático a menos que se sepa que el conjunto de datos es de hecho naturalmente euclidiano, por ejemplo, el reconocimiento de patrones visuales. No consideraría estos enfoques apropiados para problemas más generales.

samthebest
fuente
¡Gracias! Su respuesta me ayudó a comprender mejor el problema. ¿Podría recomendar algunos de los documentos sobre el supuesto múltiple que mencionó aquí?
thinkbear
Lo siento, no puedo recordar, Google debería poder ayudar :)
samthebest