Mientras leía casualmente algunos trabajos de mercado masivo sobre la teoría del caos en los últimos años, comencé a preguntarme cómo se podrían aplicar varios aspectos de la minería de datos y campos relacionados, como redes neuronales, reconocimiento de patrones, gestión de incertidumbre, etc. Hasta la fecha, yo Me he encontrado con tan pocos ejemplos de tales aplicaciones en la investigación publicada que me pregunto si a) realmente se han puesto en práctica en experimentos y proyectos conocidos y publicados yb) si no, por qué se usan tan poco en estos ¿campos?
La mayoría de las discusiones sobre la teoría del caos que he visto hasta la fecha giran en torno a aplicaciones científicas que son completamente útiles, pero que tienen poco que ver con la minería de datos y campos relacionados como el reconocimiento de patrones; Uno de los ejemplos arquetípicos es el problema de los tres cuerpos de la física. Quiero renunciar a la discusión de aplicaciones científicas ordinarias de este tipo y restringir la pregunta únicamente a aquellas aplicaciones que son obviamente relevantes para la minería de datos y campos relacionados, que parecen ser pocas y distantes en la literatura. La lista de aplicaciones potenciales a continuación se puede utilizar como punto de partida de una búsqueda de investigación publicada, pero solo me interesan aquellas aplicaciones que realmente se han puesto en práctica, si es que hay alguna. Lo que estoy buscando son implementaciones conocidas de la teoría del caos para la minería de datos, en contraposición a la lista de posibles aplicaciones, que es mucho más amplia. Aquí hay una pequeña muestra de ideas extravagantes para aplicaciones de minería de datos que se me ocurrieron mientras leía; tal vez ninguno de ellos es pragmático, tal vez algunos se están poniendo en uso práctico mientras hablamos, pero usa términos con los que aún no estoy familiarizado:
- Identificar estructuras auto-similares en el reconocimiento de patrones, como lo hizo Mandelbrot de manera práctica en el caso de ráfagas de error en líneas telefónicas analógicas hace unas décadas.
- Encontrando la constante de Feigenbaum en los resultados de la minería (tal vez de manera similar a cómo los teóricos de cuerdas se sorprendieron al ver aparecer las ecuaciones de Maxwell en lugares inesperados en el curso de su investigación).
- Identificar la profundidad de bits óptima para los pesos de redes neuronales y varias pruebas de minería. Me preguntaba sobre esto debido a las escalas numéricas cada vez más pequeñas en las que entra en juego la sensibilidad a las condiciones iniciales, que son parcialmente responsables de la imprevisibilidad de las funciones relacionadas con el caos.
- Usar la noción de dimensiones fraccionarias de otras maneras no necesariamente relacionadas con fascinantes curiosidades fractales, como las Esponjas Menger, las Curvas Koch o las Alfombras Sierpinski. ¿Quizás el concepto se pueda aplicar a las dimensiones de los modelos mineros de alguna manera beneficiosa, tratándolos como fraccionales?
- Derivando leyes de poder como las que entran en juego en fractales.
- Dado que las funciones que se encuentran en los fractales son no lineales, me pregunto si hay alguna aplicación práctica para la regresión no lineal.
- La teoría del caos tiene algunas relaciones tangenciales (y a veces exageradas) con la entropía, por lo que me pregunto si hay alguna forma de calcular la entropía de Shannon (o los límites sobre ella y sus parientes) a partir de las funciones utilizadas en la teoría del caos, o viceversa.
- Identificar el comportamiento de duplicación de período en los datos.
- Identificar la estructura óptima para una red neuronal mediante la selección inteligente de las que tienen más probabilidades de "autoorganizarse" de una manera útil.
- El caos y los fractales, etc., también están relacionados tangencialmente con la complejidad computacional, por lo que me pregunto si la complejidad podría usarse para identificar estructuras caóticas, o viceversa.
- Escuché por primera vez sobre el exponente de Lyapunov en términos de teoría del caos y lo he notado varias veces desde entonces en recetas para redes neuronales específicas y discusiones sobre entropía.
Probablemente hay docenas de otras relaciones que no he enumerado aquí; Todo esto se me vino a la cabeza. No estoy estrechamente interesado en respuestas específicas a estas especulaciones particulares, pero solo las estoy lanzando como ejemplos del tipo de aplicaciones que podrían existir en la naturaleza. Me gustaría ver respuestas que tengan ejemplos de investigaciones actuales e implementaciones existentes de ideas como esta, siempre que las aplicaciones sean específicamente aplicables a la minería de datos.
Probablemente hay otras implementaciones existentes que no conozco, incluso en áreas con las que estoy más familiarizado (como la teoría de la información, conjuntos difusos y redes neuronales) y otras en las que tengo aún menos competencia, como la regresión, por lo que más información Es bienvenido. Mi propósito práctico aquí es determinar si invertir o no más en aprender sobre aspectos particulares de la teoría del caos, que pondré en segundo plano si no puedo encontrar alguna utilidad obvia.
Hice una búsqueda de CrossValidated, pero no vi ningún tema que abordara directamente las aplicaciones utilitarias de la teoría del caos para la minería de datos, etc. Lo más cerca que pude llegar fue la teoría del Caos, el modelado sin ecuaciones y las estadísticas no paramétricas , que trata con un subconjunto específico.
fuente
Respuestas:
La minería de datos (DM) como enfoque práctico parece ser casi complementaria a los enfoques de modelado matemático (MM) e incluso contradictoria con una teoría del caos (CT). Primero hablaré sobre DM y MM general, luego me enfocaré en CT.
Modelo matematico
En el modelo económico, DM hasta hace muy poco se consideraba casi un tabú, un truco para buscar correlaciones en lugar de aprender sobre causalidad y relaciones, vea esta publicación en el blog de SAS. La actitud está cambiando, pero hay muchas dificultades relacionadas con las relaciones espurias , el dragado de datos , la piratería informática, etc.
En algunos casos, DM parece ser un enfoque legítimo incluso en campos con prácticas de MM establecidas. Por ejemplo, DM puede usarse para buscar interacciones de partículas en experimentos físicos que generan muchos datos, piense en los destructores de partículas. En este caso, los físicos pueden tener una idea de cómo se ven las partículas y buscar los patrones en los conjuntos de datos.
Teoría del caos
El sistema caótico probablemente sea particularmente resistente al análisis con técnicas de DM. Considere un método congruental lineal familiar ( LCG ) utilizado en generadores de números psudoaleatorios comunes . Es esencialmente un sistema caótico . Es por eso que se utiliza para "falsificar" números aleatorios. Un buen generador será indistinguible de una secuencia de números aleatorios. Esto significa que no podrá determinar si es aleatorio o no utilizando métodos estadísticos. Incluiré la minería de datos aquí también. ¡Intenta encontrar un patrón en la secuencia generada RAND () con minería de datos! Sin embargo, una vez más, es una secuencia completamente determinista, y sus ecuaciones también son extremadamente simples.
La teoría del caos no se trata de buscar aleatoriamente patrones de similitud. La teoría del caos implica aprender acerca de los procesos y las relaciones dinámicas de manera que se amplifiquen pequeñas perturbaciones en el sistema creando comportamientos inestables, mientras que de alguna manera en este caos emergen los patrones estables. Todo esto genial sucede debido a las propiedades de las ecuaciones mismas. Luego, los investigadores estudian estas ecuaciones y sus sistemas. Esto es muy diferente de la mentalidad de la minería de datos aplicada.
Por ejemplo, puedes hablar sobre patrones de autosimilitud mientras estudias sistemas caóticos, y notar que los mineros de datos también hablan sobre la búsqueda de patrones. Sin embargo, estos maneja el concepto de "patrón" de manera muy diferente. El sistema caótico generaría estos patrones a partir de las ecuaciones. Pueden tratar de encontrar su conjunto de ecuaciones observando sistemas reales, etc., pero siempre tratan con ecuaciones en algún momento. Los mineros de datos vendrían del otro lado, y sin saber o adivinar mucho sobre la estructura interna del sistema, tratarían de buscar patrones. No creo que estos dos grupos vean los mismos sistemas o conjuntos de datos reales.
Otro ejemplo es el mapa logístico más simple con el que Feigenbaum trabajó para crear su famosa bifurcación de duplicación del período.
fuente
Lo más extraño que descubrí al leer sobre la teoría del caos para responder a esta pregunta fue una asombrosa escasez de investigación publicada en la que la minería de datos y sus familiares aprovechan la teoría del caos. Esto fue a pesar de un esfuerzo concertado para encontrarlos, mediante la consulta de fuentes como la Teoría del Caos Aplicado de AB Ҫambel: Un Paradigma para la Complejidad y Alligood, et al. Chaos: Una Introducción a los Sistemas Dinámicos (este último es increíblemente útil como libro de consulta para este tema) y atacando sus bibliografías. Después de todo eso, solo se me ocurrió un único estudio que podría calificar y tuve que extender los límites de la "minería de datos" solo para incluir este caso límite: un equipo de la Universidad de Texas que realizaba investigaciones sobre las reacciones de Belousov-Zhabotinsky (BZ) (que ya se sabía que eran propensas a la aperiodicidad) descubrió accidentalmente discrepancias en el ácido malónico utilizado en sus experimentos debido a patrones caóticos, lo que los llevó a buscar un nuevo proveedor. [1] Probablemente hay otros, no soy especialista en teoría del caos y difícilmente puedo dar una evaluación exhaustiva de la literatura, pero la desproporción absoluta con usos científicos comunes como el problema de los tres cuerpos de la física no cambiaría mucho si los enumeráramos todos. De hecho, mientras tanto esta pregunta se cerró, Pensé en reescribirlo bajo el título "¿Por qué hay tan pocas implementaciones de la teoría del caos en la minería de datos y campos relacionados?" Esto es incongruente con el sentimiento mal definido pero generalizado de que debería haber una multitud de aplicaciones en la minería de datos y campos relacionados, como redes neuronales, reconocimiento de patrones, gestión de incertidumbre, conjuntos difusos, etc .; después de todo, la teoría del caos también es un tema de vanguardia con muchas aplicaciones útiles. Tuve que pensar mucho sobre exactamente dónde estaban los límites entre estos campos para comprender por qué mi búsqueda fue infructuosa y mi impresión equivocada.
La respuesta; tldr
La breve explicación de este fuerte desequilibrio en el número de estudios y la desviación de las expectativas se puede atribuir al hecho de que la teoría del caos y la minería de datos, etc., responden a dos clases de preguntas perfectamente separadas; la aguda dicotomía entre ellos es obvia una vez señalada, pero tan fundamental como para pasar desapercibida, al igual que mirar la propia nariz. Puede haber alguna justificación para la creencia de que la novedad relativa de la teoría del caos y los campos como la minería de datos explican la escasez de implementaciones, pero podemos esperar que el desequilibrio relativo persista incluso a medida que estos campos maduran porque simplemente abordan lados claramente diferentes de La misma moneda. Casi todas las implementaciones hasta la fecha se han realizado en estudios de funciones conocidas con salidas bien definidas que exhibieron algunas aberraciones caóticas desconcertantes, mientras que la minería de datos y las técnicas individuales, como las redes neuronales y los árboles de decisión, implican la determinación de una función desconocida o mal definida. Los campos relacionados, como el reconocimiento de patrones y los conjuntos difusos, también pueden verse como la organización de los resultados de funciones que a menudo también son desconocidas o están mal definidas, cuando los medios de esa organización tampoco son evidentes. Esto crea un abismo prácticamente insuperable que solo se puede cruzar en ciertas circunstancias excepcionales, pero incluso estos se pueden agrupar bajo la rúbrica de un solo caso de uso: evitar la interferencia aperiódica con los algoritmos de minería de datos. Los campos relacionados, como el reconocimiento de patrones y los conjuntos difusos, también pueden verse como la organización de los resultados de funciones que a menudo también son desconocidas o están mal definidas, cuando los medios de esa organización tampoco son evidentes. Esto crea un abismo prácticamente insuperable que solo se puede cruzar en ciertas circunstancias excepcionales, pero incluso estos se pueden agrupar bajo la rúbrica de un solo caso de uso: evitar la interferencia aperiódica con los algoritmos de minería de datos. Los campos relacionados, como el reconocimiento de patrones y los conjuntos difusos, también pueden verse como la organización de los resultados de funciones que a menudo también son desconocidas o están mal definidas, cuando los medios de esa organización tampoco son evidentes. Esto crea un abismo prácticamente insuperable que solo se puede cruzar en ciertas circunstancias excepcionales, pero incluso estos se pueden agrupar bajo la rúbrica de un caso de uso único: evitar la interferencia aperiódica con los algoritmos de minería de datos.
Incompatibilidad con el flujo de trabajo de Chaos Science
El flujo de trabajo típico en la "ciencia del caos" es realizar un análisis computacional de los resultados de una función conocida, a menudo junto con ayudas visuales del espacio de fase, como diagramas de bifurcación, mapas de Hénon, secciones de Poincaré, diagramas de fase y trayectorias de fase. El hecho de que los investigadores confíen en la experimentación computacional ilustra cuán difícil es encontrar los efectos caóticos; No es algo que normalmente se puede determinar con lápiz y papel. También ocurren exclusivamente en funciones no lineales. Este flujo de trabajo no es factible a menos que tengamos una función conocida para trabajar. La minería de datos puede generar ecuaciones de regresión, funciones difusas y similares, pero todas comparten la misma limitación: son solo aproximaciones generales, con una ventana de error mucho más amplia. En contraste, las funciones conocidas sujetas al caos son relativamente raras, al igual que los rangos de entradas que producen patrones caóticos, por lo que se requiere un alto grado de especificidad incluso para probar los efectos caóticos. Cualquier atractor extraño presente en el espacio de fases de funciones desconocidas ciertamente cambiaría o desaparecería por completo a medida que cambiaran sus definiciones e insumos, lo que complicaría en gran medida los procedimientos de detección descritos por autores como Alligood, et al.
El caos como contaminante en los resultados de la minería de datos
De hecho, la relación de la minería de datos y sus familiares con la teoría del caos es prácticamente contradictoria. Esto es literalmente cierto si consideramos el criptoanálisis en general como una forma específica de minería de datos, dado que he encontrado al menos un artículo de investigación sobre cómo aprovechar el caos en los esquemas de cifrado (no puedo encontrar la cita en este momento, pero puedo cazar abajo bajo petición). Para un minero de datos, la presencia de caos normalmente es algo malo, ya que los rangos de valores aparentemente sin sentido que genera pueden complicar en gran medida el proceso ya difícil de aproximar una función desconocida. El uso más común para el caos en la minería de datos y campos relacionados es descartarlo, lo cual no es una hazaña. Si los efectos caóticos están presentes pero no se detectan, sus efectos sobre una empresa de minería de datos podrían ser difíciles de superar. Solo piense en la facilidad con la que una red neuronal ordinaria o un árbol de decisión podrían adaptarse a las salidas aparentemente sin sentido de un atractor caótico, o cómo los picos repentinos en los valores de entrada ciertamente podrían confundir el análisis de regresión y podrían atribuirse a muestras malas u otras fuentes de error. La rareza de los efectos caóticos entre todas las funciones y rangos de entrada significa que la investigación sobre ellos se vería seriamente desproporcionada por los experimentadores.
Métodos para detectar el caos en los resultados de la minería de datos
Ciertas medidas asociadas con la teoría del caos son útiles para identificar efectos aperiódicos, como la entropía de Kolmogorov y el requisito de que el espacio de fase exhiba un exponente positivo de Lyapunov. Ambos están en la lista de verificación para la detección del caos [2] proporcionada en la Teoría del Caos Aplicado de AB Ҫambel, pero la mayoría no son útiles para funciones aproximadas, como el exponente de Lyapunov, que requiere funciones definidas con límites conocidos. Sin embargo, el procedimiento general que describe podría ser útil en situaciones de minería de datos; El objetivo de Ҫambel es, en última instancia, un programa de "control del caos", es decir, la eliminación de los efectos aperiódicos interferentes. [3] Otros métodos, como el cálculo del recuento de cajas y las dimensiones de correlación para detectar las dimensiones fraccionales que conducen al caos, podrían ser más prácticos en las aplicaciones de minería de datos que el Lyapunov y otros en su lista. Otro signo revelador de los efectos caóticos es la presencia de patrones de duplicación de períodos (o triplicación y más allá) en las salidas de función, que a menudo precede al comportamiento aperiódico (es decir, "caótico") en los diagramas de fase.
Diferenciando aplicaciones tangenciales
Este caso de uso primario debe diferenciarse de una clase separada de aplicaciones que solo están relacionadas tangencialmente con la teoría del caos. En una inspección más cercana, la lista de "aplicaciones potenciales" que proporcioné en mi pregunta en realidad consistía casi por completo en ideas para aprovechar los conceptos de los que depende la teoría del caos, pero que pueden aplicarse de forma independiente en ausencia de un comportamiento aperiódico (excepto el período duplicado). Recientemente pensé en un nuevo uso de nicho potencial, que generara un comportamiento aperiódico para explotar redes neuronales fuera de los mínimos locales, pero esto también pertenecería a la lista de aplicaciones tangenciales. Muchos de ellos fueron descubiertos o desarrollados como resultado de la investigación en la ciencia del caos, pero se pueden aplicar a otros campos. Estas "aplicaciones tangenciales" solo tienen conexiones difusas entre sí pero forman una clase distinta, separados por un límite duro del caso de uso principal de la teoría del caos en la minería de datos; el primero aprovecha ciertos aspectos de la teoría del caos sin los patrones aperiódicos, mientras que el segundo se dedica únicamente a descartar el caos como un factor de complicación en los resultados de la minería de datos, tal vez con el uso de requisitos previos como la positividad del exponente de Lyapunov y la detección de duplicación del período . Si diferenciamos entre la teoría del caos y otros conceptos que utiliza correctamente, es fácil ver que las aplicaciones de la primera están inherentemente restringidas a funciones conocidas en el estudio científico ordinario. Realmente hay buenas razones para entusiasmarse con las posibles aplicaciones de estos conceptos secundarios en ausencia de caos, pero también es motivo para preocuparse por los efectos contaminantes del comportamiento aperiódico inesperado en los esfuerzos de minería de datos cuando está presente. Tales ocasiones serán raras, pero esa rareza también puede significar que pasarán desapercibidas. Sin embargo, el método de Ҫambel podría ser útil para evitar tales problemas.
[1] págs. 143-147, Alligood, Kathleen T .; Sauer, Tim D. y Yorke, James A., 2010, Chaos: An Introduction to Dynamical Systems, Springer: Nueva York. [2] págs. 208-213, Ҫambel, AB, 1993, Teoría del caos aplicado: un paradigma para la complejidad, Academic Press, Inc .: Boston. [3] p. 215, Ҫambel.
fuente