Estado del arte en general aprendiendo de los datos en el '69

16

Estoy tratando de entender el contexto del famoso libro de Minsky y Papert "Perceptrons" de 1969, tan crítico para las redes neuronales.

Hasta donde sé, todavía no había otros algoritmos genéricos de aprendizaje supervisado, excepto el perceptrón: los árboles de decisión comenzaron a ser realmente útiles solo a fines de los años 70, los bosques aleatorios y las SVM son los años 90. Parece que el método jackknife ya se conocía, pero no la validación k-cross (70) o bootstrap (1979?).

Wikipedia dice que los marcos estadísticos clásicos de Neyman-Pearson y Fisher todavía estaban en desacuerdo en los años 50, a pesar de que los primeros intentos de describir una teoría híbrida ya estaban en los años 40.

Por lo tanto, mi pregunta: ¿cuáles fueron los métodos más modernos para resolver problemas generales de predicción a partir de datos?

liori
fuente
66
La regresión logística comenzó a usarse como lo es hoy a fines de los 70 ', ver Cramer, JS (2002). "Los orígenes de la regresión logística", p. 12, papers.tinbergen.nl/02119.pdf
Tim
La regresión lineal es probablemente un "algoritmo genérico de aprendizaje supervisado" y se originó a principios de 1800; La regresión probit, al menos en alguna forma, aparentemente se originó en la década de 1930 . ¿Quieres decir algo en particular por "genérico" aquí?
Dougal
@Dougal: simplemente "se descubrió que era aplicable a una gran cantidad de problemas en diferentes campos", en lugar de "diseñado para resolver un problema específico". Estoy tratando de entender qué métodos usaría un estadístico o un científico de IA en los años 60 cuando se enfrenta a un nuevo problema desconocido sin trabajo previo cuando el enfoque más simple (como, supongo, ¿regresión lineal?) No funciona y por lo tanto, buscar herramientas más complejas está justificado. Por ejemplo, el bosque aleatorio es ahora uno de esos algoritmos: funcionan razonablemente bien en muchos conjuntos de datos de varios campos.
liori
Si seguro. Quizás valga la pena señalar que la regresión probit es en realidad un mejor modelo de clasificación de propósito general que los perceptrones originales. Si se usó como tal en ese momento, no lo sé. Los perceptrones se consideraron diferentes en ese momento porque estaban agrupados con un algoritmo de optimización similar a SGD que probablemente los hizo más escalables para las computadoras de la época que probit, aunque, por supuesto, hoy nos damos cuenta de que esas opciones son independientes.
Dougal
1
Para cualquiera aquí todavía interesado en el tema: encontré un estudio interesante del campo de la sociología de la ciencia sobre el tema de las controversias sobre el perceptrón en los años 60: Olazaran, "Historia oficial de la controversia de los perceptrones". El texto no responde la pregunta aquí planteada, pero proporciona el contexto sociológico para el libro de Minsky y Papert, uno que me parece ahora más importante que el estado real de la ciencia.
liori

Respuestas:

12

Tenía curiosidad acerca de esto, así que hice algunas excavaciones. Me sorprendió descubrir que versiones reconocibles de muchos algoritmos de clasificación comunes ya estaban disponibles en 1969 o por ahí. Los enlaces y citas se dan a continuación.

Vale la pena señalar que la investigación de IA no siempre estuvo tan centrada en la clasificación. Hubo mucho interés en la planificación y el razonamiento simbólico, que ya no están de moda, y los datos etiquetados fueron mucho más difíciles de encontrar. No todos estos artículos pueden haber estado ampliamente disponibles entonces: por ejemplo, el trabajo proto-SVM se publicó principalmente en ruso. Por lo tanto, esto podría sobreestimar cuánto sabía un científico promedio sobre la clasificación en 1969.


Análisis discriminante

En un artículo de 1936 en Annals of Eugenics , Fisher describió un procedimiento para encontrar una función lineal que discrimina entre tres especies de flores de iris, en función de sus dimensiones de pétalos y sépalos. Ese documento menciona que Fisher ya había aplicado una técnica similar para predecir el sexo de las mandíbulas humanas (huesos de la mandíbula) excavadas en Egipto, en colaboración con E. S Martin y Karl Pearson ( jstor ), así como en un proyecto de medición craneal separado con una señorita Mildred Barnard (que no pude rastrear).

Regresión logística

La función logística en sí se conoce desde el siglo XIX, pero principalmente como un modelo para procesos de saturación, como el crecimiento de la población o las reacciones bioquímicas. Tim enlaza con el artículo anterior de JS Cramer, que es una buena historia de sus primeros días. En 1969, sin embargo, Cox había publicado la primera edición de Análisis de datos binarios . No pude encontrar el original, pero una edición posterior contiene un capítulo completo sobre el uso de la regresión logística para realizar la clasificación. Por ejemplo:

y=0,1xyy

k

kk la tasa de error de -NN es como máximo el doble de la tasa de error de Bayes. Sin embargo, en realidad atribuyen a Fix y Hodge la invención en 1951, citando un informe técnico que prepararon para la Escuela de Medicina de Aviación de la USAF ( reimpresión a través de jstor ).

Redes neuronales

Rosenblatt publicó un informe técnico que describe el perceptrón en 1957 y lo siguió con un libro. , Principios de neurodinámica en 1962. Las versiones continuas de propagación hacia atrás han existido desde principios de la década de 1960, incluido el trabajo de Kelley , Bryson y Bryson & Ho (revisado en 1975, pero el original es de 1969. Sin embargo, no se aplicó a las redes neuronales hasta un poco más tarde, y los métodos para entrenar redes muy profundas son mucho más recientes. Este artículo de la academia sobre aprendizaje profundo tiene más información.

Métodos de estadística

Sospecho que el uso de la regla de Bayes para la clasificación se ha descubierto y redescubierto muchas veces; es una consecuencia bastante natural de la regla misma. La teoría de detección de señales desarrolló un marco cuantitativo para decidir si una entrada dada era una "señal" o ruido. Parte de esto surgió de la investigación de radar después de la Segunda Guerra Mundial, pero se adaptó rápidamente para experimentos perceptivos (por ejemplo, Green y Swets ). No sé quién descubrió que asumir la independencia entre los predictores funciona bien, pero el trabajo de principios de la década de 1970 parece haber explotado esta idea, como se resume en este artículo . Por cierto, ¡ese artículo también señala que Naive Bayes alguna vez fue llamado "Bayes idiota"!

Máquinas de vectores de soporte

En 1962, Vapnik y Chervonenkis describieron el "Algoritmo de retrato generalizado" ( exploración terrible, lo siento ), que parece un caso especial de una máquina de vectores de soporte (o en realidad, una SVM de una clase). Chervonenkis escribió un artículo titulado "Historia temprana de las máquinas de vectores de soporte" que describe esto y su trabajo de seguimiento con más detalle. El truco del núcleo (núcleos como productos internos) fue descrito por Aizerman, Braverman y Rozonoer en 1964. svms.org tiene un poco más sobre la historia de las máquinas de vectores de soporte aquí .

Matt Krause
fuente
2
El análisis de series de tiempo también resolvió algunos problemas interesantes. Los filtros ARMA y Kalman hicieron un buen kilometraje en los años 50 y 60.
EngrStudent - Restablece a Monica el
1
¡Interesante! ¡No sé tanto sobre eso o su historia, pero felizmente votaría una respuesta si escribieras una!
Matt Krause el
3

DESCARGO DE RESPONSABILIDAD : Esta respuesta está incompleta, pero no tengo tiempo para actualizarla en este momento. Espero trabajar en esto más adelante esta semana.


Pregunta:
¿cuáles fueron los métodos de vanguardia para resolver problemas de predicción a partir de datos alrededor de 1969?

Nota: esto no va a repetir la excelente respuesta de 'Matt Krause'.

"Estado del arte" significa "mejor y más moderno", pero no necesariamente reducido a la práctica como norma de la industria. En contraste, la ley de patentes de los Estados Unidos busca "no obvio" como se define por "habilidad ordinaria en la técnica". El "estado del arte" para 1969 probablemente se puso en patentes durante la próxima década.

Es extremadamente probable que los enfoques "mejores y más brillantes" de 1969 se utilizaron o evaluaron para su uso en ECHELON (1) (2) . También se mostrará en la evaluación de la otra superpotencia matemáticamente capaz de la era, la URSS. La ingeniería de cargas útiles espectrométricas y actinométricas está informada por las capacidades de procesamiento de datos del día y por el manejo de datos previsto para el "futuro cercano" de la época. El procesamiento de este tipo de datos es donde buscar las mejores prácticas del período.(3) Me toma varios años fabricar un satélite, por lo que uno también esperaría que la tecnología o el contenido para los próximos ~ 5 años de satélites de comunicación, telemetría o reconocimiento muestren el estado del arte de 1969. Un ejemplo es El satélite meteorológico Meteor-2 comenzó en 1967 y el diseño preliminar se completó en 1971. (4)

Una lectura de la "Revista de teoría y aplicaciones de optimización" ha estado funcionando durante varios años y tiene sus contenidos accesibles. (5) Considere esta (6) evaluación de estimadores óptimos, y esta para estimadores recursivos. (7)

El proyecto SETI, iniciado en la década de 1970, probablemente utilizaba tecnología y técnicas de menor presupuesto que eran más antiguas para adaptarse a la tecnología de la época. La exploración de las primeras técnicas SETI también puede hablar de lo que se consideró líder alrededor de 1969. Un posible candidato es el precursor de " maletar SETI ". La "maleta SETI" utilizó DSP para construir receptores de autocorrelación en ~ 130k canales de banda estrecha. La gente de SETI buscaba particularmente realizar análisis de espectro. El enfoque se utilizó por primera vez fuera de línea para procesar los datos de Aricebo. Más tarde se conectó al radiotelescopio Aricebo en 1978 para obtener datos en vivo y los resultados se publicaron el mismo año . El actual Suitecase-SETI se completó en 1982. Aquí (enlace)

El enfoque consistía en utilizar transformaciones de Fourier largas fuera de línea (~ 64k muestras) para buscar segmentos de ancho de banda, incluido el manejo de chirp y compensación en tiempo real para el cambio Doppler. El enfoque "no es nuevo" y se proporcionaron referencias que incluyen: Ver, por ejemplo,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Las herramientas utilizadas para predecir el siguiente estado dado el estado anterior que eran populares en ese momento incluyen:

  • Filtros de Kalman (y derivados) (Weiner, Bucy, no lineal ...)
  • Métodos de series de tiempo (y derivados)
  • Métodos de dominio de frecuencia (Fourier) que incluyen filtrado y amplificación

Las "palabras clave" comunes (o palabras de moda) incluyen "adjunto, variacional, gradiente, óptimo, segundo orden y conjugado".

La premisa de un filtro Kalman es la combinación óptima de datos del mundo real con un modelo analítico y predictivo. Fueron utilizados para hacer que cosas como misiles golpearan un objetivo en movimiento.

revs EngrStudent
fuente
Gracias por escribir eso. ¡Me gusta el enfoque basado en aplicaciones que tomó!
Matt Krause
@MattKrause: todavía tengo un poco que poner. Pensé que el enfoque basado en aplicaciones serviría a la "arqueología de las matemáticas" en este caso. Veremos. El trabajo me da ganas de construir un "SETI maleta" y usarlo para mirar mi entorno humano de por vida, solo para tener una idea de lo que estaban haciendo las herramientas de 50 años.
EngrStudent - Restablece a Monica el