En un coloquio reciente, el resumen del orador afirmó que estaban utilizando el aprendizaje automático. Durante la charla, lo único relacionado con el aprendizaje automático era que realizaban una regresión lineal en sus datos. Después de calcular los coeficientes de mejor ajuste en el espacio de parámetros 5D, compararon estos coeficientes en un sistema con los coeficientes de mejor ajuste de otros sistemas.
¿Cuándo es el aprendizaje automático de regresión lineal , en lugar de simplemente encontrar una línea que se ajuste mejor? (¿El resumen del investigador fue engañoso?)
Con toda la atención que el aprendizaje automático ha estado obteniendo recientemente, parece importante hacer tales distinciones.
Mi pregunta es como esta , excepto que esa pregunta pide la definición de "regresión lineal", mientras que la mía pregunta cuándo la regresión lineal (que tiene un amplio número de aplicaciones) puede llamarse apropiadamente "aprendizaje automático".
Aclaraciones
No estoy preguntando cuándo la regresión lineal es lo mismo que el aprendizaje automático. Como algunos han señalado, un solo algoritmo no constituye un campo de estudio. Pregunto cuándo es correcto decir que uno está haciendo aprendizaje automático cuando el algoritmo que está usando es simplemente una regresión lineal.
Dejando de lado todos los chistes (ver comentarios), una de las razones por las que pregunto esto es porque no es ético decir que uno está haciendo aprendizaje automático para agregar algunas estrellas doradas a su nombre si realmente no están haciendo aprendizaje automático. (Muchos científicos calculan algún tipo de línea de mejor ajuste para su trabajo, pero esto no significa que estén haciendo aprendizaje automático). Por otro lado, claramente hay situaciones en las que se utiliza la regresión lineal como parte del aprendizaje automático. Estoy buscando expertos que me ayuden a clasificar estas situaciones. ;-)
Respuestas:
Respondiendo a su pregunta con una pregunta: ¿qué es exactamente el aprendizaje automático? Trevor Hastie, Robert Tibshirani y Jerome Friedman en The Elements of Statistical Learning , Kevin P. Murphy en Machine Learning A Probabilistic Perspective , Christopher Bishop en Pattern Recognition and Machine Learning , Ian Goodfellow, Yoshua Bengio y Aaron Courville en Deep Learning y varios otras "biblias" de aprendizaje automático mencionan la regresión lineal como uno de los "algoritmos" de aprendizaje automático. El aprendizaje automático es en parte una palabra de moda para las estadísticas aplicadas y la distinción entre estadísticas y aprendizaje automático a menudo es borrosa.
fuente
La regresión lineal es definitivamente un algoritmo que se puede usar en el aprendizaje automático. Pero, reductio ad absurdum : cualquier persona con una copia de Excel puede ajustarse a un modelo lineal.
Incluso restringiéndonos a modelos lineales, hay algunas cosas más a tener en cuenta al hablar sobre el aprendizaje automático:
La respuesta corta, desde mi punto de vista, es que donde el aprendizaje automático se desvía del modelado estadístico tradicional es en la aplicación de la fuerza bruta y los enfoques numéricos para la selección de modelos, especialmente en dominios con una gran cantidad de datos y una gran cantidad de variables explicativas , con un enfoque en el poder predictivo, seguido de más fuerza bruta para la validación del modelo.
fuente
Creo que la definición de Mitchell proporciona una forma útil de fundamentar la discusión sobre el aprendizaje automático, una especie de primer principio. Como se reproduce en Wikipedia :
Esto es útil de varias maneras. Primero, a su pregunta inmediata: la regresión es el aprendizaje automático cuando su tarea es proporcionar un valor estimado de las características predictivas en alguna aplicación. Su rendimiento debería mejorar, medido por el error medio al cuadrado (o absoluto, etc.), ya que experimenta más datos.
En segundo lugar, ayuda a delinear el aprendizaje automático a partir de términos relacionados y su uso como palabra de moda de marketing. Contraste la tarea anterior con una regresión inferencial estándar, en la que un analista interpreta coeficientes para relaciones significativas. Aquí el programa devuelve un resumen: coeficientes, valores p, etc. No se puede decir que el programa mejore este rendimiento con experiencia; La tarea es un cálculo elaborado.
Finalmente, ayuda a unificar los subcampos de aprendizaje automático, tanto los que se usan comúnmente en la exposición introductoria (supervisada, no supervisada) con otros como el aprendizaje por refuerzo o la estimación de densidad. (Cada uno tiene una tarea, una medida de rendimiento y un concepto de experiencia, si se piensa lo suficiente en ellos). Proporciona, creo, una definición más rica que ayuda a delinear los dos campos sin reducirlos innecesariamente. Como ejemplo, "ML es para predicción, estadísticas para inferencia" ignora tanto las técnicas de aprendizaje automático fuera del aprendizaje supervisado como las técnicas estadísticas que se centran en la predicción.
fuente
No hay una ley que diga que un ebanista no pueda usar una sierra de barril.
El aprendizaje automático y las estadísticas son etiquetas vagas, pero si están bien definidas, existe una gran superposición entre las estadísticas y el aprendizaje automático. Y esto se aplica a los métodos de estas dos áreas, así como (y por separado) para las personas que se etiquetan con estas dos áreas. Pero en lo que respecta a las matemáticas, el aprendizaje automático está completamente dentro del campo de la estadística.
La regresión lineal es un procedimiento matemático muy bien definido. Tiendo a asociarlo con el área de estadísticas y las personas que se autodenominan 'estadísticos' y aquellos que salen de programas académicos con etiquetas como 'estadísticas'. SVM (Support Vector Machines) es también un procedimiento matemático muy bien definido que tiene algunas entradas y salidas similares y resuelve problemas similares. Sin embargo, tiendo a asociarlo con el área del aprendizaje automático y las personas que se autodenominan científicos informáticos o personas que trabajan en inteligencia artificial o aprendizaje automático que tienden a considerarse parte de la informática como disciplina.
Pero algunos estadísticos pueden usar SVM y algunas personas con IA usan regresión logística. Para ser claros, es más probable que un estadístico o investigador de IA desarrolle un método que realmente lo ponga en práctica.
Puse todos los métodos de aprendizaje automático directamente dentro del dominio de las estadísticas. Incluso cosas tan recientes como Deep Learning, RNN, CNN, LSTM, CRF. Un estadístico aplicado (bioestadístico, agrónomo) puede no estar familiarizado con ellos. Esos son todos métodos de modelado predictivo generalmente etiquetados con 'aprendizaje automático', y rara vez asociados con estadísticas. Pero son modelos predictivos, con la posibilidad de que puedan juzgarse utilizando métodos estadísticos.
Al final, la regresión logística debe considerarse parte del aprendizaje automático.
Pero sí, veo y a menudo comparto su disgusto por la aplicación incorrecta de estas palabras. La regresión lineal es una parte tan fundamental de las cosas llamadas estadísticas que se siente muy extraño y engañoso llamar a su uso 'aprendizaje automático' .
Para ilustrar, la regresión logística es idéntica matemáticamente a una red de aprendizaje profundo sin nodos ocultos y la función logística como la función de activación para el nodo de salida único. No llamaría a la regresión logística un método de aprendizaje automático, pero ciertamente se usa en contextos de aprendizaje automático.
Es sobre todo una cuestión de expectativa.
Es como decir, al lavar una ventana con agua, que estás usando química cuántica. Bueno, sí, claro, eso no es técnicamente incorrecto, pero estás implicando mucho más de lo que se necesita.
Pero realmente, eso es exactamente una diferencia cultural versus una diferencia de sustancia. Las connotaciones de una palabra y las asociaciones con grupos de personas (¡LR es totalmente no ML!) Frente a las matemáticas y las aplicaciones (¡LR es totalmente ML!).
fuente
La visión común es que el aprendizaje automático consta de 4 áreas:
1) Reducción de dimensionalidad
2) Agrupación
3) Clasificación
4) regresión
La regresión lineal es una regresión. Una vez que el modelo esté entrenado, podría usarse para predicciones, como cualquier otra, por ejemplo, Regresión forestal aleatoria.
fuente
La regresión lineal es una técnica, mientras que el aprendizaje automático es un objetivo que se puede lograr a través de diferentes medios y técnicas.
Por lo tanto, el rendimiento de la regresión se mide por lo cerca que se ajusta a una línea / curva esperada, mientras que el aprendizaje automático se mide por lo bueno que puede resolver un determinado problema, con los medios necesarios.
fuente
Argumentaré que la distinción entre aprendizaje automático e inferencia estadística es clara. En resumen, aprendizaje automático = predicción de observaciones futuras ; estadística = explicación.
Aquí hay un ejemplo de mi campo de interés (medicina): cuando desarrollamos un medicamento, buscamos los genes que mejor explican un estado de enfermedad, con el objetivo de enfocarlos con el medicamento. Usamos statistis para eso. Por el contrario, cuando se desarrollan pruebas de diagnóstico, por ejemplo, prediciendo si el medicamento ayudará a un paciente, el objetivo es encontrar estrictamente el mejor predictor del resultado futuro, incluso si comprende muchos genes y es demasiado complicado de entender. Utilizamos el aprendizaje automático para este propósito. Existen múltiples ejemplos publicados [1], [2], [3], [4] que muestran que la presencia del fármaco objetivo no es un buen predictor del resultado del tratamiento, de ahí la distinción.
En base a esto, es justo decir que uno está haciendo aprendizaje automático cuando el objetivo es predecir estrictamente el resultado de observaciones futuras / nunca antes vistas. Si el objetivo es comprender un fenómeno particular, entonces esa es la inferencia estadística, no el aprendizaje automático. Como otros han señalado, esto es cierto independientemente del método involucrado.
Para responder a su pregunta: en la investigación específica que describe, los científicos estaban comparando los roles de los factores (pesos) en diferentes modelos de regresión lineal, no comparando las precisiones del modelo. Por lo tanto, no es preciso llamar a su aprendizaje automático de inferencia.
[1] Messersmith WA, Ahnen DJ. Orientación de EGFR en cáncer colorrectal. El diario Nueva Inglaterra de medicina; 2008; 359; 17)
[2] Pogue-Geile KL y col. Predicción del grado de beneficio del adyuvante Trastuzumab en el ensayo NSABP B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.
[3] Aprobación de Pazdur R. FDA para Vemurafenib. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Actualizado el 3 de julio de 2013.
[4] Ray T. Dos estudios de la ASCO muestran el desafío de utilizar la señalización MET como marcador predictivo en ensayos de drogas NSCLC. GenomeWeb, 11 de junio de 2014.
fuente
Puede ser útil llamar aprendizaje automático de regresión lineal porque hacerlo generalmente implica un par de cosas importantes acerca de cómo resolvió su problema:
Sin embargo, si su modelo está más destinado a explicar que a predecir, y usted verifica rigurosamente los supuestos causales teóricos de su modelo, etc., entonces sí, es bastante tonto llamarlo aprendizaje automático.
fuente
Es cierto que cualquier respuesta a esta pregunta es más una opinión que un hecho objetivo, pero trataré de exponer mi lógica de por qué creo que la respuesta nunca es . Cualquier supuesto experto o instructor de aprendizaje automático solo revela su ignorancia al representar la regresión lineal como tal.
La delimitación de las disciplinas académicas tiene más que ver con la delimitación de las comunidades que con los métodos. Las disciplinas científicas toman prestados métodos entre disciplinas todo el tiempo. Además, en el siglo XIX (cuando se desarrolló la regresión lineal) y antes de eso, las disciplinas científicas no estaban tan claramente delineadas como lo están hoy. Entonces, particularmente cuando los métodos se desarrollaron en el siglo XIX o antes, debemos tener cuidado de asignarlos a una disciplina en particular.
Dicho esto, uno puede mirar la historia de una disciplina y concluir razonablemente que los métodos particulares "pertenecen" a una disciplina u otra. Nadie diría hoy que el cálculo pertenece al campo de la física, a pesar de que Newton, uno de los inventores del cálculo, definitivamente estaba tratando de aplicar esto a la física. El cálculo pertenece claramente a la disciplina de las matemáticas, no a la física. Esto se debe a que el cálculo es un método matemático general que se puede usar completamente fuera de los contextos físicos.
Por el mismo razonamiento, la regresión lineal pertenece a la disciplina de la estadística, a pesar de que se usa comúnmente como un simple ejemplo de ajuste de datos a un modelo en el contexto del aprendizaje automático. Así como el cálculo puede usarse fuera del contexto de la física, la regresión lineal puede (y es) fuera del contexto del aprendizaje automático.
Los instructores de aprendizaje automático serían prudentes al señalar que la regresión lineal ha estado en uso desde fines del siglo XIX, mucho antes de que surgiera la noción moderna de aprendizaje automático. También deben enfatizar que el aprendizaje automático utiliza muchos conceptos de probabilidad y estadística, así como otras disciplinas (por ejemplo, teoría de la información). Sin embargo, estos conceptos no representan el aprendizaje automático o un "algoritmo" de aprendizaje automático.
fuente
¡Es la máquina, estúpido!
No soy estadístico ni experto en Big Data (TM). Sin embargo, diría que la distinción esencial es que el "aprendizaje automático" requiere "una máquina". En particular, implica agencia . El resultado no será consumido sin prisa por un humano. Más bien, el resultado será la entrada a un ciclo cerrado mediante el cual un sistema automatizado mejora su rendimiento.
Sistema cerrado
Esto está muy en línea con la respuesta de Sean Easter, pero solo quiero enfatizar que en aplicaciones comerciales, una máquina está mirando los resultados y actuando sobre ellos . Un ejemplo clásico es el algoritmo CineMatch, que fue el objetivo del Premio Netflix. Un humano podría mirar la salida de CineMatch y aprender características interesantes sobre los espectadores de películas. Pero no es por eso que existe. El propósito de CineMatch es proporcionar un mecanismo mediante el cual los servidores de Netflix puedan sugerir películas a los clientes que puedan disfrutar. La salida del modelo estadístico se dirige al servicio de recomendación, que finalmente produce más información a medida que los clientes califican las películas, algunas de las cuales fueron seleccionadas por recomendación de CineMatch.
Sistema abierto
Por otro lado, si un investigador usa un algoritmo para producir resultados estadísticos que se muestran en una presentación a otros humanos, entonces ese investigador decididamente no participa en el aprendizaje automático . Esto es, obviamente para mí, aprendizaje humano . El análisis lo realiza una máquina, pero no es una máquina la que está aprendiendo per se. Ahora, es "aprendizaje automático" en la medida en que un cerebro humano no experimentó todas las entradas de la muestra y obtuvo los resultados estadísticos "biológicamente". Pero yo lo llamaría "estadísticas" porque esto es exactamente lo que los estadísticos han estado haciendo desde que se inventó el campo.
Conclusión
Por lo tanto, respondería a esta pregunta preguntando: "¿Quién consume los resultados?" Si la respuesta es: "humanos", entonces son "estadísticas". Si la respuesta es: "software", entonces es "aprendizaje automático". Y cuando decimos que "el software consume los resultados", no queremos decir que lo almacene en algún lugar para su posterior recuperación. Queremos decir que realiza un comportamiento determinado por los resultados en un ciclo cerrado .
fuente
En mi opinión, se puede hablar de aprendizaje automático cuando una máquina está programada para inferir parámetros de algún modelo utilizando algunos datos.
Si la máquina realiza una regresión lineal, entonces califica.
Si se hace a mano, entonces no lo hace.
Las definiciones que dependen de la prevalencia de algún agente (como Excel), o la mejora iterativa (como Sean Easter sugiere anteriormente), de alguna manera tratar de separarlo de las estadísticas o dependiendo de qué hacer con los resultados resultará inconsistente, en mi opinión.
fuente