El año pasado, leí una publicación de blog de Brendan O'Connor titulada "Estadísticas vs. Aprendizaje automático, ¡lucha!" eso discutió algunas de las diferencias entre los dos campos. Andrew Gelman respondió favorablemente a esto :
Simon Blomberg:
Del paquete de fortunas de R: Parafraseando provocativamente, "el aprendizaje automático es estadística menos cualquier verificación de modelos y suposiciones". - Brian D. Ripley (sobre la diferencia entre aprendizaje automático y estadísticas) useR! 2004, Viena (mayo de 2004) :-) ¡Saludos de la temporada!
Andrew Gelman:
En ese caso, tal vez deberíamos deshacernos de la verificación de modelos y supuestos con más frecuencia. ¡Entonces quizás podamos resolver algunos de los problemas que la gente de aprendizaje automático puede resolver pero nosotros no!
También estaba el "Modelado Estadístico: las dos culturas" de papel de Leo Breiman en 2001, que argumentaron que los estadísticos se basan demasiado en el modelado de datos, y que las técnicas de aprendizaje automático están haciendo progresos en lugar de confiar en la exactitud predictiva de los modelos.
¿Ha cambiado el campo de las estadísticas en la última década en respuesta a estas críticas? ¿ Siguen existiendo las dos culturas o han crecido las estadísticas para adoptar técnicas de aprendizaje automático tales como redes neuronales y máquinas de vectores de soporte?
Respuestas:
Creo que la respuesta a su primera pregunta es simplemente afirmativa. Tome cualquier tema de Statistical Science, JASA, Annals of Statistics de los últimos 10 años y encontrará documentos sobre impulso, SVM y redes neuronales, aunque esta área está menos activa ahora. Los estadísticos se han apropiado del trabajo de Valiant y Vapnik, pero por otro lado, los científicos informáticos han absorbido el trabajo de Donoho y Talagrand. Ya no creo que haya mucha diferencia en alcance y métodos. Nunca he comprado el argumento de Breiman de que las personas de CS solo estaban interesadas en minimizar las pérdidas usando lo que sea que funcione. Ese punto de vista estuvo fuertemente influenciado por su participación en las conferencias de Redes Neurales y su trabajo de consultoría; pero PAC, SVMs, Boosting tienen bases sólidas. Y hoy, a diferencia de 2001, las estadísticas están más preocupadas por las propiedades de muestras finitas,
Pero creo que todavía hay tres diferencias importantes que no desaparecerán pronto.
fuente
La mayor diferencia que veo entre las comunidades es que las estadísticas enfatizan la inferencia, mientras que el aprendizaje automático enfatiza la predicción. Cuando realiza estadísticas, desea inferir el proceso mediante el cual se generaron los datos que tiene. Cuando haces aprendizaje automático, quieres saber cómo puedes predecir qué datos futuros se verán con alguna variable.
Por supuesto, los dos se superponen. Saber cómo se generaron los datos le dará algunas pistas sobre cómo sería un buen predictor, por ejemplo. Sin embargo, un ejemplo de la diferencia es que el aprendizaje automático se ha ocupado del problema p >> n (más características / variables que muestras de entrenamiento) desde su infancia, mientras que las estadísticas apenas comienzan a tomarse en serio este problema. ¿Por qué? Porque todavía puede hacer buenas predicciones cuando p >> n, pero no puede hacer muy buenas inferencias sobre qué variables son realmente importantes y por qué.
fuente
Bayesiano: "¡Hola, aprendiz de máquina!"
Frecuente: "¡Hola, aprendiz de máquina!"
Aprendizaje automático: "Escuché que ustedes son buenos en las cosas. Aquí hay algunos datos".
F: "Sí, escriba un modelo y luego calculemos el MLE".
B: "¡Hey, F, eso no es lo que me dijiste ayer! Tenía algunos datos univariados y quería estimar la varianza, y calculé el MLE. Luego me atacaste y me dijiste que dividiera por lugar de pornn−1 n ".
F: "Ah, sí, gracias por recordármelo. A menudo pienso que se supone que debo usar el MLE para todo, pero estoy interesado en estimadores imparciales y así sucesivamente".
ML: "Eh, ¿de qué se trata esta filosofía? ¿Me ayudará?"
F: "OK, un estimador es un recuadro negro, ingresas datos y te da algunos números. A los frecuentadores no nos importa cómo se construyó el recuadro, qué principios se usaron para diseñarlo. Por ejemplo, yo no sé cómo derivar la regla ".÷(n−1)
ML: "Entonces, ¿qué te importa?"
F: "Evaluación".
ML: "Me gusta cómo suena eso".
F: "Una caja negra es una caja negra. Si alguien afirma que un estimador particular es un estimador imparcial para , entonces intentamos muchos valores de a su vez, generamos muchas muestras de cada uno de ellos según un modelo asumido, empujándolos el estimador, y encuentre el promedio estimado . Si podemos demostrar que la estimación esperada es igual al valor verdadero, para todos los valores, entonces decimos que es imparcial ".θ θθ θ θ
ML: "¡Suena genial! Parece que los frecuentadores son personas pragmáticas. Usted juzga cada caja negra por sus resultados. La evaluación es clave".
F: "¡De hecho! Entiendo que ustedes tienen un enfoque similar. ¿Validación cruzada, o algo así? Pero eso me parece desordenado".
ML: "¿Desordenado?"
F: "La idea de probar su estimador con datos reales me parece peligrosa. Los datos empíricos que usa podrían tener todo tipo de problemas y podrían no comportarse de acuerdo con el modelo que acordamos para la evaluación".
ML: "¿Qué? ¿Creí que dijiste que habías probado algunos resultados? Que tu estimador siempre sería imparcial, para todo ".θ
F: "Sí. Si bien su método podría haber funcionado en un conjunto de datos (el conjunto de datos con el tren y los datos de prueba) que utilizó en su evaluación, puedo demostrar que el mío siempre funcionará".
ML: "¿Para todos los conjuntos de datos?"
F: "No."
ML: "Entonces mi método ha sido validado en un conjunto de datos. ¿No ha probado el suyo en ningún conjunto de datos real?"
F: "Eso es correcto".
ML: "¡Eso me pone a la cabeza entonces! Mi método es mejor que el suyo. Predice el cáncer el 90% del tiempo. Su 'prueba' solo es válida si todo el conjunto de datos se comporta de acuerdo con el modelo que usted asumió".
F: "Emm, sí, supongo".
ML: "Y ese intervalo tiene una cobertura del 95% . ¿Pero no debería sorprenderme si solo contiene el valor correcto de 20% del tiempo?"θ
F: "Eso es correcto. A menos que los datos estén realmente en Normal (o lo que sea), mi prueba es inútil".
ML: "¿Entonces mi evaluación es más confiable y completa? Solo funciona en los conjuntos de datos que he probado hasta ahora, pero al menos son conjuntos de datos reales, verrugas y todo. Ahí estaba, tratando de decir que era más 'conservador 'y' exhaustivo 'y que estaba interesado en la verificación de modelos y otras cosas ".
B: (interrumpe) "Hola chicos, perdón por interrumpir. Me encantaría intervenir y equilibrar las cosas, tal vez demostrando algunos otros problemas, pero realmente me encanta ver cómo mi colega frecuenta se retuerce".
F: "¡Woah!"
ML: "OK, niños. Se trataba de una evaluación. Un estimador es un recuadro negro. Los datos entran, salen datos. Aprobamos o desaprobamos un estimador basado en cómo funciona bajo evaluación. No nos importa sobre la 'receta' o 'principios de diseño' que se utilizan ".
F: "Sí. Pero tenemos ideas muy diferentes sobre qué evaluaciones son importantes. ML realizará un entrenamiento y prueba sobre datos reales. Mientras que haré una evaluación que es más general (porque implica una prueba ampliamente aplicable) y también más limitado (porque no sé si su conjunto de datos se extrae realmente de los supuestos de modelado que uso al diseñar mi evaluación) ".
ML: "¿Qué evaluación usas, B?"
F: (interrumpe) "Oye. No me hagas reír. No evalúa nada. Simplemente usa sus creencias subjetivas y corre con ellas. O algo así".
B: "Esa es la interpretación común. Pero también es posible definir el bayesianismo por las evaluaciones preferidas. Entonces podemos usar la idea de que a ninguno de nosotros nos importa lo que está en el recuadro negro, solo nos interesan las diferentes formas de evaluar".
B continúa: "Ejemplo clásico: examen médico. El resultado del análisis de sangre es Positivo o Negativo. A un frecuentador le interesará, de las personas sanas, qué proporción obtiene un resultado negativo. Y de manera similar, qué proporción de personas enfermas tendrá obtenga un Positivo. El frecuentista calculará estos para cada método de análisis de sangre que se esté considerando y luego recomendará que usemos el examen que obtuvo el mejor par de puntajes ".
F: "Exactamente. ¿Qué más podrías querer?"
B: "¿Qué pasa con las personas que obtuvieron un resultado positivo en la prueba? Querrán saber 'de aquellos que obtienen un resultado positivo, ¿cuántos se enfermarán?' y 'de aquellos que obtienen un resultado negativo, ¿cuántos son saludables?' "
ML: "Ah, sí, parece un mejor par de preguntas".
F: "¡HERESIA!"
B: "Aquí vamos de nuevo. No le gusta a dónde va esto".
ML: "Se trata de 'priors', ¿no?"
F: "MAL".
B: "De todos modos, sí, tienes razón ML. Para calcular la proporción de personas con resultados positivos que están enfermos, debes hacer una de dos cosas. Una opción es ejecutar las pruebas en muchas personas y simplemente observar proporciones relevantes. Cuántas de esas personas mueren de la enfermedad, por ejemplo ".
ML: "Eso suena como lo que hago. Usa entrenar y probar".
B: "Pero puede calcular estos números por adelantado, si está dispuesto a hacer una suposición sobre la tasa de Enfermedad en la población. El frecuentista también hace sus cálculos por adelantado, pero sin usar esta tasa de Enfermedad a nivel de población".
F: "MÁS SUPUESTOS INFUNDADOS".
B: "Oh, cállate. Anteriormente, te descubrieron. ML descubrió que eres tan aficionado a las suposiciones infundadas como cualquiera. Tus probabilidades de cobertura" probadas "no se acumularán en el mundo real a menos que todas tus suposiciones sean válidas. ¿Por qué mi suposición anterior es tan diferente? Me llamas loco, pero finges que tus suposiciones son el trabajo de un análisis conservador, sólido y libre de suposiciones ".
B (continúa): "De todos modos, ML, como decía. A los bayesianos les gusta un tipo diferente de evaluación. Estamos más interesados en condicionar los datos observados y calcular la precisión de nuestro estimador en consecuencia. No podemos realizar esta evaluación sin usar un prior. Pero lo interesante es que, una vez que decidimos sobre esta forma de evaluación, y una vez que elegimos nuestro prior, tenemos una 'receta' automática para crear un estimador apropiado. El frecuentista no tiene tal receta. Si quiere un estimador imparcial para un modelo complejo, no tiene ninguna forma automatizada de construir un estimador adecuado ".
ML: "¿Y tú? ¿Puedes construir automáticamente un estimador?"
B: "Sí. No tengo una forma automática de crear un estimador imparcial, porque creo que el sesgo es una mala forma de evaluar un estimador. Pero dada la estimación condicional en los datos que me gusta, y la anterior, yo puede conectar el previo y la probabilidad de darme el estimador ".
ML: "De todos modos, vamos a recapitular. Todos tenemos diferentes maneras de evaluar nuestros métodos, y probablemente nunca estaremos de acuerdo sobre cuáles son los mejores".
B: "Bueno, eso no es justo. Podríamos mezclarlos y combinarlos. Si alguno de nosotros tiene buenos datos de entrenamiento etiquetados, probablemente deberíamos probarlo. Y en general todos deberíamos probar tantas suposiciones como podamos. Y algunos 'frecuentas 'las pruebas también pueden ser divertidas, prediciendo el rendimiento bajo un supuesto modelo de generación de datos ".
F: "Sí, muchachos. Seamos pragmáticos acerca de la evaluación. Y, de hecho, dejaré de obsesionarme con las propiedades de muestras infinitas. Les he estado pidiendo a los científicos que me den una muestra infinita, pero aún no lo han hecho. Es tiempo para concentrarme nuevamente en muestras finitas ".
ML: "Entonces, solo tenemos una última pregunta. Hemos discutido mucho sobre cómo evaluar nuestros métodos, pero cómo los creamos ".
B: "Ah. Como me refería antes, los bayesianos tenemos el método general más poderoso. Puede ser complicado, pero siempre podemos escribir algún tipo de algoritmo (tal vez una forma ingenua de MCMC) que muestreará desde nuestra parte posterior. "
F (interjecciones): "Pero podría tener sesgo".
B: "También podrían sus métodos. ¿Necesito recordarle que el MLE a menudo está sesgado? A veces, tiene grandes dificultades para encontrar estimadores imparciales, e incluso cuando tiene un estimador estúpido (para algún modelo realmente complejo) que dirá el la varianza es negativa. Y a eso lo llamas imparcial. Sí, imparcial, pero útil, ¡no! "
ML: "Está bien chicos. Están despotricando de nuevo. Permítanme hacerles una pregunta, F. ¿Alguna vez han comparado el sesgo de su método con el sesgo del método de B, cuando ambos trabajaron en el mismo problema?"
F: "Sí. De hecho, odio admitirlo, ¡pero el enfoque de B a veces tiene un sesgo y un MSE más bajos que mi estimador!"
ML: "La lección aquí es que, aunque no estamos de acuerdo con la evaluación, ninguno de nosotros tiene el monopolio de cómo crear un estimador que tenga las propiedades que queremos".
B: "Sí, deberíamos leer el trabajo del otro un poco más. Podemos inspirarnos mutuamente para los estimadores. Podríamos encontrar que los estimadores de otros funcionan muy bien, de forma inmediata, en nuestros propios problemas".
F: "Y debería dejar de obsesionarme por el sesgo. Un estimador imparcial podría tener una variación ridícula. Supongo que todos tenemos que" responsabilizarnos "de las elecciones que hacemos en la forma en que evaluamos y las propiedades que deseamos ver en nuestros estimadores. No podemos respaldar una filosofía. Pruebe todas las evaluaciones que pueda. ¡Y seguiré echando un vistazo a la literatura bayesiana para obtener nuevas ideas para los estimadores! "
B: "De hecho, mucha gente realmente no sabe cuál es su propia filosofía. Ni siquiera estoy seguro de mí mismo. Si uso una receta bayesiana y luego pruebo algún resultado teórico agradable, eso no significa que yo ¿Soy un frecuentador? A un frecuentador le importan las pruebas anteriores sobre el rendimiento, no le importan las recetas. Y si hago algo de entrenamiento y prueba (o también), ¿eso significa que soy un aprendiz de máquina? "
ML: "Parece que todos somos bastante similares entonces".
fuente
En esa discusión, siempre recuerdo la famosa cita de Ken Thompson
En este caso, el aprendizaje automático es una salvación cuando los supuestos son difíciles de entender; o al menos es mucho mejor que adivinarlos mal.
fuente
Lo que impone más separación de lo que debería ser es el léxico de cada disciplina.
Hay muchos casos en los que ML usa un término y Estadísticas usa un término diferente, pero ambos se refieren a la misma cosa, bien, es de esperar que eso no cause confusión permanente (por ejemplo, características / atributos versus expectativa variables, o red neuronal / MLP versus búsqueda de proyección).
Lo que es mucho más problemático es que ambas disciplinas usan el mismo término para referirse a conceptos completamente diferentes.
Algunos ejemplos:
Función del núcleo
En ML, las funciones del núcleo se usan en clasificadores (por ejemplo, SVM) y, por supuesto, en las máquinas del núcleo. El término se refiere a una función simple ( coseno, sigmoidal, rbf, polinomio ) para mapear de forma no lineal separable a un nuevo espacio de entrada, de modo que los datos ahora sean linealmente separables en este nuevo espacio de entrada. (en comparación con el uso de un modelo no lineal para empezar).
En estadística, una función del núcleo es la función de ponderación utilizada en la estimación de densidad para suavizar la curva de densidad.
Regresión
En ML, los algoritmos predictivos o las implementaciones de esos algoritmos que devuelven etiquetas de clase "clasificadores" se denominan (a veces) máquinas: por ejemplo, máquina de vectores de soporte , máquina de kernel . La contraparte de las máquinas son los regresores , que devuelven una puntuación (variable continua), por ejemplo, admiten la regresión de vectores .
En raras ocasiones, los algoritmos tienen diferentes nombres según el modo; por ejemplo, un MLP es el término utilizado, ya sea que devuelva una etiqueta de clase o una variable continua.
En Estadística, regresión , si está intentando construir un modelo basado en datos empíricos, para predecir alguna variable de respuesta basada en una o más variables explicativas o más variables, entonces está haciendo un análisis de regresión . No importa si el resultado es una variable continua o una etiqueta de clase (por ejemplo, regresión logística). Entonces, por ejemplo, la regresión de mínimos cuadrados se refiere a un modelo que devuelve un valor continuo; La regresión logística, por otro lado, devuelve una estimación de probabilidad que luego se discretiza en las etiquetas de una clase.
Parcialidad
En ML, el término de sesgo en el algoritmo es conceptualmente idéntico al término de intercepción utilizado por los estadísticos en el modelado de regresión.
En Estadística, el sesgo es un error no aleatorio, es decir, algún fenómeno influyó en todo el conjunto de datos en la misma dirección, lo que a su vez significa que este tipo de error no se puede eliminar volviendo a muestrear o aumentando el tamaño de la muestra.
fuente
Las mayores diferencias que he notado en el último año son:
fuente
El aprendizaje automático parece tener su base en lo pragmático: una observación práctica o simulación de la realidad. Incluso dentro de las estadísticas, la "comprobación de modelos y supuestos" sin sentido puede llevar a descartar métodos que sean útiles.
Por ejemplo, hace años, el primer modelo de bancarrota disponible comercialmente (y en funcionamiento) implementado por los burós de crédito fue creado a través de un modelo de regresión lineal simple y antiguo dirigido a un resultado 0-1. Técnicamente, ese es un mal enfoque, pero prácticamente funcionó.
fuente
No estoy de acuerdo con esta pregunta, ya que sugiere que el aprendizaje automático y las estadísticas son ciencias diferentes o conflictivas ... ¡cuando sucede lo contrario!
el aprendizaje automático hace un uso extensivo de las estadísticas ... una encuesta rápida de cualquier paquete de software de aprendizaje automático o minería de datos revelará técnicas de agrupación como k-means también encontradas en estadísticas ... también mostrará técnicas de reducción de dimensiones como el análisis de componentes principales también una técnica estadística ... incluso regresión logística, otra más.
En mi opinión, la principal diferencia es que tradicionalmente la estadística se usaba para probar una teoría preconcebida y, por lo general, el análisis se diseñaba en torno a esa teoría principal. Donde con la minería de datos o el aprendizaje automático, el enfoque opuesto suele ser la norma, ya que tenemos el resultado, solo queremos encontrar una manera de predecirlo en lugar de hacer la pregunta o formar la teoría, ¡este es el resultado!
fuente
He hablado sobre esto en un foro diferente, el ASA Statistical Consulting eGroup. Mi respuesta fue más específicamente a la minería de datos, pero los dos van de la mano. Los estadísticos hemos desairado nuestras narices a los mineros de datos, informáticos e ingenieros. Está mal. Creo que parte de la razón por la que sucede es porque vemos a algunas personas en esos campos ignorando la naturaleza estocástica de su problema. Algunos estadísticos llaman a la minería de datos espiar datos o pescar datos. Algunas personas abusan y usan mal los métodos, pero los estadísticos se han quedado atrás en la minería de datos y el aprendizaje automático porque los pintamos con un pincel amplio. Algunos de los grandes resultados estadísticos provienen de fuera del campo de las estadísticas. Impulsar es un ejemplo importante. Pero estadísticos como Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman y otros lo entendieron y su liderazgo ha llevado a los estadísticos al análisis de microarrays y otros problemas de inferencia a gran escala. Por lo tanto, si bien las culturas nunca se mezclan, ahora hay más cooperación y colaboración entre los informáticos, ingenieros y estadísticos.
fuente
El verdadero problema es que esta pregunta está equivocada. No es aprendizaje automático versus estadísticas, es aprendizaje automático contra el avance científico real. Si un dispositivo de aprendizaje automático da las predicciones correctas el 90% del tiempo pero no puedo entender "por qué", ¿cuál es la contribución del aprendizaje automático a la ciencia en general? Imagínese si se usaran técnicas de aprendizaje automático para predecir las posiciones de los planetas: habría muchas personas presumidas que pensarían que pueden predecir con precisión una cantidad de cosas con sus SVM, pero ¿qué sabrían realmente sobre el problema que tienen en sus manos? ? Obviamente, la ciencia no avanza realmente mediante predicciones numéricas, sino que avanza por medio de modelos (mentales, matemáticos) que nos permiten ver más allá de los números.
fuente
El aprendizaje estadístico (AKA Machine Learning) tiene su origen en la búsqueda de crear software "aprendiendo de los ejemplos". Hay muchas tareas que nos gustaría que hicieran las computadoras (por ejemplo, visión por computadora, reconocimiento de voz, control de robots) que son difíciles de programar pero para las cuales es fácil proporcionar ejemplos de capacitación. La comunidad de investigación de aprendizaje automático / aprendizaje estadístico desarrolló algoritmos para aprender funciones de estos ejemplos. La función de pérdida se relacionaba típicamente con la tarea de rendimiento (visión, reconocimiento de voz). Y, por supuesto, no teníamos razón para creer que hubiera un "modelo" simple subyacente a estas tareas (porque de lo contrario hubiéramos codificado ese programa simple nosotros mismos). Por lo tanto, toda la idea de hacer inferencia estadística no tenía ningún sentido. El objetivo es la precisión predictiva y nada más.
Con el tiempo, varias fuerzas comenzaron a impulsar a las personas de aprendizaje automático para aprender más sobre estadísticas. Uno era la necesidad de incorporar conocimientos previos y otras limitaciones en el proceso de aprendizaje. Esto llevó a las personas a considerar modelos probabilísticos generativos, porque facilitan la incorporación de conocimientos previos a través de la estructura del modelo y los antecedentes de los parámetros y la estructura del modelo. Esto llevó al campo a descubrir la rica literatura estadística en esta área. Otra fuerza fue el descubrimiento del fenómeno del sobreajuste. Esto llevó a la comunidad de ML a aprender sobre validación cruzada y regularización y nuevamente descubrimos la rica literatura estadística sobre el tema.
Sin embargo, el enfoque de la mayoría del trabajo de aprendizaje automático es crear un sistema que exhiba cierto rendimiento en lugar de hacer inferencias sobre un proceso desconocido. Esta es la diferencia fundamental entre ML y estadísticas.
fuente
Idealmente, uno debe tener un conocimiento profundo de estadísticas y aprendizaje automático antes de intentar responder a su pregunta. Soy muy neófito para ML, así que perdóname si digo que es ingenuo.
Tengo experiencia limitada en SVM y árboles de regresión. Lo que me parece que carece de ML desde el punto de vista de las estadísticas es un concepto de inferencia bien desarrollado.
La inferencia en ML parece reducirse casi exclusivamente a la precisión de predicción, medida por (por ejemplo) error de clasificación media (MCE) o tasa de error equilibrada (BER) o similar. ML tiene la muy buena costumbre de dividir datos aleatoriamente (generalmente 2: 1) en un conjunto de entrenamiento y un conjunto de prueba. Los modelos se ajustan utilizando el conjunto de entrenamiento y el rendimiento (MCE, BER, etc.) se evalúa utilizando el conjunto de prueba. Esta es una práctica excelente y solo se está abriendo paso lentamente en las estadísticas principales.
ML también hace un uso intensivo de los métodos de remuestreo (especialmente la validación cruzada), cuyos orígenes parecen estar en las estadísticas.
Sin embargo, ML parece carecer de un concepto de inferencia completamente desarrollado, más allá de la precisión predictiva. Esto tiene dos resultados.
1) No parece apreciarse que ninguna predicción (estimación de parámetros, etc.) esté sujeta a un error aleatorio y quizás a un error (sesgo) de la sistemática. Los estadísticos aceptarán que esta es una parte inevitable de la predicción e intentarán estimar el error. Las técnicas estadísticas intentarán encontrar una estimación que tenga un sesgo mínimo y un error aleatorio. Sus técnicas generalmente son impulsadas por un modelo del proceso de datos, pero no siempre (por ejemplo, Bootstrap).
2) No parece haber una comprensión profunda en ML de los límites de aplicar un modelo a nuevos datos a una nueva muestra de la misma población (a pesar de lo que dije anteriormente sobre el enfoque del conjunto de datos de prueba de entrenamiento). Varias técnicas estadísticas, entre ellas la validación cruzada y los términos de penalización aplicados a los métodos basados en la probabilidad, guían a los estadísticos en la compensación entre la parsimonia y la complejidad del modelo. Tales pautas en ML parecen mucho más ad hoc.
He visto varios artículos en ML donde la validación cruzada se utiliza para optimizar el ajuste de muchos modelos en un conjunto de datos de entrenamiento, produciendo mejor y mejor ajuste a medida que aumenta la complejidad del modelo. Parece poco apreciado que las pequeñas ganancias en precisión no valen la complejidad adicional y esto naturalmente conduce a un ajuste excesivo. Luego, todos estos modelos optimizados se aplican al conjunto de prueba como un control del rendimiento predictivo y para evitar el sobreajuste. Se han olvidado dos cosas (arriba). El rendimiento predictivo tendrá un componente estocástico. En segundo lugar, múltiples pruebas contra un conjunto de pruebas nuevamente resultarán en un ajuste excesivo. El "mejor" modelo será elegido por el practicante de ML sin una apreciación total que él / ella haya elegido a partir de una comprensión de muchos posibles resultados de este experimento.
Cualquiera de mis 2 centavos de valor. Tenemos mucho que aprender unos de otros.
fuente
Esta pregunta también puede extenderse a la llamada supercultura de la ciencia de datos en 2015. El documento de David Donoho, 50 años de Data Science , donde confronta diferentes puntos de vista desde la estadística y la informática (incluido el aprendizaje automático), por ejemplo, puntos de vista directos. (de diferentes personas) de modo que:
y surtido con consideraciones históricas y filosóficas, por ejemplo:
Este ensayo ha generado muchas respuestas y contribuciones al debate.
fuente
Realmente no sé cuál es la diferencia conceptual / histórica entre el aprendizaje automático y la estadística, pero estoy seguro de que no es tan obvio ... y no estoy realmente interesado en saber si soy un aprendiz de máquina o un estadístico, creo 10 años después del artículo de Breiman, muchas personas son ambas ...
De todos modos, me pareció interesante la pregunta sobre la precisión predictiva de los modelos . Debemos recordar que no siempre es posible medir la precisión de un modelo y, más precisamente, a menudo estamos haciendo un modelado implícito al medir errores.
Por ejemplo, el error absoluto medio en el pronóstico de series de tiempo es una media en el tiempo y mide el rendimiento de un procedimiento para pronosticar la mediana con el supuesto de que el rendimiento es, en cierto sentido, estacionario y muestra alguna propiedad ergódica . Si (por alguna razón) necesita pronosticar la temperatura media en la tierra para los próximos 50 años y si su modelado funciona bien durante los últimos 50 años ... no significa que ...
En términos más generales, (si recuerdo, se llama no almuerzo gratis) no se puede hacer nada sin modelar ... Además, creo que la estadística está tratando de encontrar una respuesta a la pregunta: "es algo significativo o no", Esta es una pregunta muy importante en la ciencia y no se puede responder a través de un proceso de aprendizaje. Para decir John Tukey (¿era un estadístico?):
Espero que esto ayude !
fuente
Claramente, los dos campos claramente enfrentan problemas similares pero diferentes, de manera similar pero no idéntica con conceptos análogos pero no idénticos, y trabajan en diferentes departamentos, revistas y conferencias.
Cuando leí la estadística de divergencia de poder de Cressie y Read, todo encajó en mi lugar. Su fórmula generaliza las estadísticas de prueba de uso común en una que varía en un exponente, lambda. Hay dos casos especiales, lambda = 0 y lambda = 1.
La informática y las estadísticas se ajustan a un continuo (que presumiblemente podría incluir otros puntos). En un valor de lambda, obtienes estadísticas comúnmente citadas en círculos de Estadísticas, y en el otro obtienes estadísticas comúnmente citadas en círculos de Comp Sci.
Estadística
Ciencias de la Computación:
fuente
Ejecuta un algoritmo informático elegante una vez, y obtiene una presentación de conferencia CS / documento de estadísticas (¡guau, qué convergencia rápida!). Lo comercializas y lo ejecutas 1 millón de veces, y te quedas en bancarrota (¿por qué obtengo resultados inútiles e irreproducibles todo el tiempo?) A menos que sepas cómo emplear la probabilidad y las estadísticas para generalizar las propiedades del algoritmo.
fuente
Hay un área de aplicación de estadísticas donde el enfoque en el modelo de generación de datos tiene mucho sentido. En experimentos diseñados, por ejemplo, estudios en animales, ensayos clínicos, DOE industriales, los estadísticos pueden tener una mano en lo que es el modelo de generación de datos. ML tiende a no pasar mucho tiempo en este problema tan importante ya que ML generalmente se enfoca en otro problema muy importante de predicción basado en datos de observación "grandes". Esto no quiere decir que ML no se pueda aplicar a experimentos diseñados "grandes", pero es importante reconocer que las estadísticas tienen experiencia particular en problemas de datos "pequeños" que surgen de experimentos con recursos limitados.
Al final del día, creo que todos podemos estar de acuerdo en usar lo que funcione mejor para resolver el problema en cuestión. Por ejemplo, podemos tener un experimento diseñado que produce datos muy amplios con el objetivo de predicción. Los principios de diseño estadístico son muy útiles aquí y los métodos de ML podrían ser útiles para construir el predictor.
fuente
Creo que el aprendizaje automático debe ser una sub-rama bajo estadísticas, al igual que, en mi opinión, la química debe ser una sub-rama bajo física.
Creo que la visión de la química inspirada en la física es bastante sólida (supongo). No creo que haya ninguna reacción química cuyo equivalente no se conozca en términos físicos. Creo que la física ha hecho un trabajo increíble al explicar todo lo que podemos ver a nivel químico. Ahora el desafío de los físicos parece estar explicando los pequeños misterios a nivel cuántico, en condiciones extremas que no son observables.
Ahora de vuelta al aprendizaje automático. Creo que también debería ser una sub-rama bajo estadísticas (como la química es una sub-rama de la física).
Pero me parece que, de alguna manera, el estado actual del aprendizaje automático o las estadísticas no es lo suficientemente maduro como para darse cuenta perfectamente de esto. Pero a la larga, creo que uno debe convertirse en una sub-rama del otro. Creo que es ML el que se pondrá por debajo de las estadísticas.
Personalmente, creo que "aprender" y "analizar muestras" para estimar / inferir funciones o predicciones son esencialmente una cuestión de estadística.
fuente
Del curso Coursera "Ciencia de datos en la vida real" de Brian Caffo
Aprendizaje automático
Análisis estadístico tradicional
fuente
Como informático, siempre estoy intrigado cuando busco enfoques estadísticos. ¡Para mí muchas veces parece que los modelos estadísticos utilizados en el análisis estadístico son demasiado complejos para los datos en muchas situaciones!
Por ejemplo, existe un fuerte vínculo entre la compresión de datos y las estadísticas. Básicamente, se necesita un buen modelo estadístico que sea capaz de predecir bien los datos y esto trae una muy buena compresión de los datos. En informática, cuando se comprimen los datos, la complejidad del modelo estadístico y la precisión de la predicción son siempre muy importantes. ¡Nadie quiere tener NUNCA un archivo de datos (que contenga datos de sonido o datos de imagen o datos de video) que se haga más grande después de la compresión!
Encuentro que hay cosas más dinámicas en informática con respecto a las estadísticas, como por ejemplo Longitud mínima de descripción y Probabilidad máxima normalizada .
fuente