¿Es importante que los estadísticos aprendan el aprendizaje automático?

22

¿Es el aprendizaje automático un tema importante para que cualquier estadístico se familiarice? Parece que el aprendizaje automático es estadística. ¿Por qué los programas de estadística (pregrado y posgrado) no requieren aprendizaje automático?

usuario 20616
fuente
1
Los lectores aquí pueden estar interesados ​​en el siguiente hilo: ¿Cuál es la diferencia entre la minería de datos, las estadísticas, el aprendizaje automático y la IA ?
gung - Restablece a Monica
2
No lo sé, pero estoy bastante seguro de que todos los que hacen aprendizaje automático deben aprender estadísticas.
Dave

Respuestas:

18

Machine Learning es un campo especializado de estadística aplicada de alta dimensión. También requiere una considerable experiencia en programación que no es necesaria para un buen programa cuantitativo, especialmente a nivel de pregrado, sino también, en cierta medida, a nivel de posgrado. Solo se aplica al aspecto de predicción de las estadísticas, mientras que las estadísticas matemáticas, así como las estadísticas aplicadas inferenciales y descriptivas requieren atención. Muchos programas ofrecen a los estudiantes la oportunidad de tener una gran exposición al aprendizaje automático (CMU, por ejemplo), pero los estadísticos industriales en general rara vez tienen la oportunidad de aplicar estas herramientas, salvo ciertos trabajos tecnológicos de alto perfil.

Si bien recientemente he visto muchos puestos de científico de datos y aprendizaje automático en el mercado laboral, creo que la descripción general del trabajo de "estadístico" no requiere un fondo de aprendizaje automático, pero requiere una comprensión impecable de las estadísticas básicas, la inferencia y la comunicación: Estos realmente deberían ser el núcleo de un programa de estadísticas de posgrado. El aprendizaje automático y la ciencia de datos también son relativamente nuevos como títulos de trabajo y como disciplinas. Sería un mal servicio para quienes buscan empleo como estadísticos influir en sus estrategias de resolución de problemas hacia el aprendizaje automático si se abandona en su mayoría en empresas / empresas farmacéuticas / biociencias por una eficacia decepcionante en 10 o 20 años.

Por último, no creo que el aprendizaje automático mejore enormemente una comprensión sólida de las estadísticas. La estadística es fundamentalmente un campo interdisciplinario y es importante comunicar y convencer a los expertos no técnicos en su campo (como médicos, directores financieros o administradores) exactamente por qué eligió la metodología que eligió. El aprendizaje automático es un campo tan especializado y altamente técnico que, en muchas prácticas aplicadas, solo promete un rendimiento incrementalmente mejor que las herramientas y técnicas estándar. Muchos de los métodos en el aprendizaje supervisado y no supervisado son percibidos por los no expertos (e incluso algunos expertos menos capacitados) como "caja negra". Cuando se les pide que defiendan su elección de un método de aprendizaje específico, hay explicaciones que fracasan y no se basan en ninguna de las circunstancias motivadas por problemas aplicados.

AdamO
fuente
1
¿Podrías explicar un poco más en detalle a qué te refieres exactamente con las explicaciones caídas (¿ejemplos quizás?)?
cbeleites apoya a Monica
10
No puedo describir las diferencias entre un análisis discriminante lineal, máquinas de vectores de soporte y un LASM GLM de una manera que tenga sentido para un médico. Así que construí un modelo de regresión logística para la predicción del riesgo de cáncer de seno usando un puñado de covariables cuidadosamente ajustadas. Cuando se presentaron, los médicos se lanzaron inmediatamente a una discusión esclarecedora sobre los tamaños de sus efectos. La discriminación de mi modelo de "ciencia" fue muy comparable a las técnicas de ML más sofisticadas (superposición de IC del 90% para el AUC basado en bootstrap en la muestra de validación), ¡y no soy el único con un informe de este caso!
AdamO
44
@cbeleites, ¿alguna vez has tenido que comunicarte con una persona sustantiva con, en el mejor de los casos, una gran cantidad de conocimientos de matemáticas sobre álgebra? SVM no produce tamaños de efecto en términos que los médicos entenderían; el ancho del margen no tiene sentido para ellos, a diferencia de las relaciones impares a las que están muy acostumbrados. Si no puede hablar el idioma del cliente, no perderá su tiempo y dinero con usted.
StasK
2
@GraemeWalsh punto fantástico. Me cuesta mucho el concepto de utilizar modelos predictivos sofisticados para la inferencia predictiva, como suele ser el caso en el modelado de ecuaciones estructurales o la causalidad epónima de Granger. Creo que queda mucho trabajo por hacer en esta área. Por ejemplo, intuitivamente reconozco una gran similitud entre el modelado semiparamétrico y los modelos estructurales marginales, pero no estoy seguro de dónde radican las diferencias.
AdamO
2
@Jase, deberías echar un vistazo al artículo invitado de los ganadores del concurso de Netflix. Sus informes fueron muy similares, incluso con el modelo bayesiano promediando los pesos posteriores en un gran espacio de modelos, observaron que Pca parecía tener un peso posterior dominante en todas las condiciones. Eso no quiere decir que sean equivalentes, pero existe una compensación entre la simplicidad y la precisión que me hace favorecer modelos más simples que los que ofrece el ml arena. Uno podría pensar de manera análoga en cómo los modelos paramétricos sofisticados funcionan de manera similar a los no paramétricos.
AdamO
14

Bien, hablemos sobre el elefante de las estadísticas con los ojos vendados por lo que hemos aprendido de una o dos personas con las que trabajamos estrechamente en nuestros programas de posgrado ...

Los programas de estadísticas requieren lo que les parezca, es decir, cuáles son las cosas más importantes que quieren que sus alumnos aprendan dado un tiempo limitado que los alumnos tendrán en el programa. Requerir un área estrecha significa despedirse de otras áreas que se pueden considerar igualmente importantes. Algunos programas requieren medir la probabilidad teórica, otros no. Algunos requieren un idioma extranjero, pero la mayoría de los programas no. Algunos programas toman el paradigma bayesiano como lo único que vale la pena estudiar, pero la mayoría no. Algunos programas saben que la mayor demanda de estadísticos está en las estadísticas de encuestas (al menos ese es el caso en los Estados Unidos), pero la mayoría no. Los programas de Biostat siguen el dinero y le enseñan a SAS + los métodos que se venderán fácilmente a las ciencias médicas y farmacéuticas.

Para una persona que diseña experimentos agrícolas, o recolecta datos de encuestas a través de encuestas telefónicas, o valida escalas psicométricas, o produce mapas de incidencia de enfermedades en un SIG, el aprendizaje automático es un arte abstracto de la informática, muy distante de las estadísticas con las que trabaja a diario. base. Ninguna de estas personas verá ningún beneficio inmediato al aprender máquinas de vectores de soporte o bosques aleatorios.

Con todo, el aprendizaje automático es un buen complemento para otras áreas de la estadística, pero yo diría que las cuestiones principales como la distribución normal multivariante y los modelos lineales generalizados deben ser lo primero.

StasK
fuente
5

El aprendizaje automático se trata de obtener conocimiento / aprendizaje de los datos. Por ejemplo, trabajo con algoritmos de aprendizaje automático que pueden seleccionar algunos genes que pueden estar involucrados en un tipo particular de enfermedad a partir de datos de microarrays de ADN (por ejemplo, cáncer o diabetes). Los científicos pueden usar estos genes (modelos aprendidos) para el diagnóstico temprano en el futuro (clasificación de muestras no vistas).

Hay muchas estadísticas involucradas en el aprendizaje automático, pero hay ramas del aprendizaje automático que no requieren estadísticas (por ejemplo, programación genética). La única vez que necesitaría estadísticas en estos casos sería para ver si un modelo que ha creado utilizando el aprendizaje automático es estadísticamente significativamente diferente de otro modelo.

En mi opinión, una introducción al aprendizaje automático para estadísticos sería ventajosa . Esto ayudará a los estadísticos a ver escenarios del mundo real de aplicación de estadísticas. Sin embargo, no debería ser obligatorio . ¡Puede convertirse en un estadístico exitoso y pasar toda su vida sin tener que acercarse al aprendizaje automático!

revoluciones
fuente
2
Diría que necesita estadísticas cada vez que informa el rendimiento de su modelo. Mabe eso se debe a que mi profesión es la química analítica, donde una de las reglas importantes es "un número sin intervalo de confianza no es resultado".
cbeleites apoya a Monica
1
@cbeleites Estoy de acuerdo contigo. ¡Lo que quise decir es que los estadísticos no necesariamente tienen que ser expertos en aprendizaje automático! Pueden sobrevivir sin aprender el aprendizaje automático :)
revolusiones
1
@cbeleites, o intervalos de confianza múltiples en el caso de estimadores multimodales (por ejemplo, Sivia & Skilling Data Analysis ).
alancalvitti