En general, ¿es más difícil hacer inferencia que hacer predicciones?

Mi pregunta proviene del siguiente hecho. He estado leyendo publicaciones, blogs, conferencias, así como libros sobre aprendizaje automático. Mi impresión es que los profesionales del aprendizaje automático parecen ser indiferentes a muchas cosas que les interesan a los estadísticos / econométricos. En particular, los profesionales del aprendizaje automático enfatizan la precisión de la predicción sobre la inferencia.

Uno de esos ejemplos ocurrió cuando estaba tomando el aprendizaje automático de Andrew Ng en Coursera. Cuando habla del modelo lineal simple, no menciona nada acerca de la propiedad AZUL de los estimadores, ni de cómo la heterocedasticidad "invalidaría" el intervalo de confianza. En cambio, se enfoca en la implementación de descenso de gradiente y el concepto de validación cruzada / curva ROC. Estos temas no fueron cubiertos en mis clases de econometría / estadística.

Otro ejemplo ocurrió cuando participé en las competencias de Kaggle. Estaba leyendo el código y los pensamientos de otras personas. Una gran parte de los participantes simplemente arroja todo a SVM / bosque aleatorio / XGBoost.

Otro ejemplo más es acerca de la selección de modelos por pasos. Esta técnica es ampliamente utilizada, al menos en línea y en Kaggle. Muchos libros de texto clásicos de aprendizaje automático también lo cubren, como Introducción al aprendizaje estadístico. Sin embargo, de acuerdo con esta respuesta (que es bastante convincente), la selección de modelos por pasos enfrenta muchos problemas, especialmente cuando se trata de "descubrir el modelo verdadero". Parece ser que solo hay dos posibilidades: o los profesionales del aprendizaje automático no conocen el problema paso a paso, o lo saben pero no les importa.

Asi que aqui están mis preguntas:

¿Es cierto que (en general) los profesionales del aprendizaje automático se centran en la predicción y, por lo tanto, no les importan muchas cosas que les interesan a los estadísticos / economistas?
Si es cierto, ¿cuál es la razón detrás de esto? ¿Es porque la inferencia es más difícil en algún sentido?
Hay toneladas de materiales sobre aprendizaje automático (o predicción) en línea. Sin embargo, si estoy interesado en aprender a hacer inferencia, ¿cuáles son algunos recursos en línea que puedo consultar?

Actualización : Acabo de darme cuenta de que la palabra "inferencia" podría significar muchas cosas. Lo que quise decir con "inferencia" se refiere a preguntas como

$X$ $Y$ $Y$ $X$ $X_1,X_2,\cdots,X_n$
Dado que "todos los modelos están equivocados", ¿qué tan "equivocado" está nuestro modelo del modelo verdadero?
Dada la información de una muestra, ¿qué podemos decir sobre la población y qué tan seguros podemos decir eso?

Debido a mi conocimiento estadístico muy limitado, ni siquiera estoy seguro de si esas preguntas caen en el ámbito de las estadísticas o no. Pero esos son los tipos de preguntas que a los profesionales del aprendizaje automático no parecen importarles. ¿Quizás a los estadísticos tampoco les importa? No lo sé.

machine-learning self-study inference 3x89g2
fuente

Brian D Ripley es citado en useR! 2004 con "Parafraseando provocativamente, el aprendizaje automático es estadística menos cualquier verificación de modelos y suposiciones". La frase se ha convertido en parte del fortunespaquete en CRAN. Esto solo para decir que no está solo con la Impresión, que el rigor matemático no siempre es la principal preocupación en el aprendizaje automático.

Bernhard

Leo Breiman aborda exactamente esta pregunta en su artículo de 2001 "Modelización estadística: las dos culturas" , que es una gran lectura.

skd

Respuestas:

Primero, tendría una perspectiva diferente para el aprendizaje automático. Lo que mencionó, la conferencia Coursera de Andrew Ng y la competencia de Kaggle no son el 100% del aprendizaje automático, sino algunas ramas que se enfocan en aplicaciones prácticas. La investigación real del aprendizaje automático debería ser el trabajo que inventa el modelo aleatorio de aumento de bosque / SVM / gradiente, que está bastante cerca de las estadísticas / matemáticas.

Estoy de acuerdo en que los profesionales del aprendizaje automático se centran más en la precisión en comparación con los estadísticos / economistas. Hay razones por las cuales las personas interesadas en obtener una mayor precisión, en lugar de "inferencia sobre la verdadera distribución". La razón principal es la forma en que recopilamos datos y usamos los datos ha cambiado en las últimas décadas.

Las estadísticas se establecieron durante cien años, pero en el pasado, nadie pensaría que tiene miles de millones de datos para capacitación y otros miles de millones de datos para pruebas. (Por ejemplo, número de imágenes en Internet). Por lo tanto, con una cantidad relativamente pequeña de datos, se necesitan suposiciones del conocimiento del dominio para hacer el trabajo. O puede pensar en "regularizar" el modelo. Una vez que se hicieron los supuestos, entonces hay problemas de inferencias sobre la distribución "verdadera".

Sin embargo, si lo pensamos detenidamente, ¿podemos asegurarnos de que estos supuestos sean ciertos y que las inferencias sean válidas? Me gustaría citar a George Box:

Todos los modelos están equivocados pero algunos son útiles.

Ahora, volvamos a pensar en el enfoque práctico para poner más énfasis en la precisión que en la suposición / inferencia. Es un buen enfoque, cuando tenemos una gran cantidad de datos.

Supongamos que estamos construyendo un modelo para todas las imágenes que contienen rostros humanos a nivel de píxel. Primero, es muy difícil proponer los supuestos en el nivel de píxeles para miles de millones de imágenes: nadie tiene ese conocimiento de dominio. En segundo lugar, podemos pensar en todas las formas posibles de ajustar los datos, y debido a que los datos son enormes, todos los modelos que tenemos pueden no ser suficientes (casi imposibles de ajustar).

Esta es también la razón por la cual el "aprendizaje profundo / red neuronal" se hizo popular nuevamente. Bajo la condición de big data, podemos elegir un modelo que sea realmente complejo y ajustarlo lo mejor que podamos, y aún podemos aceptar, porque nuestros recursos computacionales son limitados, en comparación con todos los datos reales de la palabra.

Finalmente, si el modelo que construimos es bueno en un gran conjunto de datos de prueba, entonces son buenos y valiosos, aunque es posible que no conozcamos el supuesto subrayado o la verdadera distribución.

Quiero señalar que la palabra "inferencia" tiene diferentes significados en diferentes comunidades.

En la comunidad estadística, generalmente significa obtener información de la distribución verdadera de forma paramétrica o no paramétrica.
En la comunidad de aprendizaje automático, generalmente significa calcular ciertas probabilidades de una distribución dada. Consulte el Tutorial de modelos gráficos de Murphy para ver ejemplos.
En el aprendizaje automático, las personas usan la palabra "aprendizaje" para representar "obtener los parámetros de la distribución verdadera", que es similar a la "inferencia" en la comunidad estadística.

Entonces, puedes ver, esencialmente, hay muchas personas en el aprendizaje automático que también están haciendo "inferencia".

Además, también puede pensar en personas en la academia a las que les gusta "renombrar su trabajo y revenderlas": encontrar nuevos términos puede ser útil para mostrar la novedad de la investigación. De hecho, hay muchas coincidencias entre la inteligencia artificial, la minería de datos y el aprendizaje automático. Y están estrechamente relacionados con las estadísticas y el diseño de algoritmos. Una vez más, no hay límites claros para hacer "inferencia" o no.

Haitao Du
fuente

Puedo ver de donde vienes. Una toma alternativa podría ser: predicción = enfoque en variables observadas, inferencia = enfoque en variables ocultas. Entonces, en cierto sentido, la inferencia está tratando de producir nuevos tipos de mediciones, mientras que la predicción se trata más de nuevas realizaciones de mediciones que, en principio, podrían observarse. (Esto es compatible con su respuesta, por supuesto)

GeoMatt22