Modelos predictivos: ¿las estadísticas no pueden superar el aprendizaje automático? [cerrado]

14

Actualmente estoy siguiendo un programa maestro centrado en estadísticas / econometría. En mi maestría, todos los estudiantes tuvieron que hacer 3 meses de investigación. La semana pasada, todos los grupos tuvieron que presentar su investigación al resto de los estudiantes de maestría.

Casi todos los grupos hicieron algunos modelos estadísticos y algunos modelos de aprendizaje automático para sus temas de investigación y cada vez que las predicciones fuera de la muestra hablaban, los modelos simples de aprendizaje automático superaban a los modelos estadísticos muy sofisticados en los que todos trabajaron muy duro durante los últimos 3 meses. No importa cuán buenos sean los modelos estadísticos de todos, un bosque aleatorio simple tiene errores menores fuera de la muestra casi siempre.

Me preguntaba si esta es una observación generalmente aceptada. ¿Que si se trata de pronósticos fuera de la muestra simplemente no hay forma de vencer a un bosque aleatorio simple o un modelo de aumento de gradiente extremo? Estos dos métodos son súper simples de implementar mediante el uso de paquetes R, mientras que todos los modelos estadísticos que todos inventaron requieren bastante habilidad, conocimiento y esfuerzo para estimar.

¿Qué piensas de esto? ¿Es el único beneficio de los modelos estadísticos / econométricos que obtienes interpretación? ¿O nuestros modelos simplemente no eran lo suficientemente buenos como para no superar significativamente las predicciones forestales aleatorias simples? ¿Hay algún documento que aborde este problema?

dubvice
fuente
55
Esto bien puede cerrarse como "demasiado amplio". (¡Ojalá no como "basado en la opinión"!) Mi opinión: no creo que haya una respuesta universal. Mi experiencia es que los modelos estadísticos son mejores si hay menos observaciones, porque imponer algún tipo de estructura mejora en un enfoque en gran parte libre de modelos. Por el contrario, los RF son mejores si hay muchas observaciones. ...
Stephan Kolassa
44
... La otra pregunta es qué se evaluó exactamente y cómo. Si las predicciones puntuales se evaluaron adecuadamente (las medidas de precisión pueden ser sorprendentemente engañosas), eso es un asunto diferente al de las predicciones de densidad. Los modelos estadísticos pueden ser mejores en los pronósticos de densidad, nuevamente porque necesita muchos más datos.
Stephan Kolassa
1
@StephanKolassa: Creo que una buena respuesta (o un conjunto de varias respuestas) a esta pregunta comprendería razones por las que no hay una respuesta universal, teórica y prácticamente, cómo se evalúa el rendimiento predictivo, cómo establecer una distinción entre estadística y máquina métodos de aprendizaje, qué objetivos podría haber más allá de la predicción y un par de cosas en las que no he pensado. Entonces un amplio alcance; pero no demasiado amplio en mi opinión, y tratar de limitarlo podría impedir la presentación de puntos generales útiles.
Scortchi - Restablece a Monica
55
Lo que no queremos es una colección de anécdotas: insto a los usuarios a que marquen las respuestas de eliminación que son poco más que, por ejemplo, "Siempre he encontrado que los bosques aleatorios superan la regresión logística", aunque sea verbal. Podemos ser un poco flojos con respecto a los comentarios, pero los hilos largos se moverán al chat.
Scortchi - Restablece a Monica
14
No creo que haya una distinción significativa entre estadísticas y aprendizaje automático. Por ejemplo, Leo Breiman, un destacado investigador forestal aleatorio, era profesor de estadística en la Universidad de Berkeley. En el contexto de su anécdota, RF resultó ser mejor que los otros modelos que la gente había ajustado, pero no veo ninguna razón para que esto sea cierto en general (ver también el teorema de No Free Lunch). Quizás esto dice más sobre el conjunto de datos (o incluso los estudiantes) que los métodos.
Sycorax dice Reinstate Monica

Respuestas:

20

El modelado estadístico es diferente del aprendizaje automático. Por ejemplo, una regresión lineal es tanto un modelo estadístico como un modelo de aprendizaje automático. Entonces, si compara una regresión lineal con un bosque aleatorio, solo está comparando un modelo de aprendizaje automático más simple con uno más complicado. Estas no la comparación de un modelo estadístico para un modelo de aprendizaje automático.

El modelado estadístico proporciona más que interpretación; en realidad da un modelo de algún parámetro de población. Depende de un gran marco de matemática y teoría, que permite fórmulas para cosas como la varianza de los coeficientes, la varianza de las predicciones y la prueba de hipótesis. El rendimiento potencial del modelado estadístico es mucho mayor que el aprendizaje automático, porque puede hacer afirmaciones sólidas sobre los parámetros de la población en lugar de solo medir el error en la retención, pero es considerablemente más difícil abordar un problema con un modelo estadístico.

usuario0
fuente
1
Según tengo entendido, usted dice que con las estadísticas obtiene más beneficios, como la varianza de los coeficientes, la varianza de las predicciones y la prueba de hipótesis. Pero cuando se trata únicamente de modelos predictivos, es decir, hacer pronósticos puntuales de alguna variable de respuesta, ¿cree que los modelos estadísticos pueden vencer a los modelos de aprendizaje automático?
dubvice
55
Esta es la respuesta (+1!). Desde mi punto de vista (y quizás también de otros), hay varios tipos de análisis estadísticos: descriptivos, inferenciales, predictivos, exploratorios, etc. El aprendizaje automático se enmarcaría principalmente en el análisis predictivo, y la mayor parte no le permite hacer inferencia afirmaciones sobre cosas, por lo que todo se reduce a "usar la herramienta adecuada para el trabajo en cuestión" (dado el ejemplo de regresión lineal, se puede usar en todos los campos, por ejemplo, estimar expectativas condicionales, que es una tarea descriptiva).
Firebug
2
Esto suena como la afirmación de que el modelado estadístico estándar puede ser mejor para la inferencia (en lugar de la predicción) que el aprendizaje automático, que puede ayudar a modelar la capacidad de interpretación. Si bien es cierto si comparamos una regresión de mínimos cuadrados ordinarios con una red neuronal profunda, dado que la pregunta original hace referencia específicamente al bosque aleatorio (un buen algoritmo de ML para inferencia), tal afirmación es un poco confusa.
Greenstick
2
Aquí hay alguna evidencia sólida del dominio de series de tiempo donde los modelos estadísticos superan constantemente los enfoques de aprendizaje automático: Makridakis "Métodos de pronóstico estadísticos y de aprendizaje automático: preocupaciones y formas de avanzar" .
Richard Hardy
1
Esa es solo la respuesta perfecta. Aquí hay un ejemplo: digamos que tiene una medida que predice la supervivencia de los pacientes con una enfermedad determinada. Existen estándares internacionales sobre cómo definir si esta medida es clínicamente válida (básicamente si el coeficiente es diferente de 0 con un valor inferior al 5% en un modelo univariado o multivariado). Aunque estoy absolutamente seguro de que el 99% de las veces un bosque aleatorio con datos suficientes sería un modelo de predicción mucho mejor.
Rémy Nicolle
5

Es incorrecto plantear la pregunta de la forma en que la formuló. Por ejemplo, una parte significativa del aprendizaje automático se puede llamar aprendizaje estadístico . Entonces, su comparación es como tartas de manzanas versus tartas de frutas.

Sin embargo, seguiré la forma en que lo enmarcaste y afirmaré lo siguiente: cuando se trata de predicción, nada se puede hacer sin alguna forma de estadística porque la predicción tiene inherentemente aleatoriedad (incertidumbre). Considere esto: a pesar del gran éxito del aprendizaje automático en algunas aplicaciones, no tiene absolutamente nada que mostrar en la predicción del precio de los activos. Nada en absoluto. ¿Por qué? Porque en la mayoría de los mercados líquidos desarrollados, los precios de los activos son inherentemente estocásticos.

Puede ejecutar el aprendizaje automático durante todo el día para observar y aprender sobre la desintegración radiactiva de los átomos, y nunca podrá predecir el tiempo de desintegración del siguiente átomo, simplemente porque es aleatorio.

Como aspirante a estadístico, sería una tontería de tu parte no dominar el aprendizaje automático, porque es una de las aplicaciones más populares de la estadística, a menos, por supuesto, que estés seguro de que vas a la academia. Cualquiera que pueda ir a trabajar en la industria necesita dominar el aprendizaje automático. No hay animosidad ni competencia entre las estadísticas y las multitudes de ML. De hecho, si te gusta la programación te sentirás como en casa en el campo de ML

Aksakal
fuente
2

Generalmente no, pero potencialmente sí bajo una especificación errónea. El problema que está buscando se llama admisibilidad. Una decisión es admisible si no hay una forma menos arriesgada de calcularla.

Todas las soluciones bayesianas son admisibles y las soluciones no bayesianas son admisibles en la medida en que coincidan con una solución bayesiana en cada muestra o en el límite. Una solución Frequentista o Bayesiana admisible siempre superará a una solución ML a menos que también sea admisible. Dicho esto, hay algunos comentarios prácticos que hacen que esta afirmación sea verdadera pero vacía.

Primero, lo anterior para la opción bayesiana tiene que ser tu prioridad real y no una distribución previa utilizada para hacer feliz a un editor en una revista. En segundo lugar, muchas soluciones frequentistas son inadmisibles y se debería haber utilizado un estimador de contracción en lugar de la solución estándar. Mucha gente desconoce el lema de Stein y sus implicaciones para el error fuera de la muestra. Finalmente, ML puede ser un poco más robusto, en muchos casos, para errores de especificación errónea.

Cuando te mueves hacia los árboles de decisión y sus primos en los bosques, no estás usando una metodología similar a menos que también estés usando algo similar a una red Bayes. Una solución gráfica contiene una cantidad sustancial de información implícita, particularmente un gráfico dirigido. Cada vez que agrega información a un proceso probabilístico o estadístico, reduce la variabilidad del resultado y cambia lo que se consideraría admisible.

Si observa el aprendizaje automático desde una perspectiva de composición de funciones, simplemente se convierte en una solución estadística, pero utiliza aproximaciones para hacer que la solución sea manejable. Para las soluciones bayesianas, MCMC ahorra cantidades increíbles de tiempo al igual que el descenso de gradiente para muchos problemas de ML. Si hubiera tenido que construir un posterior exacto para integrar o utilizar la fuerza bruta en muchos problemas de ML, el sistema solar habría muerto antes de obtener una respuesta.

Supongo que tiene un modelo mal especificado para aquellos que usan estadísticas o estadísticas inapropiadas. Enseñé una conferencia donde probé que los recién nacidos flotarían en las ventanas si no se envuelven adecuadamente y donde un método bayesiano superó radicalmente al método frequentista en una elección multinomial que el método frequentista llegó incluso a la expectativa, mientras que el método bayesiano duplicó el dinero de los participantes. . Ahora abusé de las estadísticas en el primero y aproveché la inadmisibilidad del estimador frecuente en el segundo, pero un usuario ingenuo de estadísticas podría hacer fácilmente lo que hice. Simplemente los hice extremos para hacer obvios los ejemplos, pero utilicé datos absolutamente reales.

Los bosques aleatorios son estimadores consistentes y parecen parecerse a ciertos procesos bayesianos. Debido a la vinculación con los estimadores del núcleo, pueden estar bastante cerca. Si ve una diferencia material en el rendimiento entre los tipos de solución, entonces hay algo en el problema subyacente que está malentendiendo y si el problema tiene alguna importancia, entonces realmente necesita buscar la fuente de la diferencia, ya que también puede ser caso de que todos los modelos estén mal especificados.

Dave Harris
fuente
1

Es posible que gran parte del aprendizaje automático no sea tan diferente del pirateo informático, al menos para algunos propósitos.

Si prueba todos los modelos posibles para encontrar el que tiene la mayor precisión de predicción (predicción histórica o predicción fuera del grupo) sobre la base de datos históricos, esto no significa necesariamente que los resultados ayudarán a comprender lo que está sucediendo. Sin embargo, posiblemente encontrará posibles relaciones que pueden informar una hipótesis.

Motivar hipótesis específicas y luego probarlas usando métodos estadísticos ciertamente puede ser igualmente pirateado (o similar) también.

Pero el punto es que si el criterio es "la más alta precisión de predicción basada en datos históricos", entonces existe un alto riesgo de estar demasiado confiado en algún modelo que uno no entiende, sin tener realmente una idea de lo que impulsó esos resultados históricos y / o si pueden ser informativos para el futuro.

nathanwww
fuente