Actualmente estoy siguiendo un programa maestro centrado en estadísticas / econometría. En mi maestría, todos los estudiantes tuvieron que hacer 3 meses de investigación. La semana pasada, todos los grupos tuvieron que presentar su investigación al resto de los estudiantes de maestría.
Casi todos los grupos hicieron algunos modelos estadísticos y algunos modelos de aprendizaje automático para sus temas de investigación y cada vez que las predicciones fuera de la muestra hablaban, los modelos simples de aprendizaje automático superaban a los modelos estadísticos muy sofisticados en los que todos trabajaron muy duro durante los últimos 3 meses. No importa cuán buenos sean los modelos estadísticos de todos, un bosque aleatorio simple tiene errores menores fuera de la muestra casi siempre.
Me preguntaba si esta es una observación generalmente aceptada. ¿Que si se trata de pronósticos fuera de la muestra simplemente no hay forma de vencer a un bosque aleatorio simple o un modelo de aumento de gradiente extremo? Estos dos métodos son súper simples de implementar mediante el uso de paquetes R, mientras que todos los modelos estadísticos que todos inventaron requieren bastante habilidad, conocimiento y esfuerzo para estimar.
¿Qué piensas de esto? ¿Es el único beneficio de los modelos estadísticos / econométricos que obtienes interpretación? ¿O nuestros modelos simplemente no eran lo suficientemente buenos como para no superar significativamente las predicciones forestales aleatorias simples? ¿Hay algún documento que aborde este problema?
Respuestas:
El modelado estadístico es diferente del aprendizaje automático. Por ejemplo, una regresión lineal es tanto un modelo estadístico como un modelo de aprendizaje automático. Entonces, si compara una regresión lineal con un bosque aleatorio, solo está comparando un modelo de aprendizaje automático más simple con uno más complicado. Estas no la comparación de un modelo estadístico para un modelo de aprendizaje automático.
El modelado estadístico proporciona más que interpretación; en realidad da un modelo de algún parámetro de población. Depende de un gran marco de matemática y teoría, que permite fórmulas para cosas como la varianza de los coeficientes, la varianza de las predicciones y la prueba de hipótesis. El rendimiento potencial del modelado estadístico es mucho mayor que el aprendizaje automático, porque puede hacer afirmaciones sólidas sobre los parámetros de la población en lugar de solo medir el error en la retención, pero es considerablemente más difícil abordar un problema con un modelo estadístico.
fuente
Es incorrecto plantear la pregunta de la forma en que la formuló. Por ejemplo, una parte significativa del aprendizaje automático se puede llamar aprendizaje estadístico . Entonces, su comparación es como tartas de manzanas versus tartas de frutas.
Sin embargo, seguiré la forma en que lo enmarcaste y afirmaré lo siguiente: cuando se trata de predicción, nada se puede hacer sin alguna forma de estadística porque la predicción tiene inherentemente aleatoriedad (incertidumbre). Considere esto: a pesar del gran éxito del aprendizaje automático en algunas aplicaciones, no tiene absolutamente nada que mostrar en la predicción del precio de los activos. Nada en absoluto. ¿Por qué? Porque en la mayoría de los mercados líquidos desarrollados, los precios de los activos son inherentemente estocásticos.
Puede ejecutar el aprendizaje automático durante todo el día para observar y aprender sobre la desintegración radiactiva de los átomos, y nunca podrá predecir el tiempo de desintegración del siguiente átomo, simplemente porque es aleatorio.
Como aspirante a estadístico, sería una tontería de tu parte no dominar el aprendizaje automático, porque es una de las aplicaciones más populares de la estadística, a menos, por supuesto, que estés seguro de que vas a la academia. Cualquiera que pueda ir a trabajar en la industria necesita dominar el aprendizaje automático. No hay animosidad ni competencia entre las estadísticas y las multitudes de ML. De hecho, si te gusta la programación te sentirás como en casa en el campo de ML
fuente
Generalmente no, pero potencialmente sí bajo una especificación errónea. El problema que está buscando se llama admisibilidad. Una decisión es admisible si no hay una forma menos arriesgada de calcularla.
Todas las soluciones bayesianas son admisibles y las soluciones no bayesianas son admisibles en la medida en que coincidan con una solución bayesiana en cada muestra o en el límite. Una solución Frequentista o Bayesiana admisible siempre superará a una solución ML a menos que también sea admisible. Dicho esto, hay algunos comentarios prácticos que hacen que esta afirmación sea verdadera pero vacía.
Primero, lo anterior para la opción bayesiana tiene que ser tu prioridad real y no una distribución previa utilizada para hacer feliz a un editor en una revista. En segundo lugar, muchas soluciones frequentistas son inadmisibles y se debería haber utilizado un estimador de contracción en lugar de la solución estándar. Mucha gente desconoce el lema de Stein y sus implicaciones para el error fuera de la muestra. Finalmente, ML puede ser un poco más robusto, en muchos casos, para errores de especificación errónea.
Cuando te mueves hacia los árboles de decisión y sus primos en los bosques, no estás usando una metodología similar a menos que también estés usando algo similar a una red Bayes. Una solución gráfica contiene una cantidad sustancial de información implícita, particularmente un gráfico dirigido. Cada vez que agrega información a un proceso probabilístico o estadístico, reduce la variabilidad del resultado y cambia lo que se consideraría admisible.
Si observa el aprendizaje automático desde una perspectiva de composición de funciones, simplemente se convierte en una solución estadística, pero utiliza aproximaciones para hacer que la solución sea manejable. Para las soluciones bayesianas, MCMC ahorra cantidades increíbles de tiempo al igual que el descenso de gradiente para muchos problemas de ML. Si hubiera tenido que construir un posterior exacto para integrar o utilizar la fuerza bruta en muchos problemas de ML, el sistema solar habría muerto antes de obtener una respuesta.
Supongo que tiene un modelo mal especificado para aquellos que usan estadísticas o estadísticas inapropiadas. Enseñé una conferencia donde probé que los recién nacidos flotarían en las ventanas si no se envuelven adecuadamente y donde un método bayesiano superó radicalmente al método frequentista en una elección multinomial que el método frequentista llegó incluso a la expectativa, mientras que el método bayesiano duplicó el dinero de los participantes. . Ahora abusé de las estadísticas en el primero y aproveché la inadmisibilidad del estimador frecuente en el segundo, pero un usuario ingenuo de estadísticas podría hacer fácilmente lo que hice. Simplemente los hice extremos para hacer obvios los ejemplos, pero utilicé datos absolutamente reales.
Los bosques aleatorios son estimadores consistentes y parecen parecerse a ciertos procesos bayesianos. Debido a la vinculación con los estimadores del núcleo, pueden estar bastante cerca. Si ve una diferencia material en el rendimiento entre los tipos de solución, entonces hay algo en el problema subyacente que está malentendiendo y si el problema tiene alguna importancia, entonces realmente necesita buscar la fuente de la diferencia, ya que también puede ser caso de que todos los modelos estén mal especificados.
fuente
Es posible que gran parte del aprendizaje automático no sea tan diferente del pirateo informático, al menos para algunos propósitos.
Si prueba todos los modelos posibles para encontrar el que tiene la mayor precisión de predicción (predicción histórica o predicción fuera del grupo) sobre la base de datos históricos, esto no significa necesariamente que los resultados ayudarán a comprender lo que está sucediendo. Sin embargo, posiblemente encontrará posibles relaciones que pueden informar una hipótesis.
Motivar hipótesis específicas y luego probarlas usando métodos estadísticos ciertamente puede ser igualmente pirateado (o similar) también.
Pero el punto es que si el criterio es "la más alta precisión de predicción basada en datos históricos", entonces existe un alto riesgo de estar demasiado confiado en algún modelo que uno no entiende, sin tener realmente una idea de lo que impulsó esos resultados históricos y / o si pueden ser informativos para el futuro.
fuente