El siguiente extracto es de Schwager's Hedge Fund Market Wizzards (mayo de 2012), una entrevista con el exitoso administrador de fondos de cobertura Jaffray Woodriff:
A la pregunta: "¿Cuáles son algunos de los peores errores que cometen las personas en la minería de datos?":
Muchas personas piensan que están bien porque usan datos dentro de la muestra para capacitación y datos fuera de la muestra para las pruebas. Luego clasifican los modelos en función de cómo se desempeñaron en los datos dentro de la muestra y eligen los mejores para probar en los datos fuera de la muestra. La tendencia humana es tomar los modelos que continúan funcionando bien en los datos fuera de la muestra y elegir esos modelos para el comercio. Ese tipo de proceso simplemente convierte los datos fuera de la muestra en parte de los datos de capacitación porque selecciona los modelos que mejor funcionaron en el período fuera de la muestra. Es uno de los errores más comunes que cometen las personas y una de las razones por las que la minería de datos, como se aplica típicamente, produce resultados terribles.
El entrevistador luego pregunta: "¿Qué deberías estar haciendo en su lugar?":
Puede buscar patrones en los que, en promedio, todos los modelos fuera de muestra continúen funcionando bien. Usted sabe que lo está haciendo bien si el promedio de los modelos fuera de muestra es un porcentaje significativo de la puntuación dentro de la muestra. En términos generales, realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra. El modelo de negocio de QIM nunca hubiera funcionado si SAS e IBM estuvieran construyendo un excelente software de modelado predictivo.
Mis preguntas
¿Tiene esto algún sentido? ¿Qué quiere decir? ¿Tiene una pista, o tal vez incluso un nombre para el método propuesto y algunas referencias? ¿O este tipo encontró el santo grial que nadie más entiende? Incluso dice en esta entrevista que su método podría potencialmente revolucionar la ciencia ...
Respuestas:
¿Tiene esto algún sentido ? Parcialmente.
¿Qué quiere decir? Por favor pregúntale.
¿Tiene una pista, o tal vez incluso un nombre para el método propuesto y algunas referencias?
Validación cruzada. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
¿O este tipo encontró el santo grial que nadie más entiende? No.
Incluso dice en esta entrevista que su método podría potencialmente revolucionar la ciencia ... Tal vez se olvidó de incluir las referencias para esa declaración ...
fuente
No estoy seguro de si habrá otras respuestas "desvergonzadas", pero aquí está la mía.
La validación cruzada no es en modo alguno "nueva". Además, la validación cruzada no se utiliza cuando se encuentran soluciones analíticas. Por ejemplo, no utiliza la validación cruzada para estimar las versiones beta, utiliza OLS o IRLS o alguna otra solución "óptima".
Lo que veo como un vacío notoriamente obvio en la cita no hace referencia a ninguna noción de verificar realmente los "mejores" modelos para ver si tienen sentido. En general, un buen modelo tiene sentido en un nivel intuitivo. Parece que la afirmación es que CV es una bala de plata para todos los problemas de predicción. Tampoco se habla de la configuración en el nivel superior de la estructura del modelo: ¿utilizamos SVM , árboles de regresión , refuerzo , embolsado , OLS , GLMS , GLMNS. ¿Regularizamos las variables? ¿Si es así, cómo? ¿Agrupamos las variables juntas? ¿Queremos robustez a la escasez? ¿Tenemos valores atípicos? ¿Deberíamos modelar los datos como un todo o en partes? Hay demasiados enfoques para decidir sobre la base de CV .
¿Y otro aspecto importante es qué sistemas informáticos están disponibles? ¿Cómo se almacenan y procesan los datos? ¿Hay falta? ¿Cómo explicamos esto?
Y aquí está el grande: ¿tenemos datos suficientemente buenos para hacer buenas predicciones? ¿Hay variables conocidas que no tenemos en nuestro conjunto de datos? ¿Nuestros datos son representativos de lo que sea que estamos tratando de predecir?
fuente
Su explicación sobre un error común en la minería de datos parece sensata. Su explicación de lo que hace no tiene ningún sentido. ¿Qué quiere decir cuando dice "En términos generales, realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra"? Entonces decir mal de SAS e IBM tampoco lo hace parecer muy inteligente. Las personas pueden tener éxito en el mercado sin comprender las estadísticas y parte del éxito es la suerte. Es incorrecto tratar a los hombres de negocios exitosos como si fueran los gurús del pronóstico.
fuente
Mi comprensión de los patrones de palabras aquí es que se refiere a diferentes condiciones del mercado. Un enfoque ingenuo analizará todos los datos disponibles (todos sabemos que más datos son mejores), para entrenar el mejor modelo de ajuste de curvas, luego ejecutarlo en todos los datos y comerciar con él todo el tiempo.
Los gestores de fondos de cobertura y los comerciantes algorítmicos más exitosos utilizan su conocimiento del mercado. Como ejemplo concreto, la primera media hora de una sesión de negociación puede ser más volátil. Por lo tanto, probarán los modelos con todos sus datos, pero solo durante esa primera media hora, y con todos sus datos, pero excluyendo esa primera media hora. Pueden descubrir que a dos de sus modelos les va bien en la primera media hora, pero ocho de ellos pierden dinero. Mientras que, cuando excluyen esa primera media hora, siete de sus modelos ganan dinero, tres pierden dinero.
Pero, en lugar de tomar esos dos modelos ganadores y usarlos en la primera media hora de negociación, dicen: ese es un mal momento del día para el comercio algorítmico, y no vamos a comerciar en absoluto. El resto del día usarán sus siete modelos. Es decir, parece que el mercado es más fácil de predecir con el aprendizaje automático en esos momentos, por lo que esos modelos tienen más posibilidades de ser confiables en el futuro. (La hora del día no es el único patrón; otros suelen estar relacionados con eventos de noticias, por ejemplo, el mercado es más volátil justo antes de que se anuncien las cifras económicas clave).
Esa es mi interpretación de lo que está diciendo; puede estar totalmente equivocado, pero espero que todavía sea un alimento útil para pensar para alguien.
fuente
Como profesional de finanzas, conozco el contexto suficiente para que la declaración no presente ninguna ambigüedad. Las series de tiempo financieras a menudo se caracterizan con cambios de régimen, interrupciones estructurales y desviación del concepto, por lo que la validación cruzada, como se practica en otras industrias, no tiene tanto éxito en las aplicaciones financieras. En la segunda parte, se refiere a una métrica financiera, ya sea el retorno de la inversión en relación a Sharpe (retorno en el numerador), no MSE u otra función de pérdida. Si la estrategia dentro de la muestra produce un 10% de rendimiento, entonces en el comercio real puede producir de manera bastante realista solo el 5%. La parte "revolucionaria" es sin duda su enfoque de análisis patentado, no las citas.
fuente