¿Nueva forma revolucionaria de minería de datos?

21

El siguiente extracto es de Schwager's Hedge Fund Market Wizzards (mayo de 2012), una entrevista con el exitoso administrador de fondos de cobertura Jaffray Woodriff:

A la pregunta: "¿Cuáles son algunos de los peores errores que cometen las personas en la minería de datos?":

Muchas personas piensan que están bien porque usan datos dentro de la muestra para capacitación y datos fuera de la muestra para las pruebas. Luego clasifican los modelos en función de cómo se desempeñaron en los datos dentro de la muestra y eligen los mejores para probar en los datos fuera de la muestra. La tendencia humana es tomar los modelos que continúan funcionando bien en los datos fuera de la muestra y elegir esos modelos para el comercio. Ese tipo de proceso simplemente convierte los datos fuera de la muestra en parte de los datos de capacitación porque selecciona los modelos que mejor funcionaron en el período fuera de la muestra. Es uno de los errores más comunes que cometen las personas y una de las razones por las que la minería de datos, como se aplica típicamente, produce resultados terribles.

El entrevistador luego pregunta: "¿Qué deberías estar haciendo en su lugar?":

Puede buscar patrones en los que, en promedio, todos los modelos fuera de muestra continúen funcionando bien. Usted sabe que lo está haciendo bien si el promedio de los modelos fuera de muestra es un porcentaje significativo de la puntuación dentro de la muestra. En términos generales, realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra. El modelo de negocio de QIM nunca hubiera funcionado si SAS e IBM estuvieran construyendo un excelente software de modelado predictivo.

Mis preguntas
¿Tiene esto algún sentido? ¿Qué quiere decir? ¿Tiene una pista, o tal vez incluso un nombre para el método propuesto y algunas referencias? ¿O este tipo encontró el santo grial que nadie más entiende? Incluso dice en esta entrevista que su método podría potencialmente revolucionar la ciencia ...

data-mining curve-fitting out-of-sample vonjd
fuente

44

¿No está simplemente discutiendo los errores de una sola muestra dividida (capacitación y validación) y abogando por un proceso de validación cruzada anidado?

B_Miner

12

Sería cauteloso con cualquiera que reclame una visión profunda que revolucionaría la "ciencia".

cardenal

2

¿Los gestores de fondos de cobertura reclaman un "mejor enfoque de modelado" y hacen un poco de basura hablando de la competencia? Nada nuevo allí.

zbicyclist

2

wow, ¿cómo está esta pregunta obteniendo tantos votos positivos? La predicción fuera de la muestra es un tema que se discute el primer día de cualquier curso introductorio de aprendizaje automático. Hay quienes no abordan correctamente las predicciones fuera de muestra, pero ciertamente nadie que tenga la más mínima idea sobre la tarea de predicción.

user4733

El comercio es, por supuesto, un problema de tiempo sereis, lo que dice parece ser que la validación cruzada (por supuesto, utilizando datos conocidos) no puede resolver el problema de la estructura que cambia con el tiempo, por lo que no es un santo grial. Pero lo que realmente está haciendo no se puede inferir.

kjetil b halvorsen

6

¿Tiene esto algún sentido ? Parcialmente.

¿Qué quiere decir? Por favor pregúntale.

¿Tiene una pista, o tal vez incluso un nombre para el método propuesto y algunas referencias?

Validación cruzada. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

¿O este tipo encontró el santo grial que nadie más entiende? No.

Incluso dice en esta entrevista que su método podría potencialmente revolucionar la ciencia ... Tal vez se olvidó de incluir las referencias para esa declaración ...

image_doctor
fuente

2

Bueno, al menos está señalando un verdadero problema ...

8

No estoy seguro de si habrá otras respuestas "desvergonzadas", pero aquí está la mía.

La validación cruzada no es en modo alguno "nueva". Además, la validación cruzada no se utiliza cuando se encuentran soluciones analíticas. Por ejemplo, no utiliza la validación cruzada para estimar las versiones beta, utiliza OLS o IRLS o alguna otra solución "óptima".

Lo que veo como un vacío notoriamente obvio en la cita no hace referencia a ninguna noción de verificar realmente los "mejores" modelos para ver si tienen sentido. En general, un buen modelo tiene sentido en un nivel intuitivo. Parece que la afirmación es que CV es una bala de plata para todos los problemas de predicción. Tampoco se habla de la configuración en el nivel superior de la estructura del modelo: ¿utilizamos SVM , árboles de regresión , refuerzo , embolsado , OLS , GLMS , GLMNS. ¿Regularizamos las variables? ¿Si es así, cómo? ¿Agrupamos las variables juntas? ¿Queremos robustez a la escasez? ¿Tenemos valores atípicos? ¿Deberíamos modelar los datos como un todo o en partes? Hay demasiados enfoques para decidir sobre la base de CV .

¿Y otro aspecto importante es qué sistemas informáticos están disponibles? ¿Cómo se almacenan y procesan los datos? ¿Hay falta? ¿Cómo explicamos esto?

Y aquí está el grande: ¿tenemos datos suficientemente buenos para hacer buenas predicciones? ¿Hay variables conocidas que no tenemos en nuestro conjunto de datos? ¿Nuestros datos son representativos de lo que sea que estamos tratando de predecir?

$K$ $K-2$

$n$ $p$ $n$ $p$ $n$ $p$

probabilidadislogica
fuente

99

Bonita diatriba. Hubiera sido mucho más fácil de leer si hubieras usado las tapas ocasionales ...

MånsT

4

Su explicación sobre un error común en la minería de datos parece sensata. Su explicación de lo que hace no tiene ningún sentido. ¿Qué quiere decir cuando dice "En términos generales, realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra"? Entonces decir mal de SAS e IBM tampoco lo hace parecer muy inteligente. Las personas pueden tener éxito en el mercado sin comprender las estadísticas y parte del éxito es la suerte. Es incorrecto tratar a los hombres de negocios exitosos como si fueran los gurús del pronóstico.

Michael R. Chernick
fuente

1

¿No está bastante claro qué se entiende por la declaración citada? Dependiendo de cómo se usen los modelos, lo que dice que hace podría tener mucho sentido. Por ejemplo, la principal "conclusión" del desafío de Netflix parece ser el poder de la "combinación de modelos" siempre y cuando uno tenga muy poca necesidad de interpretabilidad. En ese caso, un rendimiento "promedio" fuera de la muestra de los modelos considerados puede ser completamente relevante.

cardenal

@cardinal: ¿Podría formar una respuesta a partir de estos pensamientos muy interesantes? Sería genial, gracias!

vonjd

2

@cardinal Quizás sea claro para usted, pero luego explique la frase "Realmente está llegando a algún lado si los resultados fuera de la muestra son más del 50 por ciento de la muestra". Si está diciendo que el promedio de los conjuntos puede ser efectivo, entonces, por supuesto, puedo estar de acuerdo con eso. Se ha demostrado que el refuerzo funciona bien en muchas aplicaciones. Pero no veo de dónde sale eso de los comentarios de Woodriff.

Michael R. Chernick

2

Obviamente no conozco los detalles de lo que afirma el Sr. Woodriff, pero mi interpretación de esto basada en el extracto es algo como: "[En mis aplicaciones] si el rendimiento promedio fuera de la muestra [usando cualquier métrica Considero relevante] es al menos la mitad de bueno que el rendimiento en la muestra después de ajustar el modelo, entonces es significativo para mi aplicación ". Soy matemático / estadístico, así que necesito advertencias. Si fuera un administrador de fondos de cobertura que buscara algún reconocimiento externo, podría ser más grandioso y absoluto en mis comentarios.

cardenal

1

@cardinal Entonces, tome la tasa de error como la medida de rendimiento, entonces interpreta a Woodriff para decir que si la tasa de error en la muestra es del 5% y la tasa de error fuera de la muestra es del 10%, ¿entonces el método es bueno? ¿Por qué no solo mirar el rendimiento fuera de la muestra para decidir? Supongo que la relación entre el rendimiento fuera de la muestra y el rendimiento en la muestra le dice algo acerca de cuán confiable / poco confiable es la estimación de la tasa de error en la muestra, pero no veo que entre en la evaluación del rendimiento del clasificador. Todavía no veo dónde la combinación de modelos entra en sus comentarios.

Michael R. Chernick

4

Puede buscar patrones en los que, en promedio, todos los modelos fuera de muestra continúen funcionando bien.

Mi comprensión de los patrones de palabras aquí es que se refiere a diferentes condiciones del mercado. Un enfoque ingenuo analizará todos los datos disponibles (todos sabemos que más datos son mejores), para entrenar el mejor modelo de ajuste de curvas, luego ejecutarlo en todos los datos y comerciar con él todo el tiempo.

Los gestores de fondos de cobertura y los comerciantes algorítmicos más exitosos utilizan su conocimiento del mercado. Como ejemplo concreto, la primera media hora de una sesión de negociación puede ser más volátil. Por lo tanto, probarán los modelos con todos sus datos, pero solo durante esa primera media hora, y con todos sus datos, pero excluyendo esa primera media hora. Pueden descubrir que a dos de sus modelos les va bien en la primera media hora, pero ocho de ellos pierden dinero. Mientras que, cuando excluyen esa primera media hora, siete de sus modelos ganan dinero, tres pierden dinero.

Pero, en lugar de tomar esos dos modelos ganadores y usarlos en la primera media hora de negociación, dicen: ese es un mal momento del día para el comercio algorítmico, y no vamos a comerciar en absoluto. El resto del día usarán sus siete modelos. Es decir, parece que el mercado es más fácil de predecir con el aprendizaje automático en esos momentos, por lo que esos modelos tienen más posibilidades de ser confiables en el futuro. (La hora del día no es el único patrón; otros suelen estar relacionados con eventos de noticias, por ejemplo, el mercado es más volátil justo antes de que se anuncien las cifras económicas clave).

Esa es mi interpretación de lo que está diciendo; puede estar totalmente equivocado, pero espero que todavía sea un alimento útil para pensar para alguien.

Darren Cook
fuente

2

Como profesional de finanzas, conozco el contexto suficiente para que la declaración no presente ninguna ambigüedad. Las series de tiempo financieras a menudo se caracterizan con cambios de régimen, interrupciones estructurales y desviación del concepto, por lo que la validación cruzada, como se practica en otras industrias, no tiene tanto éxito en las aplicaciones financieras. En la segunda parte, se refiere a una métrica financiera, ya sea el retorno de la inversión en relación a Sharpe (retorno en el numerador), no MSE u otra función de pérdida. Si la estrategia dentro de la muestra produce un 10% de rendimiento, entonces en el comercio real puede producir de manera bastante realista solo el 5%. La parte "revolucionaria" es sin duda su enfoque de análisis patentado, no las citas.

onlyvix.blogspot.com
fuente

Una pregunta para onlyvix: ¿conoce algún trabajo que utilice su métrica financiera como herramienta para la optimización de parámetros, es decir, optimizar directamente los parámetros maximizando esa métrica, en lugar de utilizar la máxima probabilidad?

kjetil b halvorsen

@kbh no es mi métrica financiera: la optimización de la relación de nitidez es muy común. Un ejemplo en la parte superior de mi cabeza ssrn.com/abstract=962461 : no se desarrolla un modelo estadístico exacto, pero se crean reglas comerciales para (en términos muy generales) maximizar los rendimientos y minimizar el riesgo.

onlyvix.blogspot.com

¿Nueva forma revolucionaria de minería de datos?

Respuestas: