Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido.
Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que ganó la competencia puede, por casualidad, haber terminado mejor el conjunto de pruebas que los demás. En otras palabras, si se seleccionara un conjunto de pruebas diferente y se repitiera la competencia, ¿la clasificación seguiría siendo la misma?
Para la corporación patrocinadora, esto realmente no importa (probablemente las 20 presentaciones principales mejorarían su línea de base). Aunque, irónicamente, podrían terminar usando un modelo de primer orden que es peor que los otros cinco primeros. Pero, para los participantes de la competencia, parece que Kaggle es en última instancia un juego de azar: ¡no se necesita suerte para encontrar la solución correcta, se necesita encontrar la que coincida con el conjunto de prueba!
¿Es posible cambiar la competencia para que ganen todos los mejores equipos que no pueden distinguirse estadísticamente? O, en este grupo, ¿podría ganar el modelo más parsimonioso o computacionalmente barato?
Respuestas:
Sí, tu razonamiento es correcto. Si se selecciona un conjunto de pruebas diferente y se repite la competencia, las clasificaciones de hecho cambiarían. Considere el siguiente ejemplo. Todas las entradas a una competencia de Kaggle con etiquetas binarias solo se adivinan al azar (y, por ejemplo, de forma independiente) para predecir su salida. Por casualidad, uno de ellos estará de acuerdo con la reserva más que otros, a pesar de que no se está haciendo ninguna predicción.
Si bien esto es un poco artificial, podemos ver que la variación en cada uno de los modelos de la presentación significaría que la aplicación de muchas de estas entradas de hecho se ajustaría al ruido del conjunto de reserva. Esto nos dice que (dependiendo de las variaciones del modelo individual), los modelos top-N probablemente generalicen lo mismo. Este es el jardín de caminos bifurcados , excepto que los "investigadores" no son lo mismo (pero eso no importa).
En efecto.
fuente
Hay otros tipos de competiciones en Kaggle que no tienen elementos de azar. Por ejemplo, este trineo robado de Stanta .
Es un problema de optimización discreta e incluso no tiene una tabla de clasificación privada. Lo que ves en la tabla de líderes públicos son los resultados finales.
En comparación con el aprendizaje supervisado, que tiene un comienzo fácil para muchas personas, este tipo de competencia es de naturaleza más "dura".
fuente