¿Las competiciones de Kaggle se ganan por casualidad?

12

Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido.

Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que ganó la competencia puede, por casualidad, haber terminado mejor el conjunto de pruebas que los demás. En otras palabras, si se seleccionara un conjunto de pruebas diferente y se repitiera la competencia, ¿la clasificación seguiría siendo la misma?

Para la corporación patrocinadora, esto realmente no importa (probablemente las 20 presentaciones principales mejorarían su línea de base). Aunque, irónicamente, podrían terminar usando un modelo de primer orden que es peor que los otros cinco primeros. Pero, para los participantes de la competencia, parece que Kaggle es en última instancia un juego de azar: ¡no se necesita suerte para encontrar la solución correcta, se necesita encontrar la que coincida con el conjunto de prueba!

¿Es posible cambiar la competencia para que ganen todos los mejores equipos que no pueden distinguirse estadísticamente? O, en este grupo, ¿podría ganar el modelo más parsimonioso o computacionalmente barato?

usuario0
fuente
1
Algunas personas usan las pruebas en el conjunto oculto para anular los valores de prueba reales. Esto les permite ajustar casi perfectamente los resultados. La reserva evita esto. Mi opinión personal es que la diferencia entre holdout y non-holdout se trata de deshacerse de los tramposos.
EngrStudent - Restablecer a Monica
1
Por supuesto, los datos de las pruebas se deben presentar a los participantes, pero me pregunto si tener un solo conjunto de pruebas de resistencia hace que los resultados de la competencia (para los mejores equipos ) dependan esencialmente de la oportunidad. X
usuario0
Los puntajes son ponderados. Un gran sistema va a superar a uno basura casi siempre. Se necesita una gran cantidad de trabajo para fallar tanto que lo último se convierte en lo primero. El orden local, tal vez 10 pasos en el rango o menos, cuando hay miles de participantes, cambiaría si se volviera a muestrear la reserva. Podrías hacer un experimento numérico para mostrar esto.
EngrStudent - Restablece a Monica el
2
Desde la perspectiva de la corporación patrocinadora, no están obligados a implementar realmente el modelo ganador. Si recuerdo correctamente, el modelo que ganó el desafío de Netflix nunca se implementó. Pueden tomar algunos candidatos creíbles entre los mejores modelos y probarlos aún más.
David Ernst

Respuestas:

12

Sí, tu razonamiento es correcto. Si se selecciona un conjunto de pruebas diferente y se repite la competencia, las clasificaciones de hecho cambiarían. Considere el siguiente ejemplo. Todas las entradas a una competencia de Kaggle con etiquetas binarias solo se adivinan al azar (y, por ejemplo, de forma independiente) para predecir su salida. Por casualidad, uno de ellos estará de acuerdo con la reserva más que otros, a pesar de que no se está haciendo ninguna predicción.

Si bien esto es un poco artificial, podemos ver que la variación en cada uno de los modelos de la presentación significaría que la aplicación de muchas de estas entradas de hecho se ajustaría al ruido del conjunto de reserva. Esto nos dice que (dependiendo de las variaciones del modelo individual), los modelos top-N probablemente generalicen lo mismo. Este es el jardín de caminos bifurcados , excepto que los "investigadores" no son lo mismo (pero eso no importa).

¿Es posible cambiar la competencia para que todos los equipos que no pueden distinguirse estadísticamente del mejor desempeño en el set de prueba ganen?

En efecto.

  • Un enfoque (poco práctico como es) sería resolver explícitamente la varianza de un modelo dado en cada entrada, lo que nos daría un IC sobre su rendimiento de retención.
  • Otro enfoque, que puede requerir una gran cantidad de cómputo, es iniciar un IC en el rendimiento de espera, exponiendo una API de capacitación y prueba a todos los modelos.
VF1
fuente
Gran respuesta. ¿Puede explicar cómo se podrían implementar los dos métodos?
usuario0
1
Es interesante: el mejor modelo podría no ser el equipo ganador.
usuario0
1
El cálculo explícito de la varianza no se puede hacer sin la distribución de datos (solo lo menciono porque explica la teoría). Este documento describe varios métodos (y dónde fallan) para la estimación de precisión, incluyendo bootstrap y validación cruzada. Sin embargo, a diferencia del documento, en este contexto, no estamos haciendo CV para la selección del modelo en un conjunto de entrenamiento, sino más bien para un "puntaje" robusto en el conjunto combinado de datos de entrenamiento y prueba.
VF1
Quizás dos rondas sean mejores para una estimación sólida del ganador. La primera elimina el 99% peor, y la segunda ronda vuelve a estimar las clasificaciones para "pulir" el orden.
EngrStudent - Restablece a Monica el
1
Para agregar ideas aquí, consulte este documento del ganador de la competencia NCAA March Madness Kaggle en 2014. Desplácese hacia abajo a la sección 4, "Estudio de simulación". Según su simulación, si las probabilidades predichas de su modelo para cada enfrentamiento fueran, de hecho, el verdadero estado de la naturaleza, su ubicación media sería el 11º lugar.
klumbard
3

Hay otros tipos de competiciones en Kaggle que no tienen elementos de azar. Por ejemplo, este trineo robado de Stanta .

Es un problema de optimización discreta e incluso no tiene una tabla de clasificación privada. Lo que ves en la tabla de líderes públicos son los resultados finales.

En comparación con el aprendizaje supervisado, que tiene un comienzo fácil para muchas personas, este tipo de competencia es de naturaleza más "dura".

Haitao Du
fuente