Suponga que puede observar "coincidencias" entre compradores y vendedores en un mercado. También puede observar las características de los compradores y vendedores que le gustaría utilizar para predecir futuras coincidencias y hacer recomendaciones a ambos lados del mercado.
Para simplificar, suponga que hay N compradores y N vendedores y que cada uno encuentra una coincidencia. Hay N coincidencias y (N-1) (N-1) no coincidencias. El conjunto de datos de entrenamiento todo incluido tiene observaciones N + (N-1) * (N-1), que pueden ser prohibitivamente grandes. Parecería que el muestreo aleatorio de las no coincidencias (N-1) (N-1) y el entrenamiento de un algoritmo sobre esos datos reducidos podría ser más eficiente. Mis preguntas son:
(1) ¿El muestreo de los no partidos para construir un conjunto de datos de entrenamiento es una forma razonable de abordar este problema?
(2) Si (1) es cierto, ¿hay una manera rigurosa de decidir qué tan grande de un pedazo de (N-1) (N-1) incluir?
fuente
En cuanto a (1). Necesita mantener observaciones positivas y negativas si desea resultados significativos.
(2) No existe un método más inteligente de submuestreo que la distribución uniforme si no tiene a priori sus datos.
fuente