Hay un iter
parámetro en la gensim
implementación de Word2Vec
clase gensim.models.word2vec.Word2Vec (oraciones = Ninguno, tamaño = 100, alfa = 0.025, ventana = 5, min_count = 5, max_vocab_size = Ninguno, muestra = 0, semilla = 1, trabajadores = 1, min_alpha = 0.0001, sg = 1, hs = 1, negativo = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Ninguno, sorted_vocab = 1)
que especifica el número de épocas, es decir:
iter = número de iteraciones (épocas) sobre el corpus.
¿Alguien sabe si eso ayuda a mejorar el modelo sobre el corpus?
¿Hay alguna razón por la cual iter
se establece en 1 de forma predeterminada? ¿No hay mucho efecto en aumentar el no. de épocas?
¿Hay alguna evaluación científica / empírica de cómo establecer el no. de épocas?
A diferencia de la tarea de clasificación / regresión, el método de búsqueda de cuadrícula realmente no funcionaría ya que los vectores se generan de manera no supervisada y la función objetivo es simplemente por softmax jerárquico o muestreo negativo.
¿Existe un mecanismo de detención temprana para acortar el no. de épocas una vez que convergen los vectores? ¿Y puede converger el objetivo jerárquico softmax o el muestreo negativo?
fuente