Elegir los hiperparámetros usando T-SNE para la clasificación

13

En un problema específico con el que trabajo (una competencia) tengo la siguiente configuración: 21 características (numéricas en [0,1]) y una salida binaria. Tengo aproximadamente 100 K filas. El escenario parece ser muy ruidoso.

Yo y otros participantes aplicamos la generación de características por un tiempo y la inserción de vecinos estocásticos distribuidos en t resultó ser bastante poderosa en este entorno.

Me topé con esta publicación "Cómo usar t-SNE de manera efectiva", pero aún no puedo concluir sobre cómo elegir los hiperparámetros mejor en mi entorno de clasificación.

¿Existen reglas generales (número de características, dimensión de incrustación -> elección de perplejidad)?

Solo aplico la configuración ad-hoc en este momento, ya que lleva demasiado tiempo iterar varias configuraciones. Gracias por cualquier comentario

Ric
fuente
¡Esta es una gran pregunta! Espero que alguien encuentre mi respuesta lo suficientemente mediocre como para que obtenga otra respuesta (y también aprendo algo nuevo).
usεr11852 dice Reinstate Monic el

Respuestas:

17

t

t-SNE está tratando de minimizar la suma de las divergencias de Kullback-Leibler entre la distribución de las distancias entre los datos en el dominio original y la distribución de distancias entre los datos en el dominio de dimensión reducida (en realidad, las distribuciones objetivo son las distribuciones de los probabilidades de que un punto elija otro punto como vecino, pero estos son directamente proporcionales a la distancia entre los dos puntos). Se podría argumentar que valores más pequeños de divergencia KL muestran mejores resultados. Esta idea no funciona muy bien en la práctica, pero teóricamente ayudaría a excluir algunos rangos de los valores de perplejidad, así como algunas ejecuciones del algoritmo que son claramente subóptimas. Explico por qué esta heurística está lejos de ser una panacea y cómo podría ser ligeramente útil: El parámetro de perplejidad aumenta monotónicamente con la varianza del gaussiano utilizado para calcular las distancias / probabilidades. Por lo tanto, a medida que aumenta el parámetro de perplejidad en su conjunto, obtendrá distancias más pequeñas en términos absolutos y los valores de divergencia KL posteriores. Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para el Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para el Sin embargo, si tiene 20 carreras con la misma perplejidad y no puede (no quiere) mirarlas, siempre puede elegir la que tenga la variable más pequeña con la esperanza de que conserve las distancias originales con mayor precisión. Lo mismo vale para elθθ y luego verificar los costos resultantes debería ser algo informativo. Al final del día, los costos más bajos están asociados con reconstrucciones más fieles. Todo no esta perdido...

kktt-SNE se usó en primer lugar después de todo, si la representación resultante no es informativa para las propiedades que estamos investigando, entonces simplemente no es bueno a pesar de su bajo error de reconstrucción, atractivo visual, etc.

Permítanme señalar que lo que describo son heurísticas . Como se mencionó al principio de mi publicación, la inspección manual de los resultados es una forma indispensable de evaluar la calidad de la reducción / agrupación de dimensionalidad resultante.

usεr11852 dice Reinstate Monic
fuente
Gracias por esto. La idea del índice de hasta qué punto el agrupamiento se ajusta a la clasificación suena interesante.
Ric
4

Por lo general, establecemos la perplejidad al 5% del tamaño del conjunto de datos. Entonces, para un conjunto de datos con 100K filas, comenzaría con una perplejidad de 5000, o al menos 1000, si no tiene una computadora de alto rendimiento disponible. Nuestros conjuntos de datos provienen del análisis de citometría de flujo, generalmente tienen 50k a 500k puntos de datos, cada uno con 10 a 20 valores numéricos.

james li
fuente
4

Podría ser interesante que eche un vistazo a la "Selección automática de perplejidad t-SNE" de Cao y Wang :

La incrustación de vecinos estocásticos distribuidos en t (t-SNE) es uno de los métodos de reducción de dimensionalidad más utilizados para la visualización de datos, pero tiene un hiperparámetro de perplejidad que requiere selección manual. En la práctica, el ajuste adecuado de la perplejidad de t-SNE requiere que los usuarios comprendan el funcionamiento interno del método y que tengan experiencia práctica. Proponemos un objetivo de selección de modelo para la perplejidad de t-SNE que requiere un cálculo adicional insignificante más allá del propio t-SNE. Validamos empíricamente que las configuraciones de perplejidad encontradas por nuestro enfoque son consistentes con las preferencias obtenidas de expertos humanos en varios conjuntos de datos. También se analizan las similitudes de nuestro enfoque de los criterios de información bayesianos (BIC) y la longitud mínima de descripción (MDL).

pisistrato
fuente
2
¿Cuáles fueron las conclusiones ...?
Tim
1
S(PAGmirpaglmiX.)=2KL(PAGEl |El |Q)+Iniciar sesión(norte)PAGmirlmiX.norte(Pero +1 en los comentarios de Tim, el resumen de un artículo está lejos de ser una respuesta completa; por favor, intente construir una respuesta que se explique por sí misma / contenida).
usεr11852 dice Reinstate Monic