Cómo encontrar pesos para una medida de disimiliaridad

Quiero aprender (deducir) los pesos de los atributos para mi medida de disimilitud que puedo usar para la agrupación.

Tengo algunos ejemplos de pares de objetos que son "similares" (deben estar en el mismo grupo), así como algunos ejemplos de pares de objetos que "no son similares" "(no debe estar en el mismo clúster). Cada objeto tiene una serie de atributos: si lo desea, podemos pensar en cada objeto como un vector dimensional de características, donde cada característica es un número entero no negativo. ¿Existen técnicas para usar tales ejemplos de objetos similares / diferentes para estimar a partir de ellos los pesos de características óptimos para una medida de disimilitud? $(a_i,b_i)$ $(c_i,d_i)$ $d$

Si ayuda, en mi aplicación, probablemente sería razonable concentrarse en aprender una medida de disimilitud que sea una norma ponderada de L2:

d (x, y) = \sum_{j} α_{j} (x [j] - y [j])^{2} .

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

donde los pesos no se conocen y se deben aprender. (O, algún tipo de medida de similitud de coseno ponderada también podría ser razonable). ¿Existen buenos algoritmos para aprender los pesos para tal medida, dados los ejemplos? ¿O hay otros métodos para aprender una medida de similitud / medida de disimilitud que debería considerar? $\alpha_j$ $\alpha_j$

Desafortunadamente, el número de dimensiones es muy grande (miles o más; se deriva de las características de la bolsa de palabras). Sin embargo, tengo muchas decenas de miles de ejemplos. Luego tengo cientos de miles de objetos que quiero agrupar, por lo que es importante generalizar a partir de los ejemplos para aprender una buena métrica de disimilitud.

Entiendo que esto cae en la rúbrica de la agrupación semi-supervisada, y parece que podría ser de la veta de "adaptación de similitud", pero no he podido encontrar descripciones claras de algoritmos para este propósito.

Muy interesante problema. Si entiendo bien su problema, se le da una matriz principalmente vacía con sus elementos que codifican similitud o disparidad por pares. Algunos elementos están completados pero faltan la mayoría. Primero trataría de llenar esa matriz (por ejemplo, utilizando un supuesto de rango bajo, por ejemplo).

Vladislavs Dovgalecs

@xeon, ese sería un enfoque, pero ignora las características. Mi hipótesis es que algunas características son altamente relevantes y algunas características no son relevantes, y que al observar la diferencia en las características relevantes se obtiene una métrica de disimilitud razonable, pero ¿cómo encontramos esa métrica? Solo tratar de completar la matriz como sugiere ignora esta estructura y, por lo tanto, no aprovecha al máximo los datos que tenemos.

¿Cuál es tu objetivo final? No es solo aprender la métrica de distancia, ¿verdad? Desea categorizar los puntos de datos, ¿no es así?

Vladislavs Dovgalecs

Hay cosas que creo que no has aclarado muy claramente. ¿El conjunto completo de pares de ejemplos forma una matriz binaria completa (1 = similar; 0 = diferente) o falta información de algunas celdas? ¿Es la matriz "no contradictoria", es decir, los objetos de ejemplo se dividen en clases no superpuestas? Además, tenga en cuenta que ningún método de aprendizaje puede (o debe usarse) aconsejarle el tipo de medida (como por ejemplo, la norma L2 o L1) porque dicha elección es teórica (depende del tipo de atributos, conceptualización de la característica espacio, método de agrupamiento que vas a usar entonces).

ttnphns

Esto es demasiado amplio para ser respondido razonablemente aquí. Existe una gran cantidad de literatura dedicada tanto a la ponderación de características, la selección como al aprendizaje de las funciones de distancia. ¡Creo que he visto incluso una conferencia sobre aprendizaje de similitud más o menos!

HA SALIDO - Anony-Mousse

Este es un gran problema en algunas áreas del aprendizaje automático. No estoy tan familiarizado con él como me gustaría, pero creo que esto debería ayudarlo a comenzar.

La reducción de la dimensionalidad mediante el aprendizaje de un mapeo invariante (DrLIM) parece funcionar muy bien en algunos conjuntos de datos.
El análisis de componentes de vecindario es un algoritmo lineal muy agradable, y también se han desarrollado versiones no lineales.
Hay toda una literatura que trata este tema desde la perspectiva de "aprender un núcleo". No sé mucho al respecto, pero este artículo es muy citado.

$L_2$

David J. Harris
fuente

Q

$Q$

A

$A$

No veo por qué no pudiste incluir esa restricción. Sin embargo, no estoy seguro de si el modelo resultante tiene un nombre.

David J. Harris

Cómo encontrar pesos para una medida de disimiliaridad

Respuestas: