Es muy común en los recomendadores que tengamos datos de productos del usuario que tengan una etiqueta como, por ejemplo, "clic". Para aprender el modelo, necesito datos de clic y sin clic.
El enfoque más simple para generar es tomar pares de productos de usuario que no se encuentran en los datos de clics. Sin embargo, eso puede ser engañoso. Ejemplo:
user1, product1 (click)
user2, product2 (click)
user2, product3 (click)
user3, product2 (click)
Puedo tomar user1 con todos los productos excepto product1 y etiquetarlos como "no_click" y así sucesivamente. Pero esto puede no ser cierto. Tal vez el usuario1 habría hecho clic en el producto2 si se le hubiera mostrado el producto2. Pero solo porque le mostraron otros conjuntos de productos, no tuvo oportunidad de decidir hacer clic / no hacer clic en el producto2.
Entonces, ¿cómo abordar el problema de datos unarios?
fuente
Respuestas:
Entonces, hay dos problemas.
Para (1) debería estar registrando esta información. Si no se está grabando actualmente, debe comenzar a grabar esta información. Dado que no tiene esta información, desea proporcionar recomendaciones. Afortunadamente, con solo hacer clic en los datos, aún puede crear una matriz de utilidad, consulte 9.1.1.
http://i.stanford.edu/~ullman/mmds/ch9.pdf
A continuación, puede utilizar el filtrado colaborativo basado en el usuario o el elemento como se describe en el documento. Esto es básicamente un ejercicio para llenar la matriz de utilidad y tratar de encontrar "puntajes" para elementos no clicados. Su recomendación sería un elemento no clicado con la puntuación más alta.
Para (2) aún hará recomendaciones sobre elementos no clicados. Entonces, eso solo no es un problema. Sin embargo, querrás optimizar tus impresiones. Tampoco puede tener pleno conocimiento de dónde un usuario puede ver todas las opciones posibles. Necesita registrar impresiones y comprender varias cosas.
Este es un tema enorme y, básicamente, este es el dominio del problema de la publicidad en línea. Sin embargo, un motor de recomendaciones intenta encontrar elementos de interés en la cola larga, que es un poco diferente de la optimización de anuncios. Este es un ciclo de retroalimentación para evaluar su recomendación. Las pruebas A / B son comunes. Deberá probar las tasas de clics y los errores de recomendación entre su sistema actual y el nuevo.
Ver también aquí.
http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf
http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf
fuente