Usuario-producto positivo (datos de clic) disponible. ¿Cómo generar negativo (datos sin clic)?

Es muy común en los recomendadores que tengamos datos de productos del usuario que tengan una etiqueta como, por ejemplo, "clic". Para aprender el modelo, necesito datos de clic y sin clic.

El enfoque más simple para generar es tomar pares de productos de usuario que no se encuentran en los datos de clics. Sin embargo, eso puede ser engañoso. Ejemplo:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

Puedo tomar user1 con todos los productos excepto product1 y etiquetarlos como "no_click" y así sucesivamente. Pero esto puede no ser cierto. Tal vez el usuario1 habría hecho clic en el producto2 si se le hubiera mostrado el producto2. Pero solo porque le mostraron otros conjuntos de productos, no tuvo oportunidad de decidir hacer clic / no hacer clic en el producto2.

Entonces, ¿cómo abordar el problema de datos unarios?

machine-learning data-mining p.paliwal
fuente

Creo que respondiste tu propia pregunta. Debería estar grabando un concepto de impresión o espectáculo. Si mostró un producto y no se hizo clic, entonces esto es lo que está buscando.

Pero en realidad esto no está disponible en los datos grabados. Eso es lo que mencioné. Los datos solo contienen qué par usuario-producto tiene una etiqueta de clic. Lo que se mostró y en qué se hizo clic no se registra.

p.paliwal

Además, incluso si digamos: el usuario1 se mostró prod1, prod2, prod3 (y hizo clic en prod1) - Entonces el usuario1 con prod2 y prod3 tendrá una etiqueta sin clic. Pero, ¿qué pasa con el resto de productos (prod4, prod5, ...). Solo porque no se mostraban, el usuario no tenía la oportunidad de decidir hacer clic / no hacer clic. Esto no dice si el usuario estaría interesado en los productos que no se muestran, por lo que etiquetar todas las demás combinaciones como no hacer clic puede no ser cierto en realidad. Esto es lo que también expliqué en cuestión.

p.paliwal

Respuestas:

Entonces, hay dos problemas.

Grabación de impresiones (espectáculos)
Cómo lidiar con las no impresiones

Para (1) debería estar registrando esta información. Si no se está grabando actualmente, debe comenzar a grabar esta información. Dado que no tiene esta información, desea proporcionar recomendaciones. Afortunadamente, con solo hacer clic en los datos, aún puede crear una matriz de utilidad, consulte 9.1.1.

http://i.stanford.edu/~ullman/mmds/ch9.pdf

A continuación, puede utilizar el filtrado colaborativo basado en el usuario o el elemento como se describe en el documento. Esto es básicamente un ejercicio para llenar la matriz de utilidad y tratar de encontrar "puntajes" para elementos no clicados. Su recomendación sería un elemento no clicado con la puntuación más alta.

Para (2) aún hará recomendaciones sobre elementos no clicados. Entonces, eso solo no es un problema. Sin embargo, querrás optimizar tus impresiones. Tampoco puede tener pleno conocimiento de dónde un usuario puede ver todas las opciones posibles. Necesita registrar impresiones y comprender varias cosas.

mostrar la tasa de un artículo
porcentaje de clics de un artículo
cómo incorporar nuevos artículos
Cómo optimizar qué elementos mostrar

Este es un tema enorme y, básicamente, este es el dominio del problema de la publicidad en línea. Sin embargo, un motor de recomendaciones intenta encontrar elementos de interés en la cola larga, que es un poco diferente de la optimización de anuncios. Este es un ciclo de retroalimentación para evaluar su recomendación. Las pruebas A / B son comunes. Deberá probar las tasas de clics y los errores de recomendación entre su sistema actual y el nuevo.

Ver también aquí.

http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

fuente