Modelo para predecir el número de vistas de YouTube del estilo Gangnam

73

El video musical de PSY "Gangnam style" es popular, después de poco más de 2 meses tiene alrededor de 540 millones de espectadores. Aprendí esto de mis hijos preadolescentes durante la cena la semana pasada y pronto la discusión fue en dirección a si era posible hacer algún tipo de predicción de cuántos espectadores habrá en 10-12 días y cuándo (/ si) la canción pasará a 800 millones de espectadores o mil millones de espectadores.

Aquí está la imagen del número de espectadores desde que se publicó: PSY OGS

Aquí están las fotos de varios espectadores de los videos musicales No1 "Justin Biever-Baby" y No2 "Eminem - Love the way you lie" que ambos han estado disponibles por mucho más tiempo Justin Eminem

Mi primer intento de razonar sobre el modelo fue que debería ser una curva en S, pero esto no parece ajustarse a las canciones No1 y No2 y tampoco encaja que no hay límite en la cantidad de vistas que el video musical puede tener, solo un crecimiento más lento.

Entonces mi pregunta es: ¿qué tipo de modelo debo usar para predecir el número de espectadores del video musical?

FredrikD
fuente
21
+1 por lograr dirigir la conversación en la mesa de la cena de Gangnam a las estadísticas. ¡Necesitamos gente como usted!
S. Kolassa - Restablece a Monica el
44
Lo que puedo agregar a la discusión que espero sea útil para los usuarios u otros que escriben ecuaciones para tratar de modelar esto, es que en el ejemplo de KONY, la agrupación geográfica fue un aspecto significativo de la propagación viral. El hecho de que PSY es primero un fenómeno coreano y luego asiático, es una parte importante de la historia. No estoy seguro exactamente cómo se modelaría eso, pero podría ser una pista.
Los datos sobre vistas, comentarios, me gusta y no me gusta del video durante noviembre de 2012 se pueden encontrar en docs.google.com/spreadsheet/…
FredrikD

Respuestas:

38

¡Ajá, excelente pregunta!

También habría propuesto ingenuamente una curva logisítica en forma de S, pero esto obviamente es un mal ajuste. Hasta donde sé, el aumento constante es una aproximación porque YouTube cuenta las vistas únicas (una por dirección IP), por lo que no puede haber más vistas que las computadoras.

Podríamos usar un modelo epidemiológico en el que las personas tienen diferente susceptibilidad. Para simplificar, podríamos dividirlo en el grupo de alto riesgo (digamos los niños) y el grupo de bajo riesgo (digamos los adultos). Llamemos la proporción de niños "infectados" e la proporción de adultos "infectados" en el momento . Llamaré a el número (desconocido) de individuos en el grupo de alto riesgo y el número (también desconocido) de individuos en el grupo de bajo riesgo.x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

donde . No sé cómo resolver ese sistema (tal vez @EpiGrad lo haría), pero mirando sus gráficos, podríamos hacer un par de suposiciones simplificadoras. Debido a que el crecimiento no se satura, podemos suponer que es muy grande e es pequeño, or1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

que predice el crecimiento lineal una vez que el grupo de alto riesgo está completamente infectado. Tenga en cuenta que con este modelo no hay ninguna razón para suponer , sino todo lo contrario porque el término grande ahora se incluye en .r1>r2Yy(t)r2

Este sistema resuelve a

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

donde y son constantes de integración. La población total "infectada" es entonces , que tiene 3 parámetros y 2 constantes de integración (condiciones iniciales). No sé lo fácil que sería encajar ...C1C2x(t)+y(t)

Actualización: jugando con los parámetros, no pude reproducir la forma de la curva superior con este modelo, la transición de a siempre es más nítida que la anterior. Continuando con la misma idea, podríamos asumir nuevamente que hay dos tipos de usuarios de Internet: los "compartidores" y los "solitarios" . Los participantes se contagian, los solitarios se topan con el video por casualidad. El modelo es0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

y resuelve a

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

Podríamos suponer que , es decir , que solo hay un paciente 0 en , lo que produce porque es un número grande. para que podamos suponer que . Ahora solo los 3 parámetros , y determinan la dinámica.x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

Incluso con este modelo, parece que la inflexión es muy aguda, no se ajusta bien, por lo que el modelo debe estar equivocado. Eso hace que el problema sea muy interesante en realidad. Como ejemplo, la figura a continuación fue construida con , y .X=600,000,000r1=3.6671010r2=1,000,000

modelo de crecimiento del estilo Gangnam

Actualización: De los comentarios, deduje que Youtube cuenta las vistas (en su forma secreta) y no las IP únicas, lo que hace una gran diferencia. De vuelta al tablero de dibujo.

Para simplificar, supongamos que los espectadores están "infectados" por el video. Vuelven a verlo regularmente, hasta que eliminan la infección. Uno de los modelos más simples es el SIR (Susceptible-Infected-Resistant) que es el siguiente:

˙ I (t)=αS(t)I(t)-βI(t) ˙ R (t)=βI(t)

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

donde es la tasa de infección y es la tasa de eliminación. El recuento total de vistas es tal que , donde es el promedio de vistas por día por individuo infectado.β x ( t ) ˙ x ( t ) = k I ( t ) kαβx(t)x˙(t)=kI(t)k

En este modelo, el recuento de vistas comienza a aumentar abruptamente algún tiempo después del inicio de la infección, lo cual no es el caso en los datos originales, tal vez porque los videos también se propagan de manera no viral (o meme). No soy experto en estimar los parámetros del modelo SIR. Simplemente jugando con diferentes valores, esto es lo que se me ocurrió (en R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Extrapolación de las vistas del video de YouTube al estilo Gangnam

Obviamente, el modelo no es perfecto, y podría complementarse de muchas maneras. Este bosquejo muy aproximado predice mil millones de visitas en algún lugar alrededor de marzo de 2013, veamos ...

gui11aume
fuente
55
(+1) Como primer acercamiento. Tenga en cuenta que la política de YouTube para contar vistas no se comprende bien dado que no han hecho público su algoritmo. Solo dicen: "Se cuenta una vista cada vez que alguien mira un video en YouTube. No somos más específicos que esto para evitar intentos de inflar artificialmente el recuento de vistas" (ver) .
3
@FredrikD gracias. Todavía puede eliminar el 'aceptar' en marzo de 2013 si me equivoqué: D
gui11aume
2
Estimación de parámetros del modelo SIR, ver rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD
1
¡Parece que voy a perder este! Pueden llegar al millón incluso antes de 2013 ...
gui11aume
2
engadget.com/2012/12/21/gangnam-style-one-billion-views Así que el mundo no terminó pero 1 mil millones de visitas se vieron afectadas hoy.
DanTheMan
5

Probablemente, el modelo más común para pronosticar la adopción de nuevos productos es el modelo de difusión Bass , que, similar a la respuesta de @ gui11aume, modela las interacciones entre los usuarios actuales y potenciales. La adopción de nuevos productos es un tema bastante candente en el pronóstico, la búsqueda de este término debería generar toneladas de información (que desafortunadamente no tengo tiempo para expandir aquí ...).

S. Kolassa - Restablece a Monica
fuente
sí, ese también es un modelo candidato. Sin embargo, parece que supone que solo puede ser usuario una vez. Aquí, puede ver el video varias veces si está "infectado".
FredrikD
1
@FredrikD: punto tomado. (Aunque personalmente no logré sentarme incluso a través de un solo "uso" de este "producto" ...) Debería haber generalizaciones de Bass para lidiar con esto. (Enchufe desvergonzado :) El Simposio Internacional de Pronósticos del próximo año es en Seúl, ¡así que cualquiera debería considerar presentar su modelo de pronóstico Gangnam favorito allí! ;-)
S. Kolassa - Restablece a Monica el
4

Me gustaría ver la curva de crecimiento de Gompertz .

La curva de Gompertz es una fórmula exponencial doble de 3 parámetros (a, b, c) con el tiempo, T, como una variable independiente.

Código R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Se sabe que la fórmula de crecimiento de Gompertz es buena para describir muchos fenómenos del ciclo de vida en los que al principio el crecimiento se está acelerando, luego disminuye gradualmente, lo que da como resultado una curva sigmoide asimétrica cuya derivada es más pronunciada a la izquierda que a la derecha del pico. Por ejemplo, el número total de artículos en Wikipedia, que también es de naturaleza viral, ha seguido una curva de crecimiento de Gompertz (con ciertos parámetros a, b, c) durante muchos años con gran precisión.

Gráfico de las curvas de Gompertz: tamaño total y su derivada de la tasa de crecimiento

Editar: si la curva de Gompertz no es suficiente para aproximar la forma que está buscando, es posible que desee agregar parámetros d& θ como se describe en La distribución de Weibull Gompertz generalizada exponencial . Tenga en cuenta que este documento utiliza en xlugar de tpara el parámetro de tiempo independiente. Curiosamente, Wikipedia también modificó su mejor aproximación al agregar un solo cuarto parámetro d, para tener en cuenta una predicción divergente del valor real después de 2012 . La fórmula modificada de la curva de Gompertz de 4 param es:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

La función de Gompertz lleva el nombre de Benjamin Gompertz (1779-1865) , un contemporáneo de Gauss (solo 2 años menor de Gauss), el primer matemático en describirlo.

arielf
fuente
¡Buen punto! Sin embargo, lo que desafía al modelo es que no parece ser un límite (ver No1 y No2). Es decir, el factor a en el modelo también aumenta con el tiempo.
FredrikD
Desafiaría el "No parece haber un límite". ¿Puede el estilo Gangnam alcanzar 1B? 10B? 100B? ¿puntos de vista? finalmente, la tasa de crecimiento llega a casi cero y la curva se estabiliza. Esto es difícil de ver cuando estás en la fase de alto crecimiento, como si ahora estuviéramos con Gangnam, pero solo espera unos años y ganarás Gompertz :) El truco es, por supuesto, descubrir el derecho (a, b, c) parámetros para este caso específico.
arielf
2
Aquí hay una referencia para estimar los parámetros del modelo Gompertz, consulte weibull.com/RelGrowthWeb/…
FredrikD
3

Creo que necesita separar fenómenos como Gangnam Style, que debe gran parte de sus puntos de vista a ser un meme / viral, de Justin Bieber y Eminem, que son grandes artistas por derecho propio y que también se extenderían ampliamente en un entorno tradicional: JB o Eminem también venderían muchos singles, no estoy seguro de que PSY lo haga.

abaumann
fuente
buen punto. Después de leer y escuchar entrevistas de PSY y el equipo detrás de "OGS" (Oppa Gangnam Style), está claro que saben muy bien qué botón presionar para crear una cosa viral. A través de un análisis de la imagen de las imágenes de arriba, parece que el número de vistas es lineal hasta aproximadamente 90 días después del lanzamiento, luego aparece PSY en el Gran Premio de Corea y aumenta el número de vistas por unidad de tiempo.
FredrikD
¿Y en qué se diferencian estas dos clases de los "clásicos", canciones que presumiblemente eran bien conocidas cuando se subieron por primera vez a YouTube (estoy pensando en David Bowie)?
abaumann
2

De acuerdo, muchachos, necesitamos algunos datos estilizados sobre la difusión de videos de youtube, que resultan sugerir patrones bastante diferentes de la literatura habitual sobre difusión de productos. Un buen lugar para comenzar es Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn y Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: Análisis del sistema de video de contenido generado por el usuario más grande del mundo, Actas de la séptima ACM SIGCOMM conferencia sobre medición de Internet, ISBN: 978-1-59593-908-1.

y

X Cheng, C Dale, J Liu, 2008, Estadísticas y red social de videos de youtube, en actas del Taller Internacional sobre Calidad de Servicio (IWQoS), Enschede, Países Bajos, junio.

ProfRoy47
fuente
55
Bienvenido al sitio, @ ProfRoy47. ¿Te importaría elaborar un poco esta publicación? No está claro que esta sea realmente una respuesta a la pregunta del OP / que se mantenga por sí misma. OTOH, no encajaría como un comentario, y creo que tiene una contribución útil a este hilo. Nuestras preguntas frecuentes tienen una discusión sobre el suministro de respuestas en CV, que pueden ser útiles para usted.
gung - Restablece a Monica
1

Obviamente, el modelo no es perfecto, y podría complementarse de muchas maneras. Este bosquejo muy aproximado predice mil millones de visitas en algún lugar alrededor de marzo de 2013, veamos ...

Al observar la desaceleración de las vistas durante la semana pasada, la fecha del 13 de marzo parece una apuesta decente. La mayoría de las nuevas vistas parecen ser usuarios infectados que regresan varias veces al día.

Con respecto a complementar su modelo, un método que usan los investigadores para rastrear la propagación de un virus es monitorear sus mutaciones genómicas: cuándo y dónde muta puede mostrar a los investigadores qué tan rápido se transmite y propaga un virus (vea el seguimiento del Virus del Nilo Occidental en EE. UU.) .

En un sentido práctico, es más probable que videos como Gangnam Style y Party Rock Anthem (del grupo LMFAO) 'muten' en parodias, flash mobs, bailes de bodas, remixes y otras respuestas en video que, por ejemplo, las canciones de Justin Bieber Baby o Eminem.

Los investigadores podrían analizar el número de respuestas de video (y parodias en particular) como un proxy para las mutaciones. Medir la frecuencia y popularidad de estas mutaciones al principio de la vida del video podría ser útil, es modelar sus vistas de YouTube de por vida.

lucasng
fuente
Bienvenido al sitio, @lucasng. El CV está destinado a respuestas serias y objetivas a preguntas sustantivas (es posible que desee leer nuestras preguntas frecuentes ), y creo que el OP ha preguntado con esto en mente. Su respuesta está en el límite aquí; Creo que debería basarse en sus ideas sobre mutaciones, etc., pero tenga en cuenta que las opiniones sobre los méritos de los videos no son realmente pertinentes.
gung - Restablece a Monica
Creo que la idea es buena. @gung Es cierto que no es una respuesta al OP, pero la segunda respuesta tampoco lo es.
gui11aume
@gung: (Una búsqueda en Google sugiere que) ¡lucasng no estaba expresando una opinión en la parte que redactó, sino que citaba el nombre del grupo que interpreta la canción!
cardenal
1
@ cardinal, gracias por el aviso. Lucasng, perdón por la confusión; He vuelto a poner el nombre del grupo.
gung - Restablece a Monica