El video musical de PSY "Gangnam style" es popular, después de poco más de 2 meses tiene alrededor de 540 millones de espectadores. Aprendí esto de mis hijos preadolescentes durante la cena la semana pasada y pronto la discusión fue en dirección a si era posible hacer algún tipo de predicción de cuántos espectadores habrá en 10-12 días y cuándo (/ si) la canción pasará a 800 millones de espectadores o mil millones de espectadores.
Aquí está la imagen del número de espectadores desde que se publicó:
Aquí están las fotos de varios espectadores de los videos musicales No1 "Justin Biever-Baby" y No2 "Eminem - Love the way you lie" que ambos han estado disponibles por mucho más tiempo
Mi primer intento de razonar sobre el modelo fue que debería ser una curva en S, pero esto no parece ajustarse a las canciones No1 y No2 y tampoco encaja que no hay límite en la cantidad de vistas que el video musical puede tener, solo un crecimiento más lento.
Entonces mi pregunta es: ¿qué tipo de modelo debo usar para predecir el número de espectadores del video musical?
Respuestas:
¡Ajá, excelente pregunta!
También habría propuesto ingenuamente una curva logisítica en forma de S, pero esto obviamente es un mal ajuste. Hasta donde sé, el aumento constante es una aproximación porque YouTube cuenta las vistas únicas (una por dirección IP), por lo que no puede haber más vistas que las computadoras.
Podríamos usar un modelo epidemiológico en el que las personas tienen diferente susceptibilidad. Para simplificar, podríamos dividirlo en el grupo de alto riesgo (digamos los niños) y el grupo de bajo riesgo (digamos los adultos). Llamemos la proporción de niños "infectados" e la proporción de adultos "infectados" en el momento . Llamaré a el número (desconocido) de individuos en el grupo de alto riesgo y el número (también desconocido) de individuos en el grupo de bajo riesgo.x(t) y(t) t X Y
donde . No sé cómo resolver ese sistema (tal vez @EpiGrad lo haría), pero mirando sus gráficos, podríamos hacer un par de suposiciones simplificadoras. Debido a que el crecimiento no se satura, podemos suponer que es muy grande e es pequeño, or1>r2 Y y
que predice el crecimiento lineal una vez que el grupo de alto riesgo está completamente infectado. Tenga en cuenta que con este modelo no hay ninguna razón para suponer , sino todo lo contrario porque el término grande ahora se incluye en .r1>r2 Y−y(t) r2
Este sistema resuelve a
donde y son constantes de integración. La población total "infectada" es entonces , que tiene 3 parámetros y 2 constantes de integración (condiciones iniciales). No sé lo fácil que sería encajar ...C1 C2 x(t)+y(t)
Actualización: jugando con los parámetros, no pude reproducir la forma de la curva superior con este modelo, la transición de a siempre es más nítida que la anterior. Continuando con la misma idea, podríamos asumir nuevamente que hay dos tipos de usuarios de Internet: los "compartidores" y los "solitarios" . Los participantes se contagian, los solitarios se topan con el video por casualidad. El modelo es0 600,000,000 x(t) y(t)
y resuelve a
Podríamos suponer que , es decir , que solo hay un paciente 0 en , lo que produce porque es un número grande. para que podamos suponer que . Ahora solo los 3 parámetros , y determinan la dinámica.x(0)=1 t=0 C1=1X−1≈1X X C2=y(0) C2=0 X r1 r2
Incluso con este modelo, parece que la inflexión es muy aguda, no se ajusta bien, por lo que el modelo debe estar equivocado. Eso hace que el problema sea muy interesante en realidad. Como ejemplo, la figura a continuación fue construida con , y .X=600,000,000 r1=3.667⋅10−10 r2=1,000,000
Actualización: De los comentarios, deduje que Youtube cuenta las vistas (en su forma secreta) y no las IP únicas, lo que hace una gran diferencia. De vuelta al tablero de dibujo.
Para simplificar, supongamos que los espectadores están "infectados" por el video. Vuelven a verlo regularmente, hasta que eliminan la infección. Uno de los modelos más simples es el SIR (Susceptible-Infected-Resistant) que es el siguiente:
˙ I (t)=αS(t)I(t)-βI(t) ˙ R (t)=βI(t)
donde es la tasa de infección y es la tasa de eliminación. El recuento total de vistas es tal que , donde es el promedio de vistas por día por individuo infectado.β x ( t ) ˙ x ( t ) = k I ( t ) kα β x(t) x˙(t)=kI(t) k
En este modelo, el recuento de vistas comienza a aumentar abruptamente algún tiempo después del inicio de la infección, lo cual no es el caso en los datos originales, tal vez porque los videos también se propagan de manera no viral (o meme). No soy experto en estimar los parámetros del modelo SIR. Simplemente jugando con diferentes valores, esto es lo que se me ocurrió (en R).
Obviamente, el modelo no es perfecto, y podría complementarse de muchas maneras. Este bosquejo muy aproximado predice mil millones de visitas en algún lugar alrededor de marzo de 2013, veamos ...
fuente
Probablemente, el modelo más común para pronosticar la adopción de nuevos productos es el modelo de difusión Bass , que, similar a la respuesta de @ gui11aume, modela las interacciones entre los usuarios actuales y potenciales. La adopción de nuevos productos es un tema bastante candente en el pronóstico, la búsqueda de este término debería generar toneladas de información (que desafortunadamente no tengo tiempo para expandir aquí ...).
fuente
Me gustaría ver la curva de crecimiento de Gompertz .
La curva de Gompertz es una fórmula exponencial doble de 3 parámetros (a, b, c) con el tiempo, T, como una variable independiente.
Código R:
Se sabe que la fórmula de crecimiento de Gompertz es buena para describir muchos fenómenos del ciclo de vida en los que al principio el crecimiento se está acelerando, luego disminuye gradualmente, lo que da como resultado una curva sigmoide asimétrica cuya derivada es más pronunciada a la izquierda que a la derecha del pico. Por ejemplo, el número total de artículos en Wikipedia, que también es de naturaleza viral, ha seguido una curva de crecimiento de Gompertz (con ciertos parámetros a, b, c) durante muchos años con gran precisión.
Editar: si la curva de Gompertz no es suficiente para aproximar la forma que está buscando, es posible que desee agregar parámetros
d
& θ como se describe en La distribución de Weibull Gompertz generalizada exponencial . Tenga en cuenta que este documento utiliza enx
lugar det
para el parámetro de tiempo independiente. Curiosamente, Wikipedia también modificó su mejor aproximación al agregar un solo cuarto parámetrod
, para tener en cuenta una predicción divergente del valor real después de 2012 . La fórmula modificada de la curva de Gompertz de 4 param es:La función de Gompertz lleva el nombre de Benjamin Gompertz (1779-1865) , un contemporáneo de Gauss (solo 2 años menor de Gauss), el primer matemático en describirlo.
fuente
Creo que necesita separar fenómenos como Gangnam Style, que debe gran parte de sus puntos de vista a ser un meme / viral, de Justin Bieber y Eminem, que son grandes artistas por derecho propio y que también se extenderían ampliamente en un entorno tradicional: JB o Eminem también venderían muchos singles, no estoy seguro de que PSY lo haga.
fuente
De acuerdo, muchachos, necesitamos algunos datos estilizados sobre la difusión de videos de youtube, que resultan sugerir patrones bastante diferentes de la literatura habitual sobre difusión de productos. Un buen lugar para comenzar es Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn y Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: Análisis del sistema de video de contenido generado por el usuario más grande del mundo, Actas de la séptima ACM SIGCOMM conferencia sobre medición de Internet, ISBN: 978-1-59593-908-1.
y
X Cheng, C Dale, J Liu, 2008, Estadísticas y red social de videos de youtube, en actas del Taller Internacional sobre Calidad de Servicio (IWQoS), Enschede, Países Bajos, junio.
fuente
Al observar la desaceleración de las vistas durante la semana pasada, la fecha del 13 de marzo parece una apuesta decente. La mayoría de las nuevas vistas parecen ser usuarios infectados que regresan varias veces al día.
Con respecto a complementar su modelo, un método que usan los investigadores para rastrear la propagación de un virus es monitorear sus mutaciones genómicas: cuándo y dónde muta puede mostrar a los investigadores qué tan rápido se transmite y propaga un virus (vea el seguimiento del Virus del Nilo Occidental en EE. UU.) .
En un sentido práctico, es más probable que videos como Gangnam Style y Party Rock Anthem (del grupo LMFAO) 'muten' en parodias, flash mobs, bailes de bodas, remixes y otras respuestas en video que, por ejemplo, las canciones de Justin Bieber Baby o Eminem.
Los investigadores podrían analizar el número de respuestas de video (y parodias en particular) como un proxy para las mutaciones. Medir la frecuencia y popularidad de estas mutaciones al principio de la vida del video podría ser útil, es modelar sus vistas de YouTube de por vida.
fuente