Soy desarrollador web y estadístico novato.
Mis datos se parecen a esto
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Estoy tratando de predecir y1 como producto de las variables x. Sin embargo, tengo razones para creer que puede haber un retraso en el efecto de las múltiples variables x en y1, es decir, las variables x de la semana 1 para el sujeto A influyen en y1 para el sujeto A en la semana 2.
Tenga en cuenta que no todas las asignaturas tendrán puntos de datos para cada semana (de hecho, la mayoría no). Los sujetos tenderán a tener puntos de datos para, por ejemplo, la semana 1, 2, 3, 4, luego se dejarán y no volverán a aparecer hasta la semana 7,8,9. Estoy dispuesto a restringir mi análisis a los puntos de datos donde tenemos datos de las N semanas previas dada mi hipótesis sobre el retraso.
Como dije, soy un novato y no estoy seguro de la mejor manera de manejar un conjunto de datos de esta forma. Espero llevar a cabo este análisis en R, Python o alguna combinación de ambos. No creo que las variables x de la semana actual no tengan ningún efecto. Creo que tendrán algún efecto, quizás mayor que las semanas anteriores. Solo creo que las semanas anteriores tendrán algún efecto.
Espero que haya dos o tres semanas de retraso. Para dar un poco de contexto, el análisis que estoy tratando aquí se relaciona con juzgar la calidad del tráfico en línea. Cada semana obtengo un puntaje que califica la calidad de un determinado flujo de usuarios que envío a un sitio web determinado. Estoy tratando de encontrar métricas secundarias, como la distribución del navegador, el porcentaje de clics duplicados, etc., que me permitirán predecir cuál será la puntuación antes de tiempo.
Respuestas:
Como mencioné en mi nota anterior, trataría esto como un problema de regresión. Aquí hay un enlace para construir, en R, las variables de retraso (y plomo) a partir de sus datos ( R Head ).
En la publicación se incluye una breve introducción al uso de los datos resultantes en un modelo de regresión. También es posible que desee realizar un poco de excavación de fondo en el paquete R dynlm (regresión lineal dinámica).
fuente
Puede crear tablas donde el y1 se desplace 0,1,2,3,4 semanas.
Luego ejecutas un análisis sobre ellos. Por ejemplo, podría hacer una red neuronal que intente predecir y1 a partir de x. Para algunas ideas, puedes darle un giro a Weka .
Entonces, tiene alguna medida de predecir y1 a partir de x para cada retraso. Con esto, puede encontrar el retraso que mejor se adapta.
Alternativamente, puede crear una tabla que incluya x de la semana actual, x de la semana anterior, ... e y1. Luego haga un análisis de influencia (por ejemplo, PCA ) para ver qué semana y qué variable tiene la mayor influencia.
fuente