Actualmente estoy haciendo un análisis en un sitio web que requiere que cree un diagrama de árbol de decisión que muestre la ruta probable que las personas toman cada vez que llegan al sitio web. Estoy tratando con un data.frame
que muestra los caminos de todos los clientes al sitio, comenzando desde la página de inicio. Por ejemplo, un cliente podría tomar la siguiente ruta:
Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3
entonces este cliente tendría un viaje de 3 páginas. Lo que quiero intentar hacer en R es combinar todas las rutas de los clientes y así asignar una probabilidad a un cliente que siga una determinada ruta en el sitio. Por ejemplo, si examinara todos los caminos, podría encontrar que el 34% de las personas que llegan a la página de inicio van a la "página de artículos de cocina". ¿R tiene esta facilidad?
He mirado por diferentes métodos a través de los rpart y partykit paquetes pero que no parecen ser de alguna ayuda.
¡Cualquier dirección en la dirección correcta para esto es muy apreciada!
fuente
igraph
paquete parece ser bastante completo.Respuestas:
Su primera pregunta ya está respondida por esto: "¿Qué porcentaje de usuarios en la página de inicio (por ejemplo, la página 1) viaja junto a, digamos, Artículos de cocina (por ejemplo, la página 2)?"
¿O es esto demasiado simplista?
fuente
Parece que estás intentando recrear el algoritmo de PageRank de Google. La mayor parte del algoritmo de PageRank se desarrolló utilizando las cadenas de Markov. Puede encontrar muchas menciones sobre el desarrollo de métodos de PageRank en R.
igraph.sourceforge.net/doc/R/page.rank.htm
fuente
Por lo que veo aquí, estoy de acuerdo en que los igraphs / Markov Chains son probablemente el camino a seguir, sin embargo, definitivamente podrías usar rpart y / o el kit de fiesta.
Es difícil para mí dar una respuesta simple con su ejemplo limitado, pero generalmente puedo explicar cómo lo haría.
Desea ver dónde habían estado todos sus usuarios y resumirlo en una cadena, por ejemplo
Luego, podría segmentar a sus usuarios en categorías, digamos los que terminaron en la página "comprar ahora" y los que no. Entonces podría simplemente comenzar a predecir el resultado de ese terminal. En este ejemplo, tal vez descubra que las personas que hicieron la mayor cantidad de comparación compraron / no compraron algo.
También podría hacer más variables, como "cuál era la página anterior a la página de compra ahora", "cuántas páginas visitaron antes de comprar algo" o "cuándo crearon su primera cuenta", y podría agregar esas métricas a su análisis.
Hay muchas maneras diferentes en que podría ir, y esto comienza a responder diferentes preguntas, pero mi punto es que podría usar los árboles y, para algunos problemas, podría ser una ruta más rápida y sencilla para obtener información.
Por cierto, necesitaría hacer factores de variables no numéricos usando
factor
oas.factor
, si va a usar party. Party tiene algunas bonitas viñetas para que comiences.fuente