dimanche 13 janvier 2013

Conseil 1: Recommendation pour la modélisation du datamart de suivi d'une session d'un visiteur sur un site internet


Le clickstream (que l’on pourrait traduire par « flot de clics » ou « parcours de navigation ») désigne le chemin parcouru par un visiteur, de clics en clics, de son entrée à sa sortie d’un site Internet. En termes de données brutes, cela veut dire qu’il y a un enregistrement pour chaque clic effectué par le visiteur. Le parcours de navigation contient donc de nombreuses informations sur le comportement d‘un visiteur sur le site. (Source definition clickstream : http://www.definition-marketing.net/clickstream/)

La quantité de donnée recueillit est énorme. Même modérément occupé, un site e-commerce peut générer 100 millions d’enregistrement chaque jour. Nous devons donc réduire le volume de données à des proportions gérables pour nos analyses les plus importantes. Dans cet article nous chercherons un moyen d’éviter d’explorer les 100 millions d’enregistrement, tout en gardant un niveau de détail utile pour analyser le comportement des visiteurs.


Dans les données recueillies, il ya des éléments d'un certain nombre de dimensions intéressantes : la date du jour, l’heure du jour, le visiteur, la page demandée, le contexte associé (ce que contenait la page précédente), et l'action (soit essentiellement recevoir de l’information du serveur ou envoyer de l’information au serveur).

Le grain recommandé de la table de faits « comportement visiteur » est : un enregistrement = une session visiteur.

Si une session moyenne se compose de 20 évènements (ou clics), alors le nombre d'enregistrements dans la table de faits de notre exemple est réduite à 5 millions par jour (100 millions / 20), ce qui est comparable aux entrepôts de données des commerces de taille moyenne.

Les dimensions recommandées pour cette table de faits sont :
  • Date serveur (date du jour sur le serveur)
  • Heure serveur (nombres de secondes depuis minuit sur le serveur marquant le début de la session)
  • Date visiteur (date du jour telle qu'elle est vécue par le visiteur)
  • Heure visiteur (nombre de secondes depuis minuit chez l’utilisateur qui marque le début de la session)
  • Visiteur (mettre un nom générique «visiteur» pour les visiteurs anonymes, un nom unique généré par le système pour les visiteurs non inscrits qui ont acceptés un cookie, et le vrai nom pour les visiteurs enregistrés)
  • Page de démarrage (l'identité de la première page de la session: la page qui a attiré les visiteurs sur votre site)
  • Page de fin (l’identité de la dernière page de session: c'est peut-être un tueur de session)
  • Contexte associé (l'URL de la page précédente, si disponible)
  • Diagnostic de session (un simple tag descriptif indiquant quel type de session était ce)


Les faits recommandés dans cette conception sont les suivants:
  • Nombre de pages visitées
  • Durée de la session (celui-ci ne reflète pas forcément la durée réelle du visiteur puisque nous ne pouvons pas connaitre l’activité réelle du visiteur, par exemple si celui-ci va voir un autre site et revient sur le votre)



Ce modèle peut être une base très puissante à partir de laquelle on peut évaluer le comportement des visiteurs sur un site web. La dimension la plus importante est la dimension « Diagnostic de session ». Vous devez avoir un processus d’identification et d’alimentation sophistiqué pour créer des diagnostics significatifs à partir des différentes pages vues lors de la session du visiteur.

Pour en savoir plus sur ce sujet, lisez l'article suivant provenant des archives du magazine  Intelligent Enterprise.



Ajouté le 7 janvier 2000:

J'ai eu un certain nombre de commentaires intéressants à propos de cet article. Plusieurs personnes m'ont demandé pourquoi j’ai recommandé un grain de table de faits d'un enregistrement = une session complète, alors que l’article publié le 5 Janvier 1999 sur Intelligent Enterprise recommande un grain au clic. Ces gens m'ont demandé si j'avais changé d'avis.

Non je n'ai pas changé d'avis, mais je comprends mieux le problème. Il y a au moins trois grains utile pour représenter des données de la session:
  1. un enregistrement = un clic. Ce niveau, décrit dans l'article d’Intelligent Enterprise, peut donner la carte détaillée et le parcours de chaque visiteur sur le site si vous conservez tous les enregistrements. Mais pour les sites très fréquentés, il y a trop de données. Vous passerez votre temps et votre argent à recueillir et stocker les données plutôt qu’à les analyser. Plusieurs personnes m'ont dit qu’avec des techniques statistiques d'échantillonnage, on pourrait, avec 1% du volume total de données, significativement décrire les habitudes d'utilisation qui conduirait à des décisions importantes concernant l'utilisation du site Web, même si tous les visiteurs n'étaient pas présents dans les données. J'aime beaucoup cette suggestion. Vous aurez probablement besoin d'un statisticien professionnel pour vous aider à choisir un petit échantillon solide de vos données.
  2. un enregistrement = une session visiteur. C'est la conception décrite dans cet article. Dans ce cas, vous pouvez raisonnablement couvrir l’ensemble des sessions de tous les visiteurs, même si vous ne voyez pas le parcours de navigation effectué sur le site. Mais vous pouvez faire des analyses approfondies de la démographie et de l’efficacité du site. Rappelez-vous que vous avez les dimensions : page d'entrée, page de sortie, et diagnostic de session
  3. un enregistrement = une page web par jour. Ce grain est l'une des possibilités d’agrégations qui peut être utile pour voir le schéma global des clics dans les différentes parties de votre site web. De toute évidence l'avantage de ce grain est la taille fortement réduite des données, mais comme toute table de faits agrégée, vous avez supprimé plusieurs dimensions comme « Visiteur » et « Diagnostic de session ».
Je suppose que la réponse à la question du grain, c'est que finalement vous les voulez tous. Tout comme la plupart des autres entrepôts de données que nous construisons.





Source originale: www.kimballgroup.com
Article original "Kimball Design Tip #1: Guidelines For An Expressive Clickstream Data Mart", publié le 15 décembre 1999.

Aucun commentaire:

Enregistrer un commentaire