Le
clickstream (que l’on pourrait traduire par « flot de
clics » ou « parcours de navigation ») désigne le chemin
parcouru par un visiteur, de clics en clics, de son entrée à sa sortie d’un
site Internet. En termes de données brutes, cela veut dire qu’il y a un
enregistrement pour chaque clic effectué par le visiteur. Le parcours de
navigation contient donc de nombreuses informations sur le comportement d‘un
visiteur sur le site. (Source definition clickstream :
http://www.definition-marketing.net/clickstream/)
La
quantité de donnée recueillit est énorme. Même modérément occupé, un site
e-commerce peut générer 100 millions d’enregistrement chaque jour. Nous devons donc
réduire le volume de données à des proportions gérables pour nos analyses les
plus importantes. Dans cet article nous chercherons un moyen d’éviter
d’explorer les 100 millions d’enregistrement, tout en gardant un niveau de
détail utile pour analyser le comportement des visiteurs.
Dans
les données recueillies, il ya des éléments d'un certain nombre de dimensions
intéressantes : la date du jour, l’heure du jour, le visiteur, la page
demandée, le contexte associé (ce que contenait la page précédente), et
l'action (soit essentiellement recevoir de l’information du serveur ou envoyer
de l’information au serveur).
Le
grain recommandé de la table de faits « comportement visiteur »
est : un enregistrement = une session visiteur.
Si
une session moyenne se compose de 20 évènements (ou clics), alors le nombre
d'enregistrements dans la table de faits de notre exemple est réduite à 5
millions par jour (100 millions / 20), ce qui est comparable aux entrepôts de
données des commerces de taille moyenne.
Les
dimensions recommandées pour cette table de faits sont :
- Date serveur (date du jour sur le serveur)
- Heure serveur (nombres de secondes depuis minuit sur le serveur marquant le début de la session)
- Date visiteur (date du jour telle qu'elle est vécue par le visiteur)
- Heure visiteur (nombre de secondes depuis minuit chez l’utilisateur qui marque le début de la session)
- Visiteur (mettre un nom générique «visiteur» pour les visiteurs anonymes, un nom unique généré par le système pour les visiteurs non inscrits qui ont acceptés un cookie, et le vrai nom pour les visiteurs enregistrés)
- Page de démarrage (l'identité de la première page de la session: la page qui a attiré les visiteurs sur votre site)
- Page de fin (l’identité de la dernière page de session: c'est peut-être un tueur de session)
- Contexte associé (l'URL de la page précédente, si disponible)
- Diagnostic de session (un simple tag descriptif indiquant quel type de session était ce)
Les
faits recommandés dans cette conception sont les suivants:
- Nombre de pages visitées
- Durée de la session (celui-ci ne reflète pas forcément la durée réelle du visiteur puisque nous ne pouvons pas connaitre l’activité réelle du visiteur, par exemple si celui-ci va voir un autre site et revient sur le votre)
Ce
modèle peut être une base très puissante à partir de laquelle on peut évaluer
le comportement des visiteurs sur un site web. La dimension la plus importante
est la dimension « Diagnostic de session ». Vous devez avoir un
processus d’identification et d’alimentation sophistiqué pour créer des diagnostics
significatifs à partir des différentes pages vues lors de la session du
visiteur.
Pour
en savoir plus sur ce sujet, lisez l'article
suivant
provenant des archives du magazine
Intelligent Enterprise.
Ajouté
le 7 janvier 2000:
J'ai
eu un certain nombre de commentaires intéressants à propos de cet article.
Plusieurs personnes m'ont demandé pourquoi j’ai recommandé un grain de table de
faits d'un enregistrement = une session complète, alors que l’article publié le
5 Janvier 1999 sur Intelligent
Enterprise
recommande un grain au clic. Ces gens m'ont demandé si j'avais changé d'avis.
Non
je n'ai pas changé d'avis, mais je comprends mieux le problème. Il y a au moins
trois grains utile pour représenter des données de la session:
- un enregistrement = un clic. Ce niveau, décrit dans l'article d’Intelligent Enterprise, peut donner la carte détaillée et le parcours de chaque visiteur sur le site si vous conservez tous les enregistrements. Mais pour les sites très fréquentés, il y a trop de données. Vous passerez votre temps et votre argent à recueillir et stocker les données plutôt qu’à les analyser. Plusieurs personnes m'ont dit qu’avec des techniques statistiques d'échantillonnage, on pourrait, avec 1% du volume total de données, significativement décrire les habitudes d'utilisation qui conduirait à des décisions importantes concernant l'utilisation du site Web, même si tous les visiteurs n'étaient pas présents dans les données. J'aime beaucoup cette suggestion. Vous aurez probablement besoin d'un statisticien professionnel pour vous aider à choisir un petit échantillon solide de vos données.
- un enregistrement = une session visiteur. C'est la conception décrite dans cet article. Dans ce cas, vous pouvez raisonnablement couvrir l’ensemble des sessions de tous les visiteurs, même si vous ne voyez pas le parcours de navigation effectué sur le site. Mais vous pouvez faire des analyses approfondies de la démographie et de l’efficacité du site. Rappelez-vous que vous avez les dimensions : page d'entrée, page de sortie, et diagnostic de session
- un enregistrement = une page web par jour. Ce grain est l'une des possibilités d’agrégations qui peut être utile pour voir le schéma global des clics dans les différentes parties de votre site web. De toute évidence l'avantage de ce grain est la taille fortement réduite des données, mais comme toute table de faits agrégée, vous avez supprimé plusieurs dimensions comme « Visiteur » et « Diagnostic de session ».
Source originale: www.kimballgroup.com
Article original "Kimball Design Tip #1: Guidelines For
An Expressive Clickstream Data Mart", publié le 15 décembre 1999.
Aucun commentaire:
Enregistrer un commentaire