lundi 28 janvier 2013

Conseil 3: Concentrez-vous sur les processus


Une des erreurs les plus répandues dans notre métier est que les datamarts sont souvent définis par service. Nous avons vu d'innombrables schémas d’entrepôts de données  étiquetés "Datamart marketing", "Datamart vente", et "Datamart finance". Après avoir examiné les exigences opérationnelles de ces services, vous découvrirez inévitablement que ces trois services souhaitent les mêmes informations de base, telles que les données des commandes. Plutôt que de construire un datamart "Marketing" qui comprend les commandes, puis un datamart "Vente" avec ces mêmes commandes, etc, vous devez construire un seul datamart "Commandes", détaillé, avec un accès pour les différents services.

lundi 21 janvier 2013

Conseil 2: Représenter plusieurs dates à partir d'une seule dimension


La question la plus fréquente dans mes cours et e-mails est de savoir comment gérer plusieurs timestamp sur un enregistrement d'une table de faits. Bien que la réponse correcte et immédiate est « faites de chaque timestamp, une dimension Temps », il est utile de décrire cette approche avec précaution car elle illustre bien tout un ensemble de techniques modernes de conception d'entrepôt, sur lesquels je mettrais l'accent en MAJUSCULES.

dimanche 13 janvier 2013

Conseil 1: Recommendation pour la modélisation du datamart de suivi d'une session d'un visiteur sur un site internet


Le clickstream (que l’on pourrait traduire par « flot de clics » ou « parcours de navigation ») désigne le chemin parcouru par un visiteur, de clics en clics, de son entrée à sa sortie d’un site Internet. En termes de données brutes, cela veut dire qu’il y a un enregistrement pour chaque clic effectué par le visiteur. Le parcours de navigation contient donc de nombreuses informations sur le comportement d‘un visiteur sur le site. (Source definition clickstream : http://www.definition-marketing.net/clickstream/)

La quantité de donnée recueillit est énorme. Même modérément occupé, un site e-commerce peut générer 100 millions d’enregistrement chaque jour. Nous devons donc réduire le volume de données à des proportions gérables pour nos analyses les plus importantes. Dans cet article nous chercherons un moyen d’éviter d’explorer les 100 millions d’enregistrement, tout en gardant un niveau de détail utile pour analyser le comportement des visiteurs.