Une des erreurs les plus répandues dans notre
métier est que les datamarts sont souvent définis par service. Nous avons vu
d'innombrables schémas d’entrepôts de données étiquetés "Datamart marketing", "Datamart vente", et "Datamart
finance". Après avoir examiné les exigences opérationnelles de ces services,
vous découvrirez inévitablement que ces trois services souhaitent les mêmes informations
de base, telles que les données des commandes. Plutôt que de construire un datamart "Marketing" qui comprend les commandes, puis un datamart "Vente" avec ces mêmes commandes, etc, vous devez construire un seul datamart "Commandes", détaillé, avec un accès pour les différents services.
lundi 28 janvier 2013
lundi 21 janvier 2013
Conseil 2: Représenter plusieurs dates à partir d'une seule dimension
La question la plus fréquente dans mes cours et e-mails est de savoir
comment gérer plusieurs timestamp sur un enregistrement d'une table de faits. Bien que la réponse correcte et immédiate est
« faites de chaque timestamp, une dimension Temps », il est utile de
décrire cette approche avec précaution car elle illustre bien tout un ensemble de
techniques modernes de conception d'entrepôt, sur lesquels je mettrais l'accent
en MAJUSCULES.
dimanche 13 janvier 2013
Conseil 1: Recommendation pour la modélisation du datamart de suivi d'une session d'un visiteur sur un site internet
Le
clickstream (que l’on pourrait traduire par « flot de
clics » ou « parcours de navigation ») désigne le chemin
parcouru par un visiteur, de clics en clics, de son entrée à sa sortie d’un
site Internet. En termes de données brutes, cela veut dire qu’il y a un
enregistrement pour chaque clic effectué par le visiteur. Le parcours de
navigation contient donc de nombreuses informations sur le comportement d‘un
visiteur sur le site. (Source definition clickstream :
http://www.definition-marketing.net/clickstream/)
La
quantité de donnée recueillit est énorme. Même modérément occupé, un site
e-commerce peut générer 100 millions d’enregistrement chaque jour. Nous devons donc
réduire le volume de données à des proportions gérables pour nos analyses les
plus importantes. Dans cet article nous chercherons un moyen d’éviter
d’explorer les 100 millions d’enregistrement, tout en gardant un niveau de
détail utile pour analyser le comportement des visiteurs.
Inscription à :
Articles (Atom)