lundi 31 mars 2014

Conseil 66: Répondre à la paralysie de l'analyse

De nombreuses équipes en charge de l'entrepôt de données penchent fortement vers le côté pratique. Ils passent rapidement à la mise en œuvre sans passer assez de temps et d'énergie à développer leurs modèles de données, à identifier minutieusement les règles métiers, ou à planifier leurs processus de réconciliation des données. Par conséquent, ils chargent à toute vitesse et finissent par revoir leurs processus, fournissant au passage des données incorrectes ou incomplètes, et entraînant généralement des difficultés.

D'autres équipes ont le défi inverse. Ces équipes se sont engagées à faire leurs devoirs dans tous les domaines critiques. Ils sont concentrés sur la qualité des données, la cohérence, l'exhaustivité et l'administration. Cependant, ces équipes s'enlisent parfois dans des problèmes qui auraient dû être résolus depuis longtemps. Bien sûr, cette impasse se produit au pire moment - les dates de mise en œuvre promises approchent rapidement et les décisions de conception qui devaient être prisent lors de la mise en œuvre restent en suspens.

lundi 24 mars 2014

Conseil 65: Documentez votre système ETL

Que vous utilisiez un outil ETL ou codiez à la main votre système d'ETL, celui-ci est un logiciel comme les autres qui doit être documenté. De même que votre entrepôt de données évolue, le système ETL évolue également, et vous et vos collègues devez être en mesure de comprendre rapidement l'ensemble de l'architecture du système ainsi que ses petits détails.

Il ya un mythe répandu affirmant que les outils ETL sont auto-documentés. Ceci n'est vrai que pour la comparaison avec les systèmes développés manuellement. N'adhérez pas à ce mythe: vous avez besoin de développer une architecture globale et cohérente pour votre système ETL. Et vous devez documenter ce système. Oui , rédiger un document.

lundi 17 mars 2014

Conseil 64: Eviter l'isolation entre les équipes décisionnelles

Peut-être est-ce juste une coïncidence, mais plusieurs personnes ont posé la même question récemment: "Est ce que l'équipe décisionnelle devrait récolter les exigences des métiers?" Honnêtement, cette question me fait froid dans le dos. Je crains que beaucoup d'organisations aient trop compartimentées leurs équipes décisionnelles et celles en charge de l'entrepôt de données.

lundi 10 mars 2014

Conseil 63: Construire un système qui capte les changements de données

Le flux de données ETL commence par transférer les données les plus récentes de la source dans l'entrepôt de données. Dans presque tous les entrepôts de données, nous devons transférer que les modifications pertinentes de la source de données depuis le dernier transfert. Rafraichir complètement nos tables de faits et nos dimensions est généralement inopportun.

L'activité d'isoler les dernières données de la source s'appelle "la capture de données". L'idée derrière cela semble assez simple: il suffit de transférer les données qui ont été modifiées depuis le dernier chargement. Mais la construction d'un bon système de capture de données n'est pas aussi facile qu'il n'y paraît.

lundi 3 mars 2014

Conseil 62: Hiérarchies alternatives

De nombreux utilisateurs demandent souvent à voir des données groupées de différentes façons. Dans le cas le plus simple, un service, comme le marketing, veut voir les clients regroupés selon une hiérarchie donnée et un autre service, comme le commercial, veut les voir dans une hiérarchie différente. Lorsque c'est simple, il est logique d'inclure les deux hiérarchies dans la dimension Client et de les nommer distinctement. Malheureusement, il est possible de construire de nombreuses hiérarchies dans une dimension avant que cela  ne devienne inutilisable.

La nécessité d'adapter de manière plus souple les hiérarchies alternatives se produit donc lorsque plusieurs services veulent voir les choses à leur façon, et veulent voir cela de plusieurs manières. Dans ce cas, nous travaillons généralement avec les utilisateurs pour définir le moyen le plus courant de regrouper les données. Cela devient ensuite la norme ou la hiérarchie par défaut dans la dimension de base. Toutes les autres hiérarchies couramment utilisées sont également intégrées dans la dimension afin de simplifier le travail des utilisateurs.

Nous proposons ensuite une table de hiérarchie alternative qui permet aux utilisateurs de manipuler les données en fonction de leur choix et des hiérarchies alternatives disponibles. La figure ci-dessous montre un exemple d'une table intermédiaire de hiérarchie alternative appelée CustomerRegionHierarchy pour aligner les régions géographiques.
Chaque hiérarchie de la table des hiérarchies alternatives doit inclure toute la hiérarchie de son attribut le plus fin, qui sert de jointure avec la dimension associée, à celui le plus haut. Dans le cas illustré ici, la hiérarchie commence au niveau de l'état (State) et remonte à partir de ce point. Il est également possible de commencer à un niveau de détail plus fin, le code postal par exemple, mais cela rendrait la table intermédiaire plus grosse et n'apporterait pas d'avantages supplémentaires. D'un autre coté, s'il y a besoin de créer des groupes de codes postaux dans les états, la table hiérarchique intermédiaire doit évidemment commencer au niveau du code postal.

Pour simplifier les rapports et analyses, la table intermédiaire inclue la définition de la hiérarchie standard. Ce choix devient alors celui par défaut dans tous les rapports structurés, permettant aux utilisateurs de changer ensuite entre la hiérarchie standard et les hiérarchies alternatives. La création d'une table Hiérarchie séparée simplifie la maintenance en ayant une ligne par hiérarchie, mais accroit la complexité visuelle. Cette table peut également être dénormalisée dans la table intermédiaire.

La table CustomerRegionHierarchy peut être utilisée dans les rapports structurés ou par les utilisateurs avancés. La jointure avec la table Client entrainera des cumuls inexacts à moins que le champ HierarchyName soit filtré sur une hiérarchie unique. Tous les rapports structurés qui ont accès à la table des hiérarchies alternatives peuvent être construit en utilisant la hiérarchie par défaut et devraient posséder un filtre choisir une seule hiérarchie.

La table des hiérarchies alternatives est un exemple de valeur ajoutée dans un entrepôt de données. Ce genre de regroupement personnalisé est couramment utilisé par les métiers, mais les définitions sont rarement centralisées et gérées de manière formelle. Habituellement, elles sont stockées dans un fichier Excel sur un ordinateur personnel.


Source originale: www.kimballgroup.com
Article original "Kimball Design Tip #62: Alternate hierarchies", publié le 7 décembre 2004.