lundi 24 février 2014

Conseil 61: Traiter toutes les dates

Il n'est pas exceptionnel d'identifier des douzaines de dates différentes, chacune ayant un sens métier qui doit être pris en compte dans la conception dimensionnelle. Par exemple, dans un établissement financier, vous pouvez avoir affaire à la date de dépôt, la date de retrait, la date de financement, consulter la date d'écriture, la date de traitement, la date d'ouverture de compte, la date de validité d'une carte, la date de lancement d'un produit, la date de début d'une promotion, la date de naissance d'un client, une plage de dates pour les chargements et l'état du mois.

La première chose à savoir est que toutes les dates ne sont pas créées et traitées de la même manière. Beaucoup de dates finissent comme clés étrangères de la dimension Date dans les tables de faits. La plupart des dates restantes deviennent des attributs d'autres dimensions. Enfin, certaines dates sont inclues dans la conception pour faciliter le traitement ETL et/ou les capacités d'audit.

lundi 17 février 2014

Conseil 59: Le profilage de données (ou data profiling)

Le profilage de données est une petite partie de l'entrepôt de données. Je suppose que la plupart d'entre nous pensent que c'est une tâche qui se fait après que les traitements ETL aient été construit. De ce point de vue, le profilage des données correspond à la recherche des petites anomalies présentes dans les données et qui pourraient être corrigées avant la production réelle de celles-ci. Trouver ces anomalies aiderait l'équipe décisionnelle à anticiper quelques surprises en production.

Durant l'année passée, j'ai longuement réfléchit aux processus ETL d'administration nécessaires pour construire un entrepôt de données. Peut être la plus grande révélation de ce travail fut de découvrir combien le profilage des données est sous estimé dans la majorité des projets décisionnels.

Qu'est ce que le profilage de données?

lundi 10 février 2014

Conseil 58: Le portail décisionnel

Le succès d'un système décisionnel dépend de la capacité qu'a l'organisation a en tirer de la valeur. De toute évidence, les gens doivent utiliser l'environnement pour que l'organisation puisse créer de la valeur. Puisque le portail décisionnel est le principal point d'interaction (le seul dans de nombreux cas), l'équipe décisionnelle doit veiller à ce que ca soit une expérience positive.

Trop souvent, la page d'accueil du portail décisionnel se concentre en grande partie sur l'historique de l'entrepôt de données, l'état actuel des processus de chargement, ou les membres de l'équipe décisionnelle. Ce sont des renseignements intéressants, mais généralement ce n'est pas ce que les utilisateurs recherchent. Le portail décisionnel est l'interface entre l'utilisateur et l'entrepôt de données. Il doit être conçu en fonction des besoins des utilisateurs avant tout. Il y existe deux concepts de base pour la conception de sites Web qui peuvent nous aider: la densité et la structure.

Densité
L'esprit humain peut recevoir une quantité incroyable d'informations. L'œil humain est capable de distinguer des images d'une résolution d'environ 530 pixels par pouce à une distance de 20 pouces (RN Clark). Comparez cela avec les pauvres 72 pixels par pouce des écrans d'ordinateurs classiques. Nos cerveaux traitent l'information rapidement à la recherche d'éléments pertinents. Cette combinaison de l'acuité visuelle et de la capacité mentale est ce qui a permis à nos ancêtres de se sortir des différentes menaces; des prédateurs pour les branches basses à un couteau dans une bagarre dans un bar. Le navigateur nous donne une telle plate-forme basse résolution que nous devons l'utiliser avec autant de soin et efficacement que possible. Cela signifie que nous devons remplir les pages du portail décisionnel avec le plus d'informations possible. Mais nous ne pouvons pas charger des centaines de descriptions et de liens désordonnés.

Structure
Notre cerveau peut saisir toutes ces informations que si elles sont organisées. Puisque la principale raison qui pousse les utilisateurs à venir sur ​​le portail décisionnel est de trouver des informations, un grand pourcentage de la page d'accueil devrait être consacré à la catégorisation des rapports et analyses standardisés d'une manière qui fait sens pour les gens. Généralement, nous trouvons que la meilleure organisation du portail décisionnel est autour des principaux processus métiers de l'organisation. Les catégories de processus métier permettent aux utilisateurs d'identifier rapidement le choix le plus pertinent. Dans chaque catégorie, il existe des sous-catégories, permettant à l'utilisateur d'analyser rapidement la page d'accueil pour trouver de l'information qui l'intéresse.

Par exemple, la page d'accueil du portail décisionnel d'une université pourrait contenir les catégories suivantes:


Admissions                       Employés                                           Finances
Anciens élèves                  Recrutement                                       Recherche


Chacun de ces liens renvoit vers une autre page qui fournit des éléments supplémentaires et des liens vers les rapports. Nous pouvons augmenter la densité de l'information en plaçant les sous catégories sur la page d'accueil:

Admissions                              Suivi des employés                              Recrutement
- Statistiques                            - Effectifs                                            - Inscription
- Offres et acceptation              - Avantages et vacances                     - Professeurs
- Aide financière                       -                                                        - Diplômes

Augmenter de la densité de cette manière permet de détailler chaque catégorie et d'affiner le choix de l'utilisateur avant qu'il clique. Une façon de tester votre page d'accueil est de mesurer le pourcentage de la page qui est visible (avec un navigateur en plein écran sur un écran de taille moyenne) et qui permet aux utilisateurs d'accèder à l'information. Il doit être d'au moins 50%. Certaines personnes affirment que la cible devrait être plus proche de 90%.

Plus de structure
Les catégories aident à structurer le contenu, mais le site web a également besoin d'être organisé correctement. Il a donc besoin d'un design standard, normalement basé sur la charte visuelle de l'organisation afin que les utilisateurs puissent naviguer facilement.

Plus de contenu
Bien que l'objectif premier du portail décisionnel est de fournir un accès aux rapports, il doit également montrer plus d'information. En plus des catégories et de la liste des rapports, nous avons besoin de fournir un accès à un ensemble d'outils et d'informations comprenant:
- un outil de recherche qui indexe chaque rapport, document et page du portail
- un navigateur de métadonnées
- une formation en ligne, des tutoriels, des exemples de rapports, une aide
- un formulaire de demande d'aide, et une liste de contacts
- les statuts, guides, sondages, installations et autres informations administratives
- peut être un outil de type forum, d'échange en ligne
- des fonctionnalités de personnalisation qui permettent aux utilisateurs de sauvegarder des rapports ou des liens vers ceux-ci dans leur propre page

Cette information se place en bas à droite de la page, l'endroit le moins important de l'écran.

Construire un portail décisionnel efficace représente une somme importante de travail, mais c'est le maillon clé dans la chaine de valeur de l'entrepôt de données. Chaque mot, entête, description, fonction et lien de ce portail doit pointer vers le contenu de l'entrepôt. Vous devriez passer en revue la conception et tester le portail avec les utilisateurs, demandez leur de trouver certains rapports et d'autres informations. Assurez-vous que vous ne construisez pas de lien bizarre.


Source originale: www.kimballgroup.com
Article original "Kimball Design Tip #58: The BI portal (also known as the data warehouse web site", publié le 26 août 2004.

lundi 3 février 2014

Conseil 57: Traiter les faits qui arrivent en avance

Les entrepôts de données sont généralement construits autour de l'hypothèse idéale que l'activité mesurée (les enregistrements des faits) arrive dans l'entrepôt de données en même temps que le contexte qui lui est associé (les enregistrements des dimensions). Lorsque nous avons à la fois les enregistrements des faits et ceux des dimensions corrects, nous avons le luxe de comptabiliser les clés de la dimension en premier, puis d'utiliser celles-ci dans les enregistrements de la table de faits qui l'accompagne.

Fondamentalement, trois choses peuvent se produire quand nous comptabilisons les enregistrements de la dimension.
  1. Si l'entité de la dimension (par exemple Client) est un nouveau membre de la dimension, nous attribuons une nouvelle clé de substitution dans la dimension.
  2. Si l'entité de la dimension est une version révisée d'un client, nous utilisons la technique de la dimension à évolution lente de type 2 pour attribuer une nouvelle clé de substitution et stocker la description du client qui a été mis à jour dans un nouvel enregistrement de la dimension.
  3. Enfin, si le client est un élément familier et inchangé de la dimension, nous utilisons simplement la clé de la dimension que nous avons déjà pour ce client.