lundi 13 janvier 2014

Conseil 53: Embellissement de dimension (mini-dimension et agrégation)

Lors du développement de modèles dimensionnels, nous nous efforçons de créer des tables de dimensions solides composées d'un ensemble d'attributs descriptifs. Plus les attributs que nous intégrons dans ces dimensions sont pertinents, plus les utilisateurs sont capables d'évaluer leurs activités par des voies nouvelles et créatives. Cela est particulièrement vrai lors de la construction d'une dimension centrée sur le client.

Nous vous encourageons à intégrer le capital intellectuel dans les modèles dimensionnels. Plutôt que d'appliquer des règles métiers aux données au niveau de l'analyse (souvent en utilisant Excel), les dérivations et les regroupements nécessaires par l'entreprise doivent être capturés dans les données pour qu'elles soient cohérentes et facilement partagées entre les analystes indépendamment de leurs outils. Bien sûr, cela nécessite de comprendre ce que l'entreprise fait avec les données avant et après leurs capture dans la source opérationnelle. Cependant, c'est grâce à cette compréhension et l'ajout d'attributs dérivés (et de mesures) que l'entrepôt de données apporte une valeur ajoutée.


Comme nous fournissons une grande variété d'éléments facilitant les analyses dans la dimension Client, nous devenons parfois victimes de notre propre succès: inévitablement, l'entreprise veut suivre l'évolution de tous ces attributs intéressants. En supposant que nous avons une dimension Client avec des millions de lignes, nous devons utiliser des mini-dimensions pour suivre l'évolution de ses attributs. Notre vieil ami, la technique de la dimension à évolution lente de type 2, n'est pas efficace ici en raison du grand nombre de lignes supplémentaires nécessaires pour capturer tous les changements.

Une mini-dimension utilise une (ou plusieurs) dimension distincte pour les attributs qui changent fréquemment. Nous pourrions construire un mini-dimension pour les attributs démographiques des clients, comme propriétaire/locataire, la présence d'enfants, et le niveau de revenu. Cette dimension devrait contenir une ligne pour chaque combinaison unique de ces attributs observée dans les données. Les attributs statiques ou qui changent moins souvent sont conservés dans la grande dimension Client de base. La table de faits capture la relation entre la dimension Client de base et la mini-dimension Démographie au moment où les lignes de faits sont chargés.

Il n'est pas rare pour les organisations traitant des données au niveau des consommateurs de créer une série de mini-dimensions connexes. Une organisation de services financiers pourrait avoir des mini-dimensions pour les scores des clients, les statuts de la délinquance, les segmentations comportementales et les attributs du bureau de crédit. Les mini-dimensions appropriées ainsi que la dimension Client de base sont liées entre elles par la relation entre leurs clés étrangères présente dans les lignes de la table de faits. Les mini-dimensions suivent efficacement les changements et fournissent également de plus petits points d'entrée dans les tables de faits. Elles sont particulièrement utiles lorsque l'analyse ne nécessite pas de détail spécifique du consommateur.

Les utilisateurs veulent souvent analyser les clients sans faire appel aux métriques d'une table de faits, cela est le cas lorsqu'on compare le nombre de clients selon des critères d'attributs spécifiques. Dans ce cas, il est souvent avantageux d'inclure les clés de substitution actuelles des mini-dimensions dans la dimension Client de base pour faciliter l'analyse sans avoir recours à la table de faits. Une vue de la base de données simple ou une vue matérialisée fournit une image complète de la vue à date de la dimension Client. Dans ce cas, veillez à ne pas considérer les clés de substitution des mini-dimensions comme des attributs à évolution lente de type 2. Sinon, cela vous ramènera au début, avec une grande dimension Client qui croit très rapidement à cause des changements de type 2 trop fréquents.

Un autre embellissement de dimension est d'ajouter des mesures de performance agrégées à la dimension Client, comme le total des achats nets de l'année précédente. Alors que, normalement,  nous considérons les indicateurs de performance comme devant être traités comme des faits dans des tables de faits (et ils devraient certainement être là!), nous les plaçons dans la dimension afin de faciliter les contraintes et leur restitution, et non pour une utilisation dans des calculs numériques. Les utilisateurs métiers apprécieront l'ajout de ces mesures pour les analyses. Bien sûr, placer ces attributs dans notre table de dimension impose des exigences supplémentaires sur le système. Nous devons veiller à ce que ces attributs agrégés soient exacts et cohérents.

Une alternative et/ou une approche complémentaire pour stocker les métriques de performance agrégés actuels, est le regroupement de celles-ci dans des plages de valeurs ou des segments, tels que l'identification d'un client de carte de crédit par le solde de son compte. Cela est susceptible d'être d'une plus grande valeur lors de l'analyse que les valeurs cumulées réelles et a l'avantage supplémentaire d'assurer une définition du segment cohérente dans toute l'organisation. Cette approche fonctionne particulièrement bien lorsqu'elle est combinée avec la technique de la mini-dimension.



Source originale: www.kimballgroup.com
Article original "Kimball Design Tip #53: Dimension embellishments", publié le 24 mars 2004.

Aucun commentaire:

Enregistrer un commentaire