Zone T : Transformation

DéfinitionBase de données de transformation

La BDT[1] est une BD[2] relationnelle ou relationnel-objet destinée à implémenter la zone de transformation d'un ETL.

  • Elle reçoit une copie des données issue de la zone E.

  • Elle permet les transformations des données.

  • Elle offre un accès aux données transformées via une API permettant une copie vers la zone L.

DéfinitionAPI de la BDT

L'API de la BDT est un ensemble de fonctions - ou méthodes si l'on dispose d'un SGBDRO[3] qui les autorise - qui permet d'accéder aux données de façon stable (principe d'encapsulation).

L'API de la BDT permet de rendre le chargement du data warehouse moins dépendant aux variations dans les sources de données.

Le principe proposé est le suivant :

  • Créer une fonction pour chaque attribut existant dans la data warehouse.

  • Appeler ces fonctions lors du chargement du data warehouse, au lieu d'appeler directement les attributs des tables de la BDT.

  • Chaque fonction est en charge d'appeler les attributs de la BDT et de faire les traitements nécessaires pour fournir la valeur souhaitée.

ExempleExemple d'appel à l'API de la BDT en RO

1
SELECT t.fpk(), t.fdate(), t.fjds(), t.fmois(), t.ftrimestre() 
2
FROM t_date t

FondamentalStructure de la zone T

La zone T est donc composée  :

  • d'une BDT dont le schéma correspond à un schéma transactionnel représentant l'intégration des différentes sources (il est similaire à celui de la zone E).

  • d'une API permettant d'accéder aux données (et d'exécuter des transformation)

Attention

On notera que la zone de transformation copie depuis la zone d'extraction les données en l'état, sans transformation. Donc elle contient des données encore "sales".

En revanche, les données qui sortent de cette zone pour aller vers la zone d'analyse - les données disponibles via l'API - sont traitées et donc "propres".

MéthodeTransformation simple

Les transformations simples, typiquement qui ne nécessitent qu'un seul enregistrement en entrée, seront effectuées directement et dynamiquement par les fonctions de l'API (ou des fonctions appelées par celles-ci).

MéthodeTransformations complexes

Les transformations plus complexes devront être réalisées par des procédures exécutées en batch après le chargement de la BDT.

Elle produiront des données complémentaires stockées dans la BDT.

MéthodeVues

Les vues doivent être utilisées pour unifier (UNION) ou joindre (JOIN) les différentes tables physiques qui représentent une même donnée logique.

Les vue matérialisées peuvent être utilisées et rafraîchies à chaque mise à jour de la zone T.

MéthodeGestion des contraintes

Les contraintes de la zone T doivent être compatibles avec les données sources afin de :

  • laisser passer 100% des données depuis la zone E (sans contrainte) vers la zone T (avec contrainte) ;

  • s'assurer le maximum d'information sur la nature de données

Si les contraintes sont trop relâchées, il faudra faire des vérifications inutiles pour contrôler des données, qui en fait avaient déjà les propriétés souhaitées.

Si les contraintes sont trop fortes, toutes les données ne passeront pas.