L'ETL Datastage

Cours

Objectifs
Introduction
Cours sur Datastage
- Introduction
- Les clients Datastage
- Stages à connaître
TP/Exercices
Conclusion

Stages à connaître

Les stages disposent tous d'une interface graphique permettant de spécifier leurs paramètres. Ceux-ci sont très importants et définissent le comportement du stage.

Seule une poignée de stages sont décrits ci-dessous aussi est-il conseillé de se renseigner sur les autres disponibles ici.

Fichiers, entrées/sorties

Sequential File

Le stage Sequential File permet de lire ou d'écrire un fichier plat. Il est possible de spécifier en paramètres le format des données lues ou écrites en précisant notamment le séparateur, la présence ou non d'en-têtes ... Voir plus.

Data Set

Le stage Data Set permet de lire ou d'écrire dans des "data sets". Il s'agit là d'un format de stockage de données qui offre de bonnes performances sous Datastage. Les data sets sont associés à un fichier de contrôle dont l'extension est en ".ds" par convention. Voir plus.

Oracle Connector Stage

Le stage Oracle Connector permet de lire ou d'écrire une table d'une base Oracle. Il existe des stages pour de nombreuses autres bases de données (Sybase pour ne citer que). Voir plus.

Traitement des données

Transformer stage

Le stage Transformer permet de réaliser de nombreuses opérations de transformations sur les données. Voir plus.

Attention :

Le transformer, directement interprété en C++, est un stage "lourd" en termes de temps de traitement. Il peut effectuer de nombreuses opérations réalisables avec d'autres stages moins gourmands aussi est-il conseillé de réduire le nombre de transformer autant que possible.

Join Stage

Le stage Join permet la jointure de flux de données selon une ou plusieurs clés. Les types de jointure, à spécifier dans les paramètres, se retrouvent dans le langage SQL : jointures internes (INNER) et externes (LEFT, RIGHT et FULL OUTER Join). Voir plus.

Lookup Stage

Le stage Lookup permet de réaliser des opérations de lookup entre deux flux de données (le flux référence et le flux d'entrée). Une ou plusieurs clé(s) de lookup doivent être définies et vont décider des données autorisées à passer en output : pour chaque clé du flux d'entrée qui "matche" la clé du flux de référence, les données choisies pour le flux de sortie sont autorisées à passer, tandis que celles qui ne "matchent" pas sont rejetées (elles peuvent être récupérées grâce à un lien de rejet).

Accueil

Imprimer Sélim Zénagui, 2013