ETL incrémental

ETL non incrémental

Un ETL non incrémental est :

  • soit un ETL qui ne sert qu'une seule fois (one shot) ;

  • soit un ETL qui refait 100% du processus de migration à chaque fois que l'on souhaite une mise à jour (le data warehouse est vidé puis rempli à nouveau avec les données actuelles)

    On notera qu'un tel ETL ne gère pas d'historisation.

ETL incrémental

Un ETL instrumente normalement un processus incrémental.

  1. Les données sont modifiées dans les systèmes transactionnels :

    • mise à jour des dimensions ;

    • ou ajouts de nouveaux faits.

  2. L'ETL répercute les mises à jour dans le data warehouse.

Accumulation des faits

Classiquement les faits s'accumulent dans le data warehouse, il n'y a jamais ni suppression ni mise à jour (croissance monotone).

Historisation des dimensions

Lorsqu'une dimension est mise à jour, l'ETL doit garder la mémoire des anciennes valeurs afin que les anciens faits restent bien reliés aux anciennes valeurs.

Ils existent plusieurs stratégies pour gérer l'historique des valeurs des dimensions dans le DW :

  • associer des dates aux dimensions et aux faits afin de savoir quelle valeur de dimension est valide pour quel fait ;

  • créer de nouvelles entrées dans les dimensions (ne pas faire de mise à jour au sens d'UPDATE) ;

  • ...

Stratégies de mise à jour

  • Rafraîchissement périodique

  • Rafraîchissement manuel

  • Rafraîchissement événementiel

  • ...

AccueilPrincipes généraux d'un processus ETL > ETL incrémental< PrécédentSuivant >