Exercice : Explications [Introduction à l'optimisation]

Fichier CSV des départements français (95 lignes)

Extrait des premières lignes du fichier :

CTRL+C pour copier, CTRL+V pour coller

numero,nom,pop
1,Ain,529
2,Aisne,552
3,Allier,357
4,Alpes-de-Haute-Provence,145
5,Hautes-Alpes,127
6,Alpes-Maritimes,1023
7,Ardèche,295
8,Ardennes,299
9,Ariège,143

numero,nom,pop
1,Ain,529
2,Aisne,552
3,Allier,357
4,Alpes-de-Haute-Provence,145
5,Hautes-Alpes,127
6,Alpes-Maritimes,1023
7,Ardèche,295
8,Ardennes,299
9,Ariège,143

Fichier CSV des villes françaises (36700 lignes)

Fichier des communes françaises [zip]

Extrait des premières lignes du fichier :

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

codeinsee,departement,nom,pop2010,pop1999
1284,1,Ozan,618,469
1123,1,Cormoranche-sur-Saône,1058,903
1298,1,Plagne,129,83
1422,1,Tossiat,1406,1111
1309,1,Pouillat,88,58
1421,1,Torcieu,698,643
1320,1,Replonges,3500,2841
1119,1,Corcelles,243,222
1288,1,Péron,2143,1578

codeinsee,departement,nom,pop2010,pop1999
1284,1,Ozan,618,469
1123,1,Cormoranche-sur-Saône,1058,903
1298,1,Plagne,129,83
1422,1,Tossiat,1406,1111
1309,1,Pouillat,88,58
1421,1,Torcieu,698,643
1320,1,Replonges,3500,2841
1119,1,Corcelles,243,222
1288,1,Péron,2143,1578

Question

Instancier la base de données Postgres permettant de gérer ces fichiers.

Solution

VACUUM

Exécutez la commande ci-après, on observe seulement 21300 lignes collectées, là ou 36700 étaient attendues.

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT * FROM ville;

EXPLAIN
SELECT * FROM ville;

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                        QUERY PLAN
-----------------------------------------------------------
 Seq Scan on ville  (cost=0.00..497.00 rows=21300 width=32)

                        QUERY PLAN
-----------------------------------------------------------
 Seq Scan on ville  (cost=0.00..497.00 rows=21300 width=32)

Question

Expliquez pourquoi et proposez une solution.

Indice

Solution

Projection

Exécutez la commande ci-après permettant de projeter le nom des villes.

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT nom FROM ville;

EXPLAIN
SELECT nom FROM ville;

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                        QUERY PLAN
-----------------------------------------------------------
 Seq Scan on ville  (cost=0.00..651.00 rows=36700 width=12)

                        QUERY PLAN
-----------------------------------------------------------
 Seq Scan on ville  (cost=0.00..651.00 rows=36700 width=12)

Question

Quelle différence observez-vous avec le plan de la requête SELECT * FROM ville ? Expliquez.

Solution

Restriction et tri

Exécutez les commande ci-après permettant respectivement de faire une restriction et un tri sur le nom des villes.

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT nom FROM ville
WHERE nom='Compiègne';

EXPLAIN
SELECT nom FROM ville
WHERE nom='Compiègne';

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                      QUERY PLAN                       
-------------------------------------------------------
 Seq Scan on ville  (cost=0.00..742.75 rows=1 width=12)
   Filter: ((nom)::text = 'Compiègne'::text)

                      QUERY PLAN                       
-------------------------------------------------------
 Seq Scan on ville  (cost=0.00..742.75 rows=1 width=12)
   Filter: ((nom)::text = 'Compiègne'::text)

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT nom FROM ville
ORDER BY nom;

EXPLAIN
SELECT nom FROM ville
ORDER BY nom;

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                           QUERY PLAN                            
-----------------------------------------------------------------
 Sort  (cost=3433.50..3525.25 rows=36700 width=12)
   Sort Key: nom
   ->  Seq Scan on ville  (cost=0.00..651.00 rows=36700 width=12)

                           QUERY PLAN                            
-----------------------------------------------------------------
 Sort  (cost=3433.50..3525.25 rows=36700 width=12)
   Sort Key: nom
   ->  Seq Scan on ville  (cost=0.00..651.00 rows=36700 width=12)

Question

Qu'observez-vous ? Proposez une solution pour améliorer ces deux requêtes. Mesurez le gain apporté par la solution. Notez les éventuels inconvénient apportés par la solution.

Solution

Les coûts sont augmenté car il faut faire des recherches dans le champ nom. On peut optimiser ces requêtes en indexant ce champ.

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

CREATE INDEX idxnom ON ville(nom);

CREATE INDEX idxnom ON ville(nom);

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT nom FROM ville
WHERE nom='Compiègne';

EXPLAIN
SELECT nom FROM ville
WHERE nom='Compiègne';

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                               QUERY PLAN                                
-------------------------------------------------------------------------
 Index Only Scan using idxnom on ville  (cost=0.29..4.31 rows=1 width=12)
   Index Cond: (nom = 'Compiègne'::text)

                               QUERY PLAN                                
-------------------------------------------------------------------------
 Index Only Scan using idxnom on ville  (cost=0.29..4.31 rows=1 width=12)
   Index Cond: (nom = 'Compiègne'::text)

Le coût dans le pire cas a été réduit de 742 à 4,3 (gain d'un facteur 172).
On notera que le coût minimum, dans le cas où Compiègne est la première ville de la table est augmenté de 0 à 0,29 (c'est le coût fixe de l'accès à l'index). C'est ici une perte négligeable par rapport au gain dans le pire cas et qui ne se produira que dans des cas très rares.
On ne mesure pas ici les autres inconvénients de l'indexation (temps de mise à jour, espace disque complémentaire).

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT nom FROM ville
ORDER BY nom;

EXPLAIN
SELECT nom FROM ville
ORDER BY nom;

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

                                   QUERY PLAN                                   
--------------------------------------------------------------------------------
 Index Only Scan using idxnom on ville  (cost=0.29..1130.79 rows=36700 width=12)

                                   QUERY PLAN                                   
--------------------------------------------------------------------------------
 Index Only Scan using idxnom on ville  (cost=0.29..1130.79 rows=36700 width=12)

Le coût pour récupérer la première ligne passe de 3433 à 0,29 (qui est le coût de l'accès à l'index). Il y a donc un gain très important, qui est intéressant si l'on souhaite transmettre les noms des villes progressivement et dans l'ordre du tri.
Le coût pour récupérer toutes les lignes passent de 3525 à 1130 (gain d'un facteur 3,1).

Jointure

Exécutez la commande ci-après permettant de faire une jointure.

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

EXPLAIN
SELECT v.nom, d.nom
FROM ville v JOIN dpt d
ON v.departement = d.numero;

EXPLAIN
SELECT v.nom, d.nom
FROM ville v JOIN dpt d
ON v.departement = d.numero;

Ligne | num. | copie |

CTRL+C pour copier, CTRL+V pour coller

Hash Join  (cost=3.14..1136.96 rows=34520 width=22)
   Hash Cond: (v.departement = d.numero)
   ->  Seq Scan on ville v  (cost=0.00..651.00 rows=36700 width=16)
   ->  Hash  (cost=1.95..1.95 rows=95 width=13)
         ->  Seq Scan on dpt d  (cost=0.00..1.95 rows=95 width=13)

Hash Join  (cost=3.14..1136.96 rows=34520 width=22)
   Hash Cond: (v.departement = d.numero)
   ->  Seq Scan on ville v  (cost=0.00..651.00 rows=36700 width=16)
   ->  Hash  (cost=1.95..1.95 rows=95 width=13)
         ->  Seq Scan on dpt d  (cost=0.00..1.95 rows=95 width=13)

Question

Indexez la clé étrangère v.departement. Observez-vous pas de gain ? Expliquez.

Solution

Question

À partir des plans précédents, calculez le gain qu'apporterait une dénormalisation à cette jointure.

Introduction à l'optimisation des bases de données

Explications

Fichier CSV des départements français (95 lignes)

Fichier CSV des villes françaises (36700 lignes)

Question

Solution

Remarque :

VACUUM

Question

Indice

Solution

Projection

Question

Solution

Restriction et tri

Question

Solution

Jointure

Question

Solution

Question

Solution