Elasticsearch - Recherche et analyse de texte

Cours

défilement haut

Objectifs
Introduction
Théorie >
Pratique v
- Rappel - Installation Elasticsearch + Kibana/Sense
- Création d'un nouvel index et chargement des données
- Exercice : Analyse d'une base de comics

défilement bas

Masquer le plan

Afficher le plan

Analyse d'une base de comics

Nous possédons une base de personnages de comics avec des textes de description. Le mapping par défaut est le suivant :

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

{
  "mappings": {
    "characters": {
      "properties": {
        "characters": {
          "type": "string",
          "index": "not_analyzed"
        },
        "description": {
          "type": "string",
          "index": "not_analyzed"
        }
      }
    }
  }
}

{
  "mappings": {
    "characters": {
      "properties": {
        "characters": {
          "type": "string",
          "index": "not_analyzed"
        },
        "description": {
          "type": "string",
          "index": "not_analyzed"
        }
      }
    }
  }
}

Chaque données est constitué de deux champs :

"character" : Le nom du personnage
"description" : Le texte de description du personnage

Question

Combien de personnages sont de l'univers marvel ? Un des résultat possède un score plus grand que les autres sur cette recherche, quel est le personnage lié à cette recherche ?

Vous devrez préalablement redéfinir votre index avec le mapping correct pour analyser les descriptions et rechercher à partir de mots clés.

Indice

Solution

Question

Quel mot apparaît dans le plus de description de personnages ? On ne veut pas prendre en compte les mots les plus communs (tel que les déterminants) dans notre recherche.

Indice

Solution

Question

Procédons à une dernière amélioration de l'analyse de notre description. Dans le résultat précédent, on observe que les agrégats des mots comic et comics sont séparés. Comment pourrions nous rassembler les mots ayant la même racine ? Modifier la définition de l'index pour ajouter ce nouveau analyzer.

Indice

Solution

num. | Ligne | texte | copie |

CTRL+C pour copier, CTRL+V pour coller

PUT comics
{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_" 
        },
        "english_stemmer": {
          "type":       "stemmer",
          "language":   "english"
        },
        "english_possessive_stemmer": {
          "type":       "stemmer",
          "language":   "possessive_english"
        }
      },
      "analyzer": {
        "english": {
          "tokenizer":  "standard",
          "filter": [
            "english_possessive_stemmer",
            "lowercase",
            "english_stop",
            "english_stemmer"
          ]
        }
      }
    }
  },
  "mappings": {
    "characters": {
      "properties": {
        "character": {
          "type": "string",
          "index": "not_analyzed"
        },
        "description": {
          "type": "string",
          "index": "analyzed",
          "analyzer": "english"
        }
      }
    }
  }
}

PUT comics
{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_" 
        },
        "english_stemmer": {
          "type":       "stemmer",
          "language":   "english"
        },
        "english_possessive_stemmer": {
          "type":       "stemmer",
          "language":   "possessive_english"
        }
      },
      "analyzer": {
        "english": {
          "tokenizer":  "standard",
          "filter": [
            "english_possessive_stemmer",
            "lowercase",
            "english_stop",
            "english_stemmer"
          ]
        }
      }
    }
  },
  "mappings": {
    "characters": {
      "properties": {
        "character": {
          "type": "string",
          "index": "not_analyzed"
        },
        "description": {
          "type": "string",
          "index": "analyzed",
          "analyzer": "english"
        }
      }
    }
  }
}

Question

Exercice supplémentaire : Quels sont les racines de mots qui apparaissent le plus souvent pour les personnages de marvel ? Notez que tous ces personnages possèdent le mot marvel dans leurs descriptions.

Indice

Solution

Fin

Accueil

Imprimer Oscar Odic, 2016 (Contributions : Stéphane Crozat, les étudiants de l'UTC)