Elasticsearch - Recherche et analyse de texte

Introduction

Rappel

Elasticsearch est un moteur de recherche NoSQL distribué, développé en Java, base sur un projet de la fondation Apache, Lucene. Son moteur de recherche est disponible par une API RESTFul, et les données sont sauvegardés sous la forme de documents JSON.

Elasticsearch permet :

  • d'effectuer et de combiner des recherches variées sur des données structurées, non-structurées, de géolocalisation ou indicateurs

  • explorer et identifier des modèles via un système d’agrégations

L'analyse textuelle et linguistique sur Elasticsearch

L'une des grandes forces d'un moteur de recherche Elasticsearch est son système d'analyse de textes, via le concept d'analyzer.

Ce module à pour but d'expliquer comment fonctionne l'analyse des données contenues dans une base Elasticsearch, et comment définir notre index pour nous permettre d'effectuer des recherches complexes.

Exemple

Pendant la pratique nous devrons être capable, par exemple, de rechercher les types de mots les plus utilisés dans une base de personnages.

Sur l'exemple ci-contre, on retrouve les racines de mots qui apparaissent le plus souvent, regroupant les mots qui se ressemble, et les mots commun de la langue tel que les déterminants grâce à une analyse linguistique.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimer Oscar Odic, 2016 (Contributions : Stéphane Crozat, les étudiants de l'UTC) Paternité - Partage des Conditions Initiales à l'IdentiqueRéalisé avec Scenari (nouvelle fenêtre)