Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe

Mazari, Ahmed Cherif, (2022) Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe. Doctoral thesis, Université de mohamed kheider biskra.

[img] Text
These.pdf

Download (3MB)

Abstract

Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Recherche d’information arabe; Reformulation de la requête; Méthodes sémantiques; Collections de test RI arabe; WordNet Arabe; Classificateur Naïve-Bayes; Word2vec
Subjects: Q Science > Q Science (General)
Divisions: Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie > Département d'informatique
Depositing User: BFSE
Date Deposited: 12 Apr 2022 07:47
Last Modified: 12 Apr 2022 07:47
URI: http://thesis.univ-biskra.dz/id/eprint/5676

Actions (login required)

View Item View Item