Implémentation et évaluation d’un modèle de la RI basé sur la position des termes
Loading...
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université Mouloud Mammeri
Abstract
La recherche d'information est définie comme étant l’ensemble des méthodes et techniques pour l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information pertinente pour un utilisateur. Elle est historiquement liée aux sciences de l'information et à la bibliothéconomie. Effectivement, les premiers systèmes ont été construits afin d'aider les bibliothécaires à retrouver des documents contenus dans des bases bibliographiques. Cependant, l’avènement d'Internet et plus particulièrement du Web ainsi que la prolifération de la masse documentaire a conduit à révéler la RI au grand jour. En effet, face à ces innovations, le développement de moyens performants pour la recherche d’information, est devenu indispensable, afin de permettre à chacun de trouver une information précise répondant à son besoin. La RI a alors évolué vers des tâches de plus en plus nombreuses et diversifiées. Les systèmes de recherche d'information (SRI) doivent aujourd'hui savoir traiter des volumes gigantesques de données, s'adapter aux nouveaux modes de communication, gérer la nature multimédia de l'information (l'image, le son, la vidéo, le texte, etc.). La plus part des SRI existants représentent les documents comme un ensemble de mots clés, ce que l’on appelle communément une représentation par un sac de mots .Ces mots clés sont généralement pondérés en utilisant des schémas de pondération tels que TF-IDF et BM25 qui prennent en compte les statistiques suivantes : la fréquence du terme dans le document (TF), sa fréquence dans la collection (IDF), la taille du document. Un autre facteur a été récemment introduit dans les formules de pondération sous différents points de vues : la structure de document, la proximité des termes de la requête dans un document et le modèle CTR, ce dernier est basé sur l’exploitation de la position des termes de la requête dans un document. Son intuition est simple les termes les plus importants et pertinents sont généralement placés juste au début de document. Notre travail se situe dans le contexte de la RI dans les documents textes et a un double objectifs, le premier consiste à implémenter et évaluer le modèle CTR sous la plate-forme terrier. Le second consiste à proposer des extensions à ce modèle et bien sur les implémenter et l’évaluer. Afin de bien mener cette étude, nous avons opté d’organiser notre mémoire comme suit : Chapitre I : ce chapitre est consacré à la recherche d’information classique et les concepts de base des SRI en présentant la description générale et l’architecture des SRI et le processus de RI, et ensuite nous allons décrire en détail les différents modèles de recherche existants ainsi que l'étape d'évaluation des SRI. Chapitre II: dans ce chapitre nous présentons en détail d'une part les facteurs de pondération existants, d'autre part nous présentons les travaux clés de la littérature exploitant ces facteurs dans leurs modèles de pondération. Chapitre III : dans le troisième et dernier chapitre, nous présentons l’implémentation de notre approche. Au premier lieu nous décrirons les outils et le langage de programmation utilisés. Au second lieu, nous présentons les collections utilisés et les résultats des expérimentations muniesÀ la fin de ce document, une conclusion fait le bilan sur l’ensemble de cette étude et indique les perspectives de développement de notre travail
Description
62 f. : ill. ; 30 cm. (+ CD-Rom)
Keywords
TF-IDF, BM 25, CTR
Citation
Conduite De Projets Informatiques