619 Works

Choix d'une mesure d'association pour une extension de requête contôlée : la question de l'orientation de la mesure.

Christophe Brouard
RÉSUMÉ . Cet article présente une étude comparative de mesures d'association dans le contexte de la construction automatique de thésaurus. L'étude porte plus particulièrement sur la question de l'orientation de la mesure d'association. Différentes solutions sont distinguées et testées dans le cadre d'une tâche de filtrage adaptatif dans laquelle le thésaurus est utilisé pour sélectionner des termes d'indexation à ajouter au cours de l'apprentissage. Les résultats obtenus sur le corpus OSHUMED montrent une forte influence...

Compression de structure XML pour la recherche d'information structurée.

Michel Beigbeder
RÉSUMÉ. La recherche d'informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d'information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les...

Construction des profils utilisateurs à base d'une ontologie pour une recherche d'information personnalisée.

Mariam Daoud, Lynda Tamine, Mohand Boughanem & Bilal Chebaro
RÉSUMÉ. La recherche d'information (RI) personnalisée tend principalement à modéliser l'utili- sateur selon un profil puis à l'intégrer dans la chaîne d'accès à l'information, afin de mieux ré- pondre à ses besoins spécifiques. Ce papier présente une extension d'une approche de construc- tion implicite du profil utilisateur précédemment développée où les centres d'intérêts sont re- présentés à base de termes pondérés. L'extension de cette approche permet d'obtenir une re- présentation sémantique de ces centres à...

Réordonnancement de réponses par transformation d'arbres pour un système de question-réponse oral interactif.

Guillaume Bernard
RÉSUMÉ. Les techniques traditionnelles de recherche d'information montrent des limites pour extraire certaines réponses précises contenues dans des documents. Cet article présente une méthode de recherche d'informations adaptée au contexte d'un système de question-réponse oral interactif en domaine ouvert. Cette méthode vise à améliorer la sélection des meilleures réponses. Nous proposons une approche consistant à mesurer un coût de transformation entre deux arbres textuels qui rend compte des reformulations possibles entre un texte décrivant l'in-...

Indexation de blocs extraits de pages Web en utilisant le rendu visuel.

Nicolas Faessel
RÉSUMÉ. Cet article présente un modèle d'indexation de pages Web basé sur leur rendu visuel. Dans ce modèle, une page Web n'est plus considérée comme un tout, mais comme la combinai- son d'un ensemble de blocs dont chacun porte sa sémantique propre. L'indexation d'une page Web est réalisée en deux étapes : (1) construction d'un arbre hiérarchique de blocs visuels, en s'appuyant sur la disposition visuelle des blocs de la page (2) indexation textuelle de...

Alignement des ontologies : Utilisation de WordNet et une nouvelle mesure structurelle.

Fellah Aissa
RÉSUMÉ. L'interopérabilité sémantique entre sources d'information hétérogènes est une problématique importante du fait du nombre croissant de sources d'information disponibles sur le web. L'utilisation des ontologies est une voie très prometteuse pour permettre l'interopérabilité, seulement les ontologies eux même peuvent être hétérogènes. L'alignement des ontologies est le noyau de cette interopérabilité, cependant la génération automatique des correspondances entre deux ontologies est d'une extrême difficulté qui est dû aux divergences (conceptuelle, habitudes, etc.) entre communautés différentes...

Un modèle de bibliothèque numérique collaborative - ARMARIUS.

Reim Doumat, Elöd Egyed-Zsigmond & Jean-Marie Pinon
RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d'assistance et d'espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manuscrits anciens numérisés : Armarius. Celui-ci fournit des interfaces d'annotation manuelle et semi-automatique. Il propose également un système d'assistance pour aider l'utilisateur à...

REDENE - Recherche documentaire assistée par ontologies de domaine adaptatives.

Xavier Aimé, Frédéric Fürst, Pascale Kuntz & Francky Trichet
RÉSUMÉ. La subjectivité des connaissances devient une dimension incontournable qui se doit d'être intégrée et prise en compte dans le processus d'Ingénierie des Ontologies (IO). Le projet REDENE est fondé (i) sur une formalisation des résultats obtenus en psychologie cognitive sur le fonctionnement de la mémoire humaine- en tenant compte des hypothèses établies dans le domaine des neurosciences- et (ii) sur l'intégration et l'exploitation d'un telle formalisation au sein des processus de recherche d'information basés...

Un système d'aide à la recherche d'information en ligne basé sur les ontologies (SA-RI-Onto).

Rania Soussi, Nesrine Ben Mustapha, Hajer Baazaoui Zghal & Marie-Aude Aufaure
RÉSUMÉ . La croissance très importante des informations disponibles sur Internet nécessite des outils de recherche de plus en plus performants permettant de discerner efficacement les informations intéressantes parmi des centaines voire des milliers de documents. Seulement, la qualité des résultats fournis par les moteurs de recherche traditionnels n'est pas toujours pertinente surtout quand il s'agit de composer plus d'une requête. Ceci est dû aux ambiguïtés linguistiques et aux concepts abstraits qui ne sont pas...

Classification dynamique par treillis de concepts pour la recherche d'information sur le web.

Emmanuel Nauer & Yannick Toussaint
RÉSUMÉ. L'analyse de concepts formels (ACF) permet d'organiser des objets en fonction de leurs propriétés. Des travaux récents ont utilisé l'ACF pour réorganiser, sous la forme d'un treillis de concepts, les réponses fournies par un moteur de recherche du web. L'utilisateur na- vigue dans le treillis pour explorer un résultat structuré et synthétique. Or, un tel treillis contient des concepts qui sont pertinents par rapport à une tâche de recherche d'information donnée et d'autres qui...

Analyse de la robustesse des algorithmes de méta-recherche discriminante.

Huyen-Trang Vu & Patrick Gallinari
RÉSUMÉ. Cet article examine la sensibilité de quatre moteurs de méta-recherche à différents facteurs et contextes d'utilisation. L'accent de l'étude est mis sur les méta-moteurs capables d'apprendre à partir d'exemples. L'apport original de notre travail consiste en une explora- tion systématique sur des corpus de grande taille des performances et du comportement des méthodes d'apprentissage pour la méta-recherche. D'abord, nous nous intéressons au choix de la représentation des attributs (les scores renvoyés par les moteurs...

Clustering en recherche d'information : concentration vs distribution de l'information pertinente.

Sylvain Lamprier, Tassadit Amghar, Bernard Levrat & Frédéric Saubion
RÉSUMÉ. S'appuyant sur la Cluster Hypothesis, qui stipule que les documents pertinents à une requête tendent à être plus proches les uns des autres que des documents non pertinents, la plupart des systèmes de recherche d'information réalisant une catégorisation de leurs ré- sultats visent à regrouper l'ensemble des documents pertinents dans un même groupe. Nous proposons ici, par la mise en place de nouvelles mesures d'évaluation, de reconsidérer les bé- néfices résultant d'une telle concentration...

Routage sémantique des requêtes dans les systèmes pair-à-pair.

Taoufik Yeferny, Khedija Arour & Yahya Slimani
RÉSUMÉ. Les systèmes pair-à-pair (P2P) se sont imposés ces dernières années comme la technologie majeure d'accès à différentes ressources sur Internet. De nombreuses recherche concer- nant la sélection des meilleurs pairs contenant les données appropriées à une requête,ont émergé et constituent un axe de recherche très actif. L'efficacité de la recherche dans ces systèmes, et surtout le cas non structuré, peut être améliorée en introduisant de la sémantique dans le processus de routage des requêtes....

Indexation et représentation comparative : application au discours électoral.

Jacques Savoy
RESUME . Cet article décrit quelques approches afin d'extraire les termes les plus représentatifs d'un site web ou d'un ensemble de documents en comparaison avec d'autres sites ou un corpus de référence. Nous montrons que la fréquence d'occurrence ou le rang des termes les plus fréquents peut fournir une première synthèse. Notre proposition s'appuie sur une distribution binomiale des mots et le calcul d'un score normalisé (score Z) mettant en lumière les termes comparativement les...

Catégorisation automatique de pages web chinoises - documents spécialisés vs grand public sur le tabagisme.

Guiyao Ke & Pierre Zweigenbaum
RÉSUMÉ. La catégorisation (ou classification supervisée) de textes concerne généralement le thème traité ou le type de document. Nous nous intéressons ici à une dimension particulière, le public visé, en distinguant deux grandes catégories : textes destinés au grand public, et textes destinés à des spécialistes du domaine traité. Nous testons la catégorisation, selon cette opposition, de pages web en langue chinoise sur le thème du tabagisme. Dans ce contexte, nous obtenons les conclusions suivantes...

Classification de Structures Arborescentes : Cas de Documents XML

Ali Aïtelhadj, Mohamed Mezghiche & Fatiha Souam
RÉSUMÉ . Cet article présente une méthode de classification structurelle de documents XML. Notre approche consiste d'abord à extraire automatiquement la structure arborescente de chaque document XML à classer, et ensuite à utiliser cette structure comme modèle de représentation pour la classification du document XML correspondant. L'appariement de ces structures est fondé sur un calcul de leurs similarités. Pour l'expérimentation nous avons utilisé un corpus INEX.

Prise en compte des liens pour améliorer la recherche d'information structurée.

M'hamed Mataoui & Mohamed Mezghiche
RÉSUMÉ . Dans cet article nous présentons deux adaptations de l'algorithme PageRank aux collections de documents XML et les résultats d'expérimentation obtenus pour la collection Wikipedia utilisée dans INEX 2007. Ces adaptations que nous appelons 'DOCRANK' et 'HITS_docrank' permettent un reclassement des résultats renvoyés par l'exécution de base (base run) pour en améliorer la qualité. Nos expérimentations sont effectuées sur les résultats renvoyés par les trois systèmes les mieux classés pour la tâche 'Focused' d'INEX...

Identification de phénomènes dans l'analyse d'interactions humaines: Les traces d'interactions humaines, un nouveau domaine d'application pour la RI.

Gregory Dyke, Michel Beigbeder, Kristine Lund & Jean-Jacques Girardot
RESUME. L'étude socio-cognitive des interactions humaines médiatisées par ordinateur passe par l'analyse de corpus complexes, de plus en plus vastes, regroupant les enregistrements audio- video et les traces informatiques de l'interaction médiatisée. Dans cet article, nous présentons et modélisons l'interrogation de tels corpus au moyen de mthodes de RI. Nous montrons que, moyennant ces modèles, certaines questions de recherche pour l'analyse d'interactions peuvent se ramener à des problèmes connus de RI. Nous exposons enfin les...

Proposition de cadres d'évaluation adaptés à un système de RI personnalisé.

Mariam Daoud & Lynda Tamine-Lechani
RÉSUMÉ. L'évaluation d'un système de recherche d'information (RI) personnalisé consiste prin- cipalement à mesurer ses performances. Les cadres d'évaluation classiques en RI basés sur les approches orientées laboratoire méritent d'être étendues et révisées vu que le contexte de recherche de l'utilisateur n'est pas considéré dans le protocole d'évaluation et les col- lections de test. Nous présentons dans ce papier des cadres d'évaluation adaptés à un sys- tème de RI personnalisé. Ces cadres sont basés sur...

Introduction de la sémantique d'un document sous le modèle de langage.

Arezki Hammache, Mohand Boughanem & Rachid Ahmed-Ouamer
RÉSUMÉ. La plupart des systèmes de recherche d'information classiques se basent sur une indexation par termes simples. Cependant, ces derniers délivrent beaucoup de résultats en réponse aux requêtes des utilisateurs. Ceci est du en partie au fait que le contenu sémantique d'un document (ou d'une requête) ne peut pas être capturé précisément par un simple ensemble de mots clés indépendants. Deux directions sont explorées pour incorporer la sémantique dans les modèles de langage. La première...

Aggregated search: From information nuggets to aggregated documents.

Arlind Kopliku
RÉSUMÉ. Le but de la recherche agregée est de rassembler des informations provenant de plu- sieurs sources en une seule interface. Elle doit ainsi gérer des problématiques liées aux dif- férents types de contenu (texte, vidéo, image, etc) ainsi qu'à la granularité des résultats. La formation d'un contenu agrégé à partir de différents types de contenus retrouvés contraste avec l'approche commune en RI consistant à renvoyer à l'utilisateur une liste ordonnée de résultats. Si nous...

Utilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents.

Véronique Moriceau, Xavier Tannier & Brigitte Grau
RÉSUMÉ. Cet article présente FIDJI, un système de questions-réponses pour le français, com- binant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi que des techniques spécifiques permettant de répondre à différents types de questions (comme les questions attendant des réponses multiples...

Impact de l'information visuelle pour la Recherche d'Images par le contenu et le contexte.

Christophe Moulin, Christine Largeron & Mathias Géry
RÉSUMÉ. Les documents multimédia composés de texte et d'images sont de plus en plus présents grâce à Internet et à l'augmentation des capacités de stockage. Cet article présente un modèle de représentation de documents multimédia qui combine l'information textuelle et l'information visuelle. En utilisant une approche par sac de mot, un document composé de texte et d'image peut être décrit par des vecteurs correspondant à chaque type d'information. Pour une requête multimédia donnée, une liste...

Une approche pour la recherche sémantique de l'information dans les documents semi-structurés hétérogènes.

Yassine Mrabet, Nacéra Bennacer, Nathalie Pernelle & Mouhamadou Thiam
RÉSUMÉ. Ce papier présente SHIRI-Querying, une approche pour la recherche sémantique de l'information dans les documents semi-structurés. Nous proposons une solution pour pallier l'incomplétude et l'imprécision des annotations au moment de l'interrogation. Cette solution repose sur deux types de reformulations élémentaires qui exploitent la notion d'agrégation et la structure des documents. Nous présentons l'algorithme DREQ qui combine ces transfor- mations élémentaires pour construire des reformulations ordonnées de la requête utilisateur. L'étude de notre approche sur...

Registration Year

  • 2021
    21
  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    597
  • Conference Paper
    21
  • Conference Proceeding
    1