598 Works

Modelling XML retrieval with belief functions.

Mounia Lalmas & Patrick Vannoorenberghe
RÉSUMÉ. Dans cet article, nous nous intéressons à la recherche de documents XML. Un cadre générique qui permet la représentation de connaissances partielles dans les processus d'indexation et de recherche est tout d'abord présenté. Ce modèle est basé sur la théorie des fonctions de croyance et permet de décrire plusieurs formes d'incertitude sur le contenu et la structure des documents XML. Par ce biais, la méthodologie autorise l'utilisation de requêtes qui permettent la spécification de...

Propositions pour la recherche contextuelle d'images dans des documents XML.

Mouna Torjmen
RÉSUMÉ. Cet article s'inscrit dans le cadre de la recherche d'images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations vi- suelles de l'image. Nous nous proposons ici d'explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu'une image peut être présentée par les autres éléments non images du document XML. Nous proposons d'une part une méthode pour choisir...

Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot & Massih-Reza Amini
RÉSUMÉ. Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l'apport de l'utilisation de plongements de mots, très populaire actuellement en recherche d'information, est dépendant de l'ensemble d'apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l'utilisation de corpus spécifiques (au niveau...

Evaluation modulaire d'un système de questions-réponses sur un corpus de questions semi-spontanées.

Laurianne Sitbon & Laurent Gillard
RÉSUMÉ. Cet article présente une évaluation séquentielle du système de questions-réponses modulaire et stochastique SQuALIA. L'évaluation se fonde sur un corpus de question semi- spontanées obtenu en faisant poser 20 questions de référence à des adultes francophones, non francophones ou dyslexiques. Les expériences montrent que ce sont les fautes d'orthographe qui ont le plus d'impact sur les modules d'analyse. En moyenne le système parvient à ne trouver des réponses qu'à 60% des questions posées, ce...

Classification de questions par traduction.

Anne-Laure Ligozat
RÉSUMÉ. Dans cet article, nous nous intéressons à la classification de questions pour un système de questions-réponses en français. Faisant le constat d'un manque de corpus annoté en français, nous nous interrogeons sur la possibilité d'exploiter les corpus anglais existants, en utilisant des traducteurs automatiques. Nous avons mené une série d'expériences en faisant varier le sens de traduction des corpus et les attributs fournis au classifieur. Les résultats mon- trent qu'il est possible de s'approcher...

Apprentissage d'ordonnancement et influence de l'ambiguïté pour la prédiction d'activité sur les réseaux sociaux.

François Kawala, Éric Gaussier, Ahlame Douzal & Eustache Diemert
RÉSUMÉ. Nous proposons dans cet article d'apprendre à classer les mots-clés selon leur activité à venir, et comparons deux approches : point-wise et pair-wise. Pour chacune d'elle nous étu- dions l'influence de l'ambiguïté et de la popularité des mots-clés sur ses capacités prédictives. A notre connaissance, c'est la première fois que ces facteurs sont étudiés dans ce contexte. Pour valider nos résultats nous fournissons un jeu d'apprentissage comprenant l'activité de1 497 mots-clés observée sur Twitter...

Recherche d'information dans les systémes P2P hétérogènes.

Thomas Cerqueus
RÉSUMÉ. Nous considérons la recherche d'information sémantique dans les systèmes pair-à- pair. Ces derniers semblent être une solution intéressante pour le partage de données car ils garantissent le passage à l'échelle, et gère la dynamicité. Dans ce contexte, il est difficilement imaginable que tous les participants s'accordent sur l'utilisation d'une même représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le système est sémantique- ment hétérogène. Cette situation limite l'interopérabilité entre participants. Dans cet article...

Contribution à la recherche d'information : une fonction de correspondance.

Fatou Kamara-Sangaré
RÉSUMÉ. Un Système de Recherche d'Information (SRI) dispose d'un modèle de recherche ca- pable de déterminer le degré de similarité qui existe entre un document et une requête. Généra- lement, le mécanisme consiste à apparier les documents et la requête en utilisant une fonction de correspondance. Dans ce papier, nous proposons la définition d'une fonction de correspon- dance qui repose sur les termes contenus uniquement dans l'intersection de la requête et d'un document. Afin de...

Réordonnancement de réponses par transformation d'arbres pour un système de question-réponse oral interactif.

Guillaume Bernard
RÉSUMÉ. Les techniques traditionnelles de recherche d'information montrent des limites pour extraire certaines réponses précises contenues dans des documents. Cet article présente une méthode de recherche d'informations adaptée au contexte d'un système de question-réponse oral interactif en domaine ouvert. Cette méthode vise à améliorer la sélection des meilleures réponses. Nous proposons une approche consistant à mesurer un coût de transformation entre deux arbres textuels qui rend compte des reformulations possibles entre un texte décrivant l'in-...

On the use of Clustering and the MeSH Controlled Vocabulary to Improve MEDLINE Abstract Search.

Stephen Blott, Fabrice Camous, Cathal Gurrin, Gareth J. F. Jones & Alan F. Smeaton
RÉSUMÉ: Les bases de données génomiques contiennent de l' information structurée en plus de l'information textuelle que l'on trouve dans les titres et les résumés d'articles. Les techniques de recherche d'information non-structurée ne sont pas adaptées à l'exploitation de cette information structurée. Cet article décrit une technique d'amélioration des méthodes de recherche traditionnelles qui sépare un résultat initial de recherche en deux groupes à l'aide de l'information structurée disponible. L'hypothèse avancée est que les documents...

Évaluation de modèles de classification automatique appliqués à la détection d'opinions.

Olena Zubaryeva & Jacques Savoy
RÉSUMÉ . Cet article présente et évalue différentes stratégies de classification automatique d'opinions. Ces dernières sont exprimées dans des phrases que le système doit classifier comme renfermant ou non une opinion. Dans ce but, nous avons retenu une classification basée sur le modèle Naïve Bayes et une autre basée sur des séparateurs à vaste marge (SVM). Comme alternative, nous suggérons un modèle basé sur le vocabulaire spécifique et le calcul d'un score normalisé (score Z)....

Approche par réutilisation d'annotations sémantiques pour la recherche d'information sur le web.

Wiem Yaiche Elleuch, Lobna Jéribi, Mohamed Tmar & Abdelmajid Ben Hamadou
RÉSUMÉ. Dans cet article, nous présentons une nouvelle approche d'aide à la recherche d'information sur le web. Elle a pour objectif de présenter à l'utilisateur courant des documents réponses pertinents pour sa requête et adaptés à son profil. Elle consiste à utiliser le mécanisme du Raisonnement à Partir de Cas (RàPC) pour mémoriser les sessions de recherche effectuées par les utilisateurs (profil utilisateur, requête, annotation d'un document pertinent, date) et à les réutiliser lorsqu'une session...

Compression de structure XML pour la recherche d'information structurée.

Michel Beigbeder
RÉSUMÉ. La recherche d'informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d'information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les...

Identification de documents par classification monoclasse.

Nicolas Sidere, Jean-Yves Ramel, Sabine Barrat, Vincent Poulain D'Andecy & Saddok Kebairi
RÉSUMÉ. Utilisée dans un contexte industriel, la classification d'images de documents néces- site le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d'un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l'ensemble des classes. Cette approche permet alors...

Recherche de microblogs : quels critères pour raffiner les résultats des moteurs usuels de RI ?

Firas Damak, Karen Pinel-Sauvagnat & Guillaume Cabanac
RÉSUMÉ. Depuis quelques années, les services de microblogs, comme Twitter, attirent l'attention des internautes. Cet attrait peut s'expliquer par la facilité et la rapidité avec laquelle les internautes peuvent partager des informations, le plus souvent en temps réel. Les microbloggeurs, en parallèle de leur publication de microblogs, cherchent également souvent à collecter des informations récentes sur leurs derniers sujets d'intérêt. Trouver les meilleurs résultats pour un sujet demeure dépendant des caractéristiques des microblogs (comme par...

Recherche d'entités nommées dans les journaux radiophoniques par contextes hiérarchique et syntaxique.

Azeddine Zidouni, Hervé Glotin & Mohamed Quafafou
RÉSUMÉ. Ce papier présente une approche pour la recherche d'entités nommées dans des transcriptions radiophoniques. Nous allons utiliser les structures des entités nommées afin d'améliorer le taux de leur reconnaissance. En effet, l'espace des entités peut être représenté par une structure hiérarchique (arbre). Ainsi, un concept peut être vu comme un noeud dans l'arbre, et une entité comme un parcours dans la structure de l'espace. Nous allons montrer l'apport de cette représentation en utilisant le...

Apprentissage de fonctions d'ordonnancement par classification de paires ordonnées et pondérées (OWPC).

David Buffoni, Nicolas Usunier & Patrick Gallinari
RÉSUMÉ. Apprendre les fonctions d'ordonnancement pour les moteurs de recherche est une tâche difficile parce que les critères d'évaluations généralement utilisés sont difficilement opti- misables directement. Dans ce cas, nous sommes contraints d'optimiser une fonction d'erreur d'ordonnancement qui en est proche. Dans ce papier, nous proposons de définir une fonction d'erreur d'ordonnancement en utilisant un opérateur d'agrégation convexe des erreurs de clas- sification sur les paires appelé OWA (Yager, 1988) qui suivant son paramétrage peut...

Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français.

Rahma Sellami, Fatiha Sadat & Lamia Hadrich Belguith
RÉSUMÉ. Dans cet article, nous nous intéressons à l'exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d'extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l'alignement du corpus des Nations Unies...

Algorithme de recherche approximative dans un dictionnaire fondé sur une distance d'édition définie par blocs.

Pascal Vaillant
RÉSUMÉ. Nous proposons un algorithme de recherche approximative de chaînes dans un dic- tionnaire à partir de formes altérées. Cet algorithme est fondé sur une fonction de divergence entre chaînes-- une sorte de distance d'édition: il recherche des entrées pour lesquelles la distance à la chaîne cherchée est inférieure à un certain seuil. La fonction utilisée n'est pas la distance d'édition classique (distance DL); elle est adaptée à un corpus, et se fonde sur la...

Structure et proximité pour la recherche documentaire.

Michel Beigbeder
RÉSUMÉ. Notre étude compare les performances d'un système de recherche d'information basé sur la proximité des occurrences des termes de la requête dans les documents avec un système classique de modèle de langue avec lissage de Dirichlet et le modèle Okapi BM25 . Notre modèle basé sur la proximité calcule en chaque position du document une valeur d'autant plus grande que des occurrences de tous les termes de la requête sont proches de cette position....

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information.

Ilyes Khennak
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu'ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d'information est entièrement revu dans ce travail en ce qui concerne les étapes d'indexation et d'interrogation. Par conséquent, un Fichier Inverse Etendu est construit en ex- ploitant le concept de...

Clustering de documents dans des collections hétérogènes.

Romaric Besançon & Anne-Laure Daquo
RÉSUMÉ. La classification non supervisée (ou clustering) de documents permet d'organiser thématiquement une collection de documents de façon à faciliter l'accès à l'information, ou à proposer une vue synthétique du contenu d'un ensemble de documents. Néanmoins, quand la collection considérée contient des documents de type différent, cette hétérogénéité perturbe les résultats du clustering, en regroupant plus volontiers les documents selon leur type que selon leur thème. Nous présentons dans cet article une approche simple pour...

À la recherche des paramètres des modèles de RI.

Parantapa Goswami, Massih-Reza Amini & Éric Gaussier
RÉSUMÉ. Nous abordons ici le problème de l'estimation des paramètres des modèles standard de la recherche d'information sur de nouvelles collections pour lesquelles aucun jugement de pertinence n'est disponible. Pour cela, nous nous reposons sur des collections passées pour lesquelles des jugements de pertinence sont disponibles et introduisons une nouvelle représen- tation des requêtes indépendante de la collection considérée. À partir de cette représentation et des collections passées, nous apprenons une fonction de régression capable...

Apprentissage de métrique appliqué à la détection de changement de page Web et aux attributs relatifs.

Marc Teva Law, Nicolas Thome, Stéphane Gançarski & Matthieu Cord
RÉSUMÉ. Nous proposons dans cet article un nouveau schéma d'apprentissage de métrique. Basé sur l'exploitation de contraintes qui impliquent des quadruplets d'images, notre approche vise à modéliser des relations sémantiques de similarités riches ou complexes. Nous étudions comment ce schéma peut être utilisé dans des contextes tels que la détection de régions impor- tantes dans des pages Web ou la reconnaissance à partir d'attributs relatifs.

Système de recherche d'informations spatiales basé sur le croquis à main levée.

Moultazem Ghazal & Florence Sèdes
RÉSUMÉ . La quantité de données géographiques disponibles a considérablement augmenté ces dernières années. L'évolution du Web qui permet de partager et d'accéder à n'importe quel type d'information a encore augmenté cette disponibilité. Cependant, l'interrogation de données géographiques est souvent vue comme une opération difficile et coûteuse, car ces données ont des structures complexes et sont disponibles en différents formats et à différentes échelles. Récemment, des systèmes ont été développés pour permettre aux utilisateurs de...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598