598 Works

Recherche d'Information efficace utilisant la sémantique: le focus.

Anthony Ventresque
RÉSUMÉ. L'indexation sémantique de documents à partir d'ontologies est un domaine qui prend de l'essor, malgré les difficultés d'une indexation automatique ou même semi-automatique, sans parler d'indexation manuelle. Il est possible désormais d'avoir des caractérisations séman- tiques de documents textuels ou non textuels basées sur des ontologies. Partant de ce fait, nous avons mis en place un objet, le focus, qui représente un document ou une requête en pondé- rant les concepts d'une ontologie de...

Un modèle de contexte documentaire par doxels pondérés - Application à un modèle de langue contextuel pour la recherche de documents stucturés.

Philippe Mulhem & Jean-Pierre Chevallet
RÉSUMÉ. Cet article porte sur la recherche de parties de documents appelées doxels. Nous défi- nissons la notion de contexte documentaire d'un doxel, en utilisant deux éléments : 1) un lissage de type Dirichlet sur des doxels, et 2) une interprétation du contexte d'un doxel par des pro- pagations du contenu des autres doxels de contexte. Nous montrons que cette interprétation de contexte documentaire est exprimable par des combinaisons du contenu intrinsèque lissé et des...

Reformulation de Requêtes par Structure en RI dans les documents structurés.

Lobna Hlaoua
RÉSUMÉ. La reformulation de requêtes permet d'enrichir une requête initiale en fonction de jugements de pertinence afin d'exprimer d'avantage les besoins de l'utilisateur. De nouvelles problématiques sont soulevées lorsque la reformulation s'effectue sur des corpus de documents semi-structurés de type XML. Les différentes approches qui ont été développées sont en général basées sur le contenu seul des éléments. Notre contribution consiste à mettre en oeuvre une nouvelle approche permettant d'étendre la requête initiale avec une...

Intégrer plus de connaissances linguistiques en recherche d'information peut-il augmenter les performances des systèmes ?

Fabienne Moreau, Vincent Claveau & Pascale Sébillot
Cet article pose la question de l'intérêt en RI de la combinaison au

Question-Réponse multilingue : influence du multilinguisme et stratégies.

Anne-Laure Ligozat, Brigitte Grau, Isabelle Robba & Anne Vilnat
RÉSUMÉ. Cet article présente un système de question-réponse bilingue, capable de traiter des questions en français en cherchant la réponse dans des documents en anglais (ou potentielle- ment l'inverse). Deux stratégies de passage d'une langue à l'autre y sont décrites et évaluées. Ces stratégies concernent à la fois la recherche d'information dans le corpus et l'extraction de la réponse. Dans un premier temps, nous étudions l'apport de la traduction de bitermes, et l'influence de la...

Recherche d'information dans les documents numériques : vers une variation des modalités d'exécution procédurale.

Mohamed Djouani, Stéphane Caro, Jean-Michel Boucheix, Aurélia Bugaiska & Laurent Bergerot
RESUME Cette recherche teste l'efficacité cognitive d'un nouveau système technique facilitant la recherche d'information dans les documents numériques. Ce système utilise un dispositif de prévisualisation par transparence permettant à l'utilisateur de consulter des pages en profondeur. Une expérimentation a été conduite auprès de 36 participants (jeunes et âgés). La tâche consistait à trouver un appartement cible possédant un ou plusieurs critères spécifiques dans un site web d'agence immobilière spécialement conçu. Deux versions de ce site...

Résumé automatique guidé de textes: État de l’art et perspectives

Salima Lamsiyah, Said Ouatik El Alaoui & Bernard Espinasse
RÉSUMÉ Les systèmes de résumé automatique de textes (SRAT) consistent à produire une représentation condensée et pertinente à partir d'un ou de plusieurs documents textuels. La majorité des SRAT sont basés sur des approches extractives. La tendance actuelle consiste à s'orienter vers les approches abstractives. Dans ce contexte, le résumé guidé défini par la campagne d'évaluation internationale TAC (Text Analysis Conference) en 2010, vise à encourager la recherche sur ce type d'approche, en se basant...

Extraction de propriétés de produits.

Patrick Marty, Tian Tian & Isabelle Tellier
RÉSUMÉ. Le travail présenté dans cet article vise à extraire automatiquement certaines carac- téristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d'un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l'aborder, nous avons testé deux approches : une méthode d'extraction fondée sur des dictionnaires et une méthode d'apprentissage automatique avec les CRF (Champs Aléatoires Conditionnels), pour...

Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML.

Cyril Laitang & Karen Pinel-Sauvagnat
RESUME. La recherche d'information sur documents semi-structurés de type XML (RIS) permet de renvoyer à l'utilisateur des granules documentaires se focalisant sur les besoins exprimés. La requête et les documents structurés pouvant être vus comme des hiérarchies d'éléments imbriqués, nous considérons que leur proximité structurelle peut être évaluée au travers de la similarité entre leurs arborescences respectives. Dans ce cadre, nous proposons un modèle de RIS combinant au calcul de score sur le contenu une...

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans cet article, nous étudions l'appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l'aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l'appariement exact entre les mots, le processus d'appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les...

Améliorer la classification de documents par combinaison de descripteurs visuels et textuels.

Olivier Augereau, Nicholas Journet & Jean-Philippe Domenger
RÉSUMÉ. La contribution principale de cet article est de proposer une nouvelle méthode de clas- sification des images de documents combinant les caractéristiques textuelles visuelles extraites respectivement avec les techniques des sacs de mots (BoW) et sacs de mots visuels (BoVW). Alors que les tentatives classiques de combinaison telles que celles basées sur le 'Borda-Count' aboutissent à des résultats décevants, nous proposons ici une combinaison par apprentissage. Les expériences de cet article ont été réalisées...

Extraction de relations n-aires interphrastiques guidée par une RTO.

Akila Ghersedine, Patrice Buche, Juliette Dibie-Barthélemy, Nathalie Hermandez & Mouna Kamel
RÉSUMÉ. Nous proposons dans cet article une méthode d'extraction d'instances de relations n- aires dans un texte guidée par une Ressource Termino-Ontologique (RTO) de domaine. Une RTO est une ressource comportant une composante conceptuelle (l'ontologie) et une compo- sante terminologique (la terminologie), dans laquelle les termes sont distingués des concepts qu'ils dénotent. L'ontologie permet la modélisation de relations n-aires, reliant des arguments pouvant être des concepts symboliques et des quantités. La méthode proposée s'applique aux...

REVISE, un outil d'évaluation précise des systèmes questions-réponses.

Sarra El Ayari, Brigitte Grau & Anne-Laure Ligozat
RÉSUMÉ. Des campagnes d'évaluations sont organisées chaque année pour évaluer des systèmes de questions-réponses sur la validité des résultats fournis. Pour les équipes, il s'agit ensuite de réussir à mesurer la pertinence des stratégies développées ainsi que le fonctionnement des com- posants. À ces fi ns, nous décrivons un outil générique d'évaluation de type boîte transparente qui permet à un système produisant des résultats intermédiaires d'évaluer ses résultats. Nous illustrerons cette démarche en testant l'impact...

ANASTASIA : recommandation de séquences d'activités spatiotemporelles.

Diana Nurbakova, Léa Laporte, Sylvie Calabretto & Jérôme Gensel
RÉSUMÉ. Avec l'augmentation du nombre et de la variété des activités accessibles par les utili- sateurs, la recommandation personnalisée de séquences d'activités devient un enjeu important. Or, la plupart des systèmes de recommandation ne tiennent pas compte des contraintes tem- porelles liées aux activités, ce qui rend la recommandation difficile à suivre par un utilisateur. Dans cet article, nous décrivons une nouvelle approche pour la recommandation de séquences d'activités limitées dans le temps et concurrentes....

Apprentissage non-supervisé pour la segmentation automatique de textes.

Jean-François Pessiot, Marc Caillet, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ. Nous proposons dans cet article une approche basée sur des techniques d'appren- tissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l'entité textuelle de base. Notre système découvre d'abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est en- suite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l'efficacité de cette technique...

Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques

Aurélien Lamercerie
RÉSUMÉ Cet article explore la construction de représentations formelles d'énoncés en langue naturelle. Le passage d'un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l'analyse syntaxique de l'énoncé à une représentation sémantique. Nous ciblons l'aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c'est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l'enjeu serait d'apporter une aide au concepteur....

Regroupement par popularité pour la RI semi-supervisée centrée sur les entités.

Vincent Bouvier & Patrice Bellot
RÉSUMÉ. Filtrer des documents web à propos d'entité (personne, entreprise ...) pour que seuls les documents d'intérêt soient gardés est un réel challenge. L'intérêt peut être qualifié de différente manière comme la nouveauté ou le fait qu'une information soit récente. Nous avons pu voir au cours des dernières années que des systèmes s'entraînent à détecter l'intérêt d'un document au regard d'une entité. Pour des raisons de passage à l'échelle, il n'est pas pensable d'avoir des...

Expansion de requêtes par apprentissage.

Ahlem Bouziri, Chiraz Latiri & Éric Gaussier
RÉSUMÉ. Cet article propose une approche d'expansion automatique de requêtes par appren- tissage. L'expansion de requêtes se fait par l'ajout de termes provenant de règles d'association entre termes. Le problème d'expansion de requêtes est modélisé comme un problème de classifi- cation superviséE qui vise à déterminer les règles d'association les plus adaptées pour enrichir une requête donnée. Un ensemble de données d'entraînement est construit en utilisant un algo- rithme d'exploration de règles d'association pertinentes, basé...

Ordonnancement d'entités appliqué à la construction de snippets sémantiques.

Mazen Alsarem, Pierre-Edouard Portier, Sylvie Calabretto & Harald Kosch
RÉSUMÉ. Les avancées de l'initiative Linked Open Data (LOD) ont permis de mieux structurer le Web des données. En effet, quelques jeux de données servent de centralisateurs (par exemple, DBpedia) et permettent ainsi de maintenir les différentes sources de données du LOD liées entre elles. Ces jeux de données ont également permis le développement de services de détection des entités du Web des données dans une page du Web des documents (par exemple, DBpedia Spot-...

Modèles de langue pour la mise à jour d'un profil d'entité.

Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez & Mohand Boughanem
RÉSUMÉ. Dans cet article nous souhaitons renvoyer à partir de documents issus du Web, ceux apportant des informations nouvelles sur une entité donnée. Ces documents peuvent ainsi servir à mettre à jour un profil existant (par exemple une page Wikipedia) de cette entité. Notre approche se base initialement sur un appariement des mentions de l'entité afin de renvoyer un premier ensemble de documents pertinents, puis s'appuie sur des modèles de langue estimés à partir de...

Fusion des réponses de systèmes de question-réponses.

Arnaud Grappy, Brigitte Grau & Sophie Rosset
RÉSUMÉ. Les réponses données par plusieurs systèmes de questions-réponses proviennent de l'application de stratégies différentes, et de ce fait permettent de répondre à des questions différentes. La combinaison de ces systèmes vise alors à accroître le nombre total de questions résolues. Cet article présente la combinaison de trois systèmes : QAVAL, qui s'appuie sur un module de validation de réponses et deux versions du systèmes RITEL qui s'appuie sur une analyse multi-niveaux appliquée aux questions...

Retrieval effectiveness study with Farsi language.

Mitra Akasereh & Jacques Savoy
RESUME. Dans le but d'utiliser le persan comme langue de réŽféŽrence, et en utilisant une collection test de 166 774 documents et de 100 requêtes, cette éŽtude éŽvalue la performance des diffŽérents modèles de RI sur lesquels sont appliquŽés diverses stratŽgies d'indexation et de recherche. De plus, cette éŽtude éŽvalue l'impact de l'éŽlimination de la liste des mots-outils lors de l'indexation. Selon les réŽsultats obtenus, le modèle DFR-I(ne)C2 est le plus performant. L'enracineur léŽger et...

Modélisation de l'extraction des descripteurs visuels - Intégration de relations topologiques.

Rami Albatal, Philippe Mulhem & Yves Chiaramella
Malgré son rôle majeur dans l'annotation automatique, le processus d'extraction des descripteurs visuels n'est pas encore explicitement modélisé, et la contribution de chacune de ces étapes sur la qualité de l'annotation n'est pas suffisamment étudiée. Dans cet article, nous proposons un modèle (appelé phrasage) pour l'extraction des descripteurs visuels. Afin de construire des descripteurs plus riches, nous définissons, à partir de ce modèle, la prise en compte de relations topologiques entre régions d'intérêt via une...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598