598 Works

Evaluation de la précision pour un système hypertexte.

Idir Chibane & Bich-Liên Doan
RÉSUMÉ . Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d'une mesure d'appariement entre les mots clés d'une requête et le texte ancre associé aux liens hypertextes des pages. Nous avons évalué cette fonction de correspondance par des expérimentations sur la collection...

Learning to Extract Answers in Question Answering: Experimental Studies.

Florent Jousse, Isabelle Tellier, Marc Tommasi & Patrick Marty
RÉSUMÉ. Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d'information soit un corpus donné, soit, comme c'est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d'Extraction d'Information. L'objectif de cet article est d'adapter les techniques d'ap- prentissage automatique utilisées en Extraction d'Information à...

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Soheila Karbasi & Lynda Lechani Tamine
Cet article s'inscrit dans le cadre général de la problématique du passage à l'échelle dans la taille des corpus en l'abordant plus précisément sous l'angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d'une évaluation expérimentale de leur impact sur l'efficacité de la recherche.

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Karen Sauvagnat & Mohand Boughanem
Un des principaux challenge de la Recherche d'Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L'utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l'information qu'il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents. Ceci soulève les...

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Jean-Pierre Chevallet & Joo-Hwee Lim
RÉSUMÉ. Avec la prolifération des téléphones portables munis d'appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l'information à partir de requêtes images prises d'un téléphone portable. Nous présentons également des résultats expérimentaux sur l'identification de scènes, basés sur une collection test d'images originales et réalistes de scènes à Singapour.

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Saïd Radhouani, Jean-Pierre Chevallet & Mathias Géry
RÉSUMÉ . Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d'information que l'utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n'as pas toujours un sens, car il s'agit uniquement d'une contrainte physique. Dans la réalité, l'utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d'un noeud comme unité de...

Recherche bilingue et multilingue d'information.

Jacques Savoy & Pierre-Yves Berger
RESUME . Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l'efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s'avère moins bonne que l'être humain. Toutefois, cette première...

Utilisation de la langue naturelle pour l'interrogation de documents structurés.

Xavier Tannier, Jean-Jacques Girardot & Mihaela Mathieu
RÉSUMÉ. Le langage de requête est l'indispensable interface entre l'utilisateur et l'outil de re- cherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des do- cuments plats, il devient fort complexe lorsqu'il s'adresse à des documents structurés et qu'il s'agit de définir des contraintes portant à la fois sur la structure et le contenu. L'approche ici- décrite propose d'utiliser la langue naturelle comme interface pour exprimer de telles requêtes. L'article décrit dans...

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Karen Sauvagnat
RESUME : Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d'autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l'information qu'ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s'affrontent pour la recherche d'information (RI) dans des documents XML. La première est basée sur des méthodes issues de la...

Contexte et sémantique pour une indexation de documents semi-structurés.

Haïfa Zargayouna
RÉSUMÉ. Les documents semi-structurés comme les documents XML présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d'Information (RI) n'utilisent pas ou peu...

Résumé automatique de texte avec un algorithme d'ordonnancement.

Nicolas Usunier, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ . Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L'algorithme d'ordonnancement...

DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents.

Kaïs Khrouf & Chantal Soulé-Dupuy
L'augmentation du nombre de documents numériques gérés par les entreprises n'a fait qu'accroître les difficultés d'exploitation des informations textuelles. Ces difficultés sont en grande partie liées aux volumes à manipuler, mais également à l'hétérogénéité des sources et aux normes de structuration des informations documentaires. Il devient alors nécessaire, voire indispensable, de disposer d'outils d'intégration rendant les informations utiles accessibles, permettant de les manipuler et de les analyser. A cette fin, nous proposons le concept d'entrepôt...

GRAD: A Metric for Evaluating Summaries

Liana Ermakova & Anton Firsov
RÉSUMÉ. Ce papier vise à proposer une nouvelle métrique pour évaluer les résumés. La plupart de méthodes existantes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise à dépasser les défauts des mesures existantes et...

Similarité textuelle pour l’association de documents journalistiques

Delphine Charlet & Géraldine Damnati
RÉSUMÉ. Cet article étudie l'association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s'avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l'association de documents, quelle que soit la configuration d'association média. L'influence...

Combining Subword information and Language model for Information Retrieval

Jibril Frej, Philippe Mulhem, Didier Schwab & Jean-Pierre Chevallet
RÉSUMÉ. En recherche d'information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l'on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités...

RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés

Charles-Emmanuel Dias, Clara Gainon De Forsan De Gabriac, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons dans cet article à la construction de profils issus à la fois des données d'interaction des utilisateurs (notes sur les produits) et des données textuelles associées (revues). L'enjeu est de s'éloigner des approches de factorisation matricielle pour mieux exploiter les données textuelles. Nous proposons de personnaliser une architecture de réseau de neurones hiérarchique dédiée à la classification de sentiments en apprenant des paramètres d'attention spécifiques pour les différents utilisateurs. Nous démontrons...

Utilisation de la couleur pour l’extraction de tableaux dans des images de documents.

Héloïse Alhéritière, Florence Cloppet, Camille Kurtz & Nicole Vincent
RÉSUMÉ. Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche.

Audit d’une base de documents étiquetée.

Romain Giot, Romain Bourqui, Nicholas Journet & Anne Vialard
RÉSUMÉ. Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particulièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le...

MyBestQuery : un jeu sérieux pour apprendre des utilisateurs.

Adrian Chifu, Serge Molina & Josiane Mothe
RESUME. MyBestQuery est un jeu sérieux qui collecte des éléments sur les requêtes soumises à un moteur de recherche: (i) la prédiction de la difficulté de la requête par le joueur (ii) des raisons possibles expliquant cette difficulté (iii) des propositions de reformulation.

« Hé Manu, tu descends ? » : identification nommée du locuteur dans les dialogues

Léo Galmant, Hervé Bredin, Camille Guinaudeau & Anne-Laure Ligozat
RÉSUMÉ. L'identification du locuteur est la tâche qui consiste à associer un locuteur à chaque tour de parole d'un dialogue, utilisée notamment pour enrichir les corpus de transcriptions automatiques.Le traitement de la tâche peut totalement différer selon le média : vidéo (films, séries, etc.), audio (séries, radio, etc.) ou textuel (scripts, transcriptions, etc.). Dans cet article, nous proposons une méthode d'identification du locuteur à partir des scripts et transcriptions de séries. Dans un dialogue de...

Architecture Asymétrique pour les Modèles Neuronaux d'Appariement de Textes

Thiziri Belkacem, Taofiq Dkaki, Jose G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans les modèles neuronaux d'appariement de textes, les entrées subissent les mêmes transformations pour construire les représentations correspondantes. La nature de la tâche d'appariement est défini à partir du type des entrées du modèle et de la relation entre elles. Nous distinguons deux types d'appariement : (1) l'appariement symétrique fait référence aux tâches d'appariement à des entrées de même nature, telles que l'identification des paraphrases et la classification de documents. (2) l'appariement asymétrique concerne...

Régularisation Spatiale de Représentations Distribuées de Mots

Paul Mousset, Yoann Pitarch & Lynda Tamine
RÉSUMÉ. Stimulée par l'usage intensif des téléphones mobiles, l'exploitation conjointe des don- nées textuelles et des données spatiales présentes dans les objets spatio-textuels (p. ex. tweets) est devenue la pierre angulaire à de nombreuses applications comme la recherche de lieux d'at- traction. Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d'objets spatiaux et la définition de fonctions d'appariement entre ces objets. Dans cet article, nous nous intéressons au problème...

Méthodes de classification pour l’identification de nœuds importantes dans les graphes dynamiques

Marwan Ghanem
RÉSUME. De nos jours, nous nous intéressons à la détection d'entités importantes, ceci peut être des mots-clés importants dans un document ou Twitter, ou des individus importants dans un réseau de mouvement. Nous pouvons modéliser ces données sous la forme d'un graphe dy- namique et utiliser des métriques de centralité telle que la centralité de proximité temporelle. Malheureusement, cela peut être coûteux. Dans ce travail, nous comparons la précision de plu- sieurs méthodes de classification...

Tied Spatial Transformer Networks for Character Recognition.

Bogdan-Ionut Cirstea & Laurence Likforman-Sulem
RÉSUMÉ. Cet article présente une nouvelle approche appliquée aux réseaux de neurones convolutionnels (RNC), qui utilise les réseaux de transformations spatiales (RTS). L’approche consiste à construire une architecture combinant un RNC pour la localisation et un RNC pour la classification. Bien que les deux réseaux soient dédiés à des taches différentes, la majorité de leurs poids sont partagées. Par la suite nous appelons ce type de réseaux réseaux de transformations spatiales liées ou RTSL. Le...

Registration Year

  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    598