544 Works

Evaluation de la précision pour un système hypertexte.

Idir Chibane & Bich-Liên Doan
RÉSUMÉ . Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d'une mesure d'appariement entre les mots clés d'une requête et le texte ancre associé aux liens hypertextes des pages. Nous avons évalué cette fonction de correspondance par des expérimentations sur la collection...

Learning to Extract Answers in Question Answering: Experimental Studies.

Florent Jousse, Isabelle Tellier, Marc Tommasi & Patrick Marty
RÉSUMÉ. Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d'information soit un corpus donné, soit, comme c'est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d'Extraction d'Information. L'objectif de cet article est d'adapter les techniques d'ap- prentissage automatique utilisées en Extraction d'Information à...

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Soheila Karbasi & Lynda Lechani Tamine
Cet article s'inscrit dans le cadre général de la problématique du passage à l'échelle dans la taille des corpus en l'abordant plus précisément sous l'angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d'une évaluation expérimentale de leur impact sur l'efficacité de la recherche.

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Karen Sauvagnat & Mohand Boughanem
Un des principaux challenge de la Recherche d'Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L'utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l'information qu'il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents. Ceci soulève les...

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Jean-Pierre Chevallet & Joo-Hwee Lim
RÉSUMÉ. Avec la prolifération des téléphones portables munis d'appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l'information à partir de requêtes images prises d'un téléphone portable. Nous présentons également des résultats expérimentaux sur l'identification de scènes, basés sur une collection test d'images originales et réalistes de scènes à Singapour.

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Saïd Radhouani, Jean-Pierre Chevallet & Mathias Géry
RÉSUMÉ . Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d'information que l'utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n'as pas toujours un sens, car il s'agit uniquement d'une contrainte physique. Dans la réalité, l'utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d'un noeud comme unité de...

Recherche bilingue et multilingue d'information.

Jacques Savoy & Pierre-Yves Berger
RESUME . Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l'efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s'avère moins bonne que l'être humain. Toutefois, cette première...

Utilisation de la langue naturelle pour l'interrogation de documents structurés.

Xavier Tannier, Jean-Jacques Girardot & Mihaela Mathieu
RÉSUMÉ. Le langage de requête est l'indispensable interface entre l'utilisateur et l'outil de re- cherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des do- cuments plats, il devient fort complexe lorsqu'il s'adresse à des documents structurés et qu'il s'agit de définir des contraintes portant à la fois sur la structure et le contenu. L'approche ici- décrite propose d'utiliser la langue naturelle comme interface pour exprimer de telles requêtes. L'article décrit dans...

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Karen Sauvagnat
RESUME : Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d'autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l'information qu'ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s'affrontent pour la recherche d'information (RI) dans des documents XML. La première est basée sur des méthodes issues de la...

Contexte et sémantique pour une indexation de documents semi-structurés.

Haïfa Zargayouna
RÉSUMÉ. Les documents semi-structurés comme les documents XML présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d'Information (RI) n'utilisent pas ou peu...

Résumé automatique de texte avec un algorithme d'ordonnancement.

Nicolas Usunier, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ . Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L'algorithme d'ordonnancement...

DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents.

Kaïs Khrouf & Chantal Soulé-Dupuy
L'augmentation du nombre de documents numériques gérés par les entreprises n'a fait qu'accroître les difficultés d'exploitation des informations textuelles. Ces difficultés sont en grande partie liées aux volumes à manipuler, mais également à l'hétérogénéité des sources et aux normes de structuration des informations documentaires. Il devient alors nécessaire, voire indispensable, de disposer d'outils d'intégration rendant les informations utiles accessibles, permettant de les manipuler et de les analyser. A cette fin, nous proposons le concept d'entrepôt...

Utilisation de la couleur pour l’extraction de tableaux dans des images de documents.

Héloïse Alhéritière, Florence Cloppet, Camille Kurtz & Nicole Vincent
RÉSUMÉ. Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche.

Audit d’une base de documents étiquetée.

Romain Giot, Romain Bourqui, Nicholas Journet & Anne Vialard
RÉSUMÉ. Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particulièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le...

MyBestQuery : un jeu sérieux pour apprendre des utilisateurs.

Adrian Chifu, Serge Molina & Josiane Mothe
RESUME. MyBestQuery est un jeu sérieux qui collecte des éléments sur les requêtes soumises à un moteur de recherche: (i) la prédiction de la difficulté de la requête par le joueur (ii) des raisons possibles expliquant cette difficulté (iii) des propositions de reformulation.

Tied Spatial Transformer Networks for Character Recognition.

Bogdan-Ionut Cirstea & Laurence Likforman-Sulem
RÉSUMÉ. Cet article présente une nouvelle approche appliquée aux réseaux de neurones convolutionnels (RNC), qui utilise les réseaux de transformations spatiales (RTS). L’approche consiste à construire une architecture combinant un RNC pour la localisation et un RNC pour la classification. Bien que les deux réseaux soient dédiés à des taches différentes, la majorité de leurs poids sont partagées. Par la suite nous appelons ce type de réseaux réseaux de transformations spatiales liées ou RTSL. Le...

Classification et extraction des documents complexes à partir des images issues d’un périphérique mobile Application aux documents d’identité.

Ahmad Montaser Awal & Abdullah Almaksour
RÉSUMÉ. Nous proposons dans cet article une méthode de classification des images de documents d’identité. Contrairement à plupart des systèmes existants, l’approche proposée permet de localiser le document et de reconnaître son type simultanément. Premièrement, une base de modèles est construite à partir d’une seule image de référence et éventuellement des exemples d’apprentissage. Ensuite, des points caractéristiques sont extraits de l’image requête et comparés aux modèles. Une fois le modèle de document identifié, une comparaison...

Un modèle syllabique pour la reconnaissance de l’écriture.

Wassim Swaileh, Kamel Ait Mohand & Thierry Paquet
RÉSUMÉ. Dans cet article nous introduisons un nouveau modèle syllabique pour la reconnaissance de l'écriture. Une méthode de syllabation orthographique supervisée du Français est proposé pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipedia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède à un décodage en deux passes en exploitant le modèle syllabique proposé....

Traduction automatique de termes biomédicaux pour la recherche d'information interlingue.

Vincent Claveau
RÉSUMÉ. Dans cet article, nous présentons une méthode de traduction automatique de termes biomédicaux. Cette méthode s'appuie sur une technique originale d'apprentissage supervisé de règles de réécriture et sur l'utilisation de modèles de langue. Les évaluations présentées montrent que notre technique est très performante et permet de traduire à partir et à desti- nation de n'importe quelle langue pourvu que leurs différences soient suffisamment régulières pour être apprises. Cette méthode de traduction est appliquée et...

Recherche d'information et analyse bibliographique appliquées à la mise à jour automatique de Swiss-Prot.

Imad Tbahriti, Anne-Lise Veuthey, Patrick Ruch & Julien Gobeill
RÉSUMÉ .But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l'information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu'un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l'information de l'entrée de cette protéine dans la base. Méthodes : La procédure...

Une approche de représentation de l'information en RI basée sur les sousarbres.

Mustapha Baziz, Mohand Boughanem & Henri Prade
RÉSUMÉ. Ce papier propose une approche de recherche d’information basée sur l’utilisation d’une structure conceptuelle pour indexer les documents. La structure conceptuelle est hiérarchique. Elle est représentée par un sous-arbre pondéré. Un sous-arbre est obtenu d’abord en projetant document et requête sur une ressource conceptuelle externe, puis en appliquant une méthode de complétion via des noeuds intermédiaires extraits de cette ressource en vue d’avoir une représentation hiérarchique. Dans cette approche, l’évaluation des requêtes se fait...

Filtrage de textes dans le but de produire un résumé de documents multiples.

Fatma Kallel Jaoua, Lamia Hadrich Belguith, Maher Jaoua & Abdelmajid Ben Hamadou
RÉSUMÉ . Dans le cadre de la conférence d'évaluation DUC, nous avons développé un système de résumé automatique de documents multiples qui se base sur l'extraction des phrases clés. La méthode proposée utilise un algorithme génétique qui permet de combiner les phrases des documents sources pour former les extraits, qui seront croisés et mutés pour générer de nouveaux extraits. L'examen des résultats obtenus dans les deux sessions DUC'04 et DUC'07 a montré un écart significatif...

GVC: a graph-based Information Retrieval Mode.

Quoc Dinh Truong, Taoufiq Dkaki, Josiane Mothe & Pierre-Jean Charrel

Registration Year

  • 2017
    544

Resource Types

  • Text
    544