544 Works

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Karen Sauvagnat
RESUME : Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d'autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l'information qu'ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s'affrontent pour la recherche d'information (RI) dans des documents XML. La première est basée sur des méthodes issues de la...

Contexte et sémantique pour une indexation de documents semi-structurés.

Haïfa Zargayouna
RÉSUMÉ. Les documents semi-structurés comme les documents XML présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d'Information (RI) n'utilisent pas ou peu...

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Saïd Radhouani, Jean-Pierre Chevallet & Mathias Géry
RÉSUMÉ . Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d'information que l'utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n'as pas toujours un sens, car il s'agit uniquement d'une contrainte physique. Dans la réalité, l'utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d'un noeud comme unité de...

Recherche bilingue et multilingue d'information.

Jacques Savoy & Pierre-Yves Berger
RESUME . Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l'efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s'avère moins bonne que l'être humain. Toutefois, cette première...

Utilisation de la langue naturelle pour l'interrogation de documents structurés.

Xavier Tannier, Jean-Jacques Girardot & Mihaela Mathieu
RÉSUMÉ. Le langage de requête est l'indispensable interface entre l'utilisateur et l'outil de re- cherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des do- cuments plats, il devient fort complexe lorsqu'il s'adresse à des documents structurés et qu'il s'agit de définir des contraintes portant à la fois sur la structure et le contenu. L'approche ici- décrite propose d'utiliser la langue naturelle comme interface pour exprimer de telles requêtes. L'article décrit dans...

Evaluation de la précision pour un système hypertexte.

Idir Chibane & Bich-Liên Doan
RÉSUMÉ . Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d'une mesure d'appariement entre les mots clés d'une requête et le texte ancre associé aux liens hypertextes des pages. Nous avons évalué cette fonction de correspondance par des expérimentations sur la collection...

Learning to Extract Answers in Question Answering: Experimental Studies.

Florent Jousse, Isabelle Tellier, Marc Tommasi & Patrick Marty
RÉSUMÉ. Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d'information soit un corpus donné, soit, comme c'est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d'Extraction d'Information. L'objectif de cet article est d'adapter les techniques d'ap- prentissage automatique utilisées en Extraction d'Information à...

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Soheila Karbasi & Lynda Lechani Tamine
Cet article s'inscrit dans le cadre général de la problématique du passage à l'échelle dans la taille des corpus en l'abordant plus précisément sous l'angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d'une évaluation expérimentale de leur impact sur l'efficacité de la recherche.

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Karen Sauvagnat & Mohand Boughanem
Un des principaux challenge de la Recherche d'Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L'utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l'information qu'il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents. Ceci soulève les...

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Jean-Pierre Chevallet & Joo-Hwee Lim
RÉSUMÉ. Avec la prolifération des téléphones portables munis d'appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l'information à partir de requêtes images prises d'un téléphone portable. Nous présentons également des résultats expérimentaux sur l'identification de scènes, basés sur une collection test d'images originales et réalistes de scènes à Singapour.

Résumé automatique de texte avec un algorithme d'ordonnancement.

Nicolas Usunier, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ . Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L'algorithme d'ordonnancement...

DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents.

Kaïs Khrouf & Chantal Soulé-Dupuy
L'augmentation du nombre de documents numériques gérés par les entreprises n'a fait qu'accroître les difficultés d'exploitation des informations textuelles. Ces difficultés sont en grande partie liées aux volumes à manipuler, mais également à l'hétérogénéité des sources et aux normes de structuration des informations documentaires. Il devient alors nécessaire, voire indispensable, de disposer d'outils d'intégration rendant les informations utiles accessibles, permettant de les manipuler et de les analyser. A cette fin, nous proposons le concept d'entrepôt...

Question-Réponse multilingue : influence du multilinguisme et stratégies.

Anne-Laure Ligozat, Brigitte Grau, Isabelle Robba & Anne Vilnat
RÉSUMÉ. Cet article présente un système de question-réponse bilingue, capable de traiter des questions en français en cherchant la réponse dans des documents en anglais (ou potentielle- ment l'inverse). Deux stratégies de passage d'une langue à l'autre y sont décrites et évaluées. Ces stratégies concernent à la fois la recherche d'information dans le corpus et l'extraction de la réponse. Dans un premier temps, nous étudions l'apport de la traduction de bitermes, et l'influence de la...

Recherche d'information flexible basée CP-nets.

Fatiha Boubekeur & Lynda Tamine-Lechani
RÉSUMÉ . Ce papier décrit une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Le raisonnement et l'inférence sur les préférences qualitatives n'étant pas aisés, nous devons quantifier les préférences. Nous proposons alors une approche de pondération automatique des requêtes...

Fusion de systèmes pour la recherche de passages dans des textes.

Désiré Kompaoré, Emmanuel LeMoing & Josiane Mothe
RÉSUMÉ Les systèmes de recherche d'information (RI) présentent une grande variabilité dans la liste des documents qu'ils retrouvent en réponse à une même requête. Dans cet article nous étudions l'apport de la fusion des résultats des systèmes pour la RI. Ainsi, nous utilisons les résultats obtenus sur un ensemble de 50 requêtes par différents systèmes qui ont participé à la tâche TREC de sélection de phrases pertinentes. Nous étudions la fusion par union et par...

Une mesure de similarité sémantique utilisant des résultats de psychologie.

Anthony Ventresque
RÉSUMÉ. L'utilisation d'ontologies, c'est-à-dire de bases de connaissances, en recherche d'infor- mation est devenue une voie très explorée. Cela permet de dépasser de nombreux problèmes liés aux comparaisons terme à terme entre documents ou entre documents et requêtes, en pas- sant à un niveau d'abstraction supérieur qui n'est pas soumis aux limitations intrinsèques à l'utilisation de mots-clés. De nombreuses techniques utilisent désormais les ontologies (expan- sion de requêtes, désambiguïsation sémantique, etc.) dans le but d'obtenir...

Unnatural language detection.

Thomas Lavergne
RÉSUMÉ. Dans le contexte des moteurs de recherche sur le web, l'escalade entre les techniques de classement et les techniques de spamdexing a conduit à l'apparition de faux contenus dans les pages web. Si les séquences aléatoires de mots-clés sont facilement détectables, les pages web produites par des générateurs automatiques dédiés sont beaucoup plus difficiles à détecter. Motivé par cette application, on se concentrera sur le problème plus général de la détection du catactère peu-naturel...

Structured Indexing Model for Cross-Language Information Retrieval.

Chedi Bechikh Ali & Hatem Haddad
RÉSUMÉ. Dans les systèmes récents de bibliothèques numériques ou dans le contexte du Web, les corpus parallèles sont utilisés par de nombreuses applications (traitement du langage naturel, la traduction automatique, extraction de terminologie, etc.). Cet article présente un nouveau modèle de recherche d’information inter-langue basé sur le modèle de langue. Le modèle évite la traduction des requêtes et/ou des documents ainsi que l’utilisation des ressources externes. Il propose un schéma d’indexation structurée des documents multilingues...

Représentation temporelle des mots : application au clustering de micro-blogs.

Zeljko Kraljevic, Nicolas Baskiotis, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. Les modèles distribués de mots sont un outil précieux pour la classification, le clustering, et plus généralement la représentation des documents. Pour des collections dynamiques, il est nécessaire de prendre en compte l'évolution temporelle de ces représentations. Dans cet article, nous présentons un modèle qui représente les mots sous la forme de trajectoires dans un espace de représentation, trajectoires qui sont déterminées par les groupes auxquels les mots appartiennent. Des expériences préliminaires en clustering...

RI-TAL : le TAL au service de la RI.

Laurent Candillier & Julien Hénot
RÉSUMÉ. Comment le Traitement Automatique des Langues peut-il servir la Recherche d’Information? Cet article apporte des éléments de réponse à cette question dans le cadre de la mise en place d’un moteur de recherche au sein d’une application industrielle, TokTokTok, qui réunit un ensemble important de données hétérogènes sur des produits de tout type. Nous démontrons que l’enrichissement de la base de données par des traitements sémantiques améliore les résultats du moteur de recherche, mais...

Classification et extraction des documents complexes à partir des images issues d’un périphérique mobile Application aux documents d’identité.

Ahmad Montaser Awal & Abdullah Almaksour
RÉSUMÉ. Nous proposons dans cet article une méthode de classification des images de documents d’identité. Contrairement à plupart des systèmes existants, l’approche proposée permet de localiser le document et de reconnaître son type simultanément. Premièrement, une base de modèles est construite à partir d’une seule image de référence et éventuellement des exemples d’apprentissage. Ensuite, des points caractéristiques sont extraits de l’image requête et comparés aux modèles. Une fois le modèle de document identifié, une comparaison...

Un modèle syllabique pour la reconnaissance de l’écriture.

Wassim Swaileh, Kamel Ait Mohand & Thierry Paquet
RÉSUMÉ. Dans cet article nous introduisons un nouveau modèle syllabique pour la reconnaissance de l'écriture. Une méthode de syllabation orthographique supervisée du Français est proposé pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipedia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède à un décodage en deux passes en exploitant le modèle syllabique proposé....

Utilisation de la couleur pour l’extraction de tableaux dans des images de documents.

Héloïse Alhéritière, Florence Cloppet, Camille Kurtz & Nicole Vincent
RÉSUMÉ. Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche.

Audit d’une base de documents étiquetée.

Romain Giot, Romain Bourqui, Nicholas Journet & Anne Vialard
RÉSUMÉ. Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particulièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le...

Registration Year

  • 2017
    544

Resource Types

  • Text
    543
  • Conference Paper
    1