598 Works

Utilisation de la langue naturelle pour l'interrogation de documents structurés.

Xavier Tannier, Jean-Jacques Girardot & Mihaela Mathieu
RÉSUMÉ. Le langage de requête est l'indispensable interface entre l'utilisateur et l'outil de re- cherche. Simplifié au maximum dans les cas où les moteurs indexent essentiellement des do- cuments plats, il devient fort complexe lorsqu'il s'adresse à des documents structurés et qu'il s'agit de définir des contraintes portant à la fois sur la structure et le contenu. L'approche ici- décrite propose d'utiliser la langue naturelle comme interface pour exprimer de telles requêtes. L'article décrit dans...

Evaluation de la précision pour un système hypertexte.

Idir Chibane & Bich-Liên Doan
RÉSUMÉ . Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d'une mesure d'appariement entre les mots clés d'une requête et le texte ancre associé aux liens hypertextes des pages. Nous avons évalué cette fonction de correspondance par des expérimentations sur la collection...

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Soheila Karbasi & Lynda Lechani Tamine
Cet article s'inscrit dans le cadre général de la problématique du passage à l'échelle dans la taille des corpus en l'abordant plus précisément sous l'angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d'une évaluation expérimentale de leur impact sur l'efficacité de la recherche.

DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents.

Kaïs Khrouf & Chantal Soulé-Dupuy
L'augmentation du nombre de documents numériques gérés par les entreprises n'a fait qu'accroître les difficultés d'exploitation des informations textuelles. Ces difficultés sont en grande partie liées aux volumes à manipuler, mais également à l'hétérogénéité des sources et aux normes de structuration des informations documentaires. Il devient alors nécessaire, voire indispensable, de disposer d'outils d'intégration rendant les informations utiles accessibles, permettant de les manipuler et de les analyser. A cette fin, nous proposons le concept d'entrepôt...

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Karen Sauvagnat
RESUME : Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d'autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l'information qu'ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s'affrontent pour la recherche d'information (RI) dans des documents XML. La première est basée sur des méthodes issues de la...

Contexte et sémantique pour une indexation de documents semi-structurés.

Haïfa Zargayouna
RÉSUMÉ. Les documents semi-structurés comme les documents XML présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans dif- férents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques clas- siques de Recherche d'Information (RI) n'utilisent pas ou peu...

Un modèle à base de chemin de lecture pour la Recherche d'Informations précises sur le Web.

Saïd Radhouani, Jean-Pierre Chevallet & Mathias Géry
RÉSUMÉ . Actuellement, le noeud hypertexte (document) est utilisé comme la plus petite granularité d'information que l'utilisateur cherche. Nous supposons que le fait de considérer le noeud hypertexte comme unité informationnelle n'as pas toujours un sens, car il s'agit uniquement d'une contrainte physique. Dans la réalité, l'utilisateur peut avoir envie de rechercher un seul paragraphe, ou au contraire un ensemble de pages. Or, les SRI se basent sur la granularité d'un noeud comme unité de...

Recherche bilingue et multilingue d'information.

Jacques Savoy & Pierre-Yves Berger
RESUME . Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l'efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s'avère moins bonne que l'être humain. Toutefois, cette première...

Learning to Extract Answers in Question Answering: Experimental Studies.

Florent Jousse, Isabelle Tellier, Marc Tommasi & Patrick Marty
RÉSUMÉ. Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d'information soit un corpus donné, soit, comme c'est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d'Extraction d'Information. L'objectif de cet article est d'adapter les techniques d'ap- prentissage automatique utilisées en Extraction d'Information à...

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Karen Sauvagnat & Mohand Boughanem
Un des principaux challenge de la Recherche d'Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L'utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l'information qu'il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents. Ceci soulève les...

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Jean-Pierre Chevallet & Joo-Hwee Lim
RÉSUMÉ. Avec la prolifération des téléphones portables munis d'appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l'information à partir de requêtes images prises d'un téléphone portable. Nous présentons également des résultats expérimentaux sur l'identification de scènes, basés sur une collection test d'images originales et réalistes de scènes à Singapour.

Résumé automatique de texte avec un algorithme d'ordonnancement.

Nicolas Usunier, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ . Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L'algorithme d'ordonnancement...

Modèle évolutif d'un profil utilisateur.

Suela Berisha-Bohé & Béatrice Rumpler
RESUME. La prise en compte des besoins, des intentions et des spécificités cognitives, cuturelles ou autres, qui caractérisent le profil d'un utilsiateur constitue un élément déterminant pour améliorer la pertinence des réponses lors d'une session de Recherche d'Information dans de grandes bases de documents. La modélisation des profils et la manière de les adapter à différents utilisateurs qui n'ont pas une idée précise sur l'information qu'ils recherchent, nous permet d'offrir un accès personnalisé au contenu...

Traduction automatique de termes biomédicaux pour la recherche d'information interlingue.

Vincent Claveau
RÉSUMÉ. Dans cet article, nous présentons une méthode de traduction automatique de termes biomédicaux. Cette méthode s'appuie sur une technique originale d'apprentissage supervisé de règles de réécriture et sur l'utilisation de modèles de langue. Les évaluations présentées montrent que notre technique est très performante et permet de traduire à partir et à desti- nation de n'importe quelle langue pourvu que leurs différences soient suffisamment régulières pour être apprises. Cette méthode de traduction est appliquée et...

Recherche d'information et analyse bibliographique appliquées à la mise à jour automatique de Swiss-Prot.

Imad Tbahriti, Anne-Lise Veuthey, Patrick Ruch & Julien Gobeill
RÉSUMÉ .But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l'information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu'un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l'information de l'entrée de cette protéine dans la base. Méthodes : La procédure...

Une approche de représentation de l'information en RI basée sur les sousarbres.

Mustapha Baziz, Mohand Boughanem & Henri Prade
RÉSUMÉ. Ce papier propose une approche de recherche d’information basée sur l’utilisation d’une structure conceptuelle pour indexer les documents. La structure conceptuelle est hiérarchique. Elle est représentée par un sous-arbre pondéré. Un sous-arbre est obtenu d’abord en projetant document et requête sur une ressource conceptuelle externe, puis en appliquant une méthode de complétion via des noeuds intermédiaires extraits de cette ressource en vue d’avoir une représentation hiérarchique. Dans cette approche, l’évaluation des requêtes se fait...

Connaître la Couleur des Objets pour Segmenter les Images et Améliorer la Recherche d'Images sur le Web.

Christophe Millet
RÉSUMÉ. Les résultats des moteurs actuels de recherche d'images sur le web sont très bruités, c'est-à-dire que quand nous cherchons un objet précis, un grand nombre d'images retournées par le système ne concerne pas la requête : environ 50% de ces images sont hors-sujet. Dans cet article, nous expliquons comment utiliser la connaissance de la couleur des objets pour trouver l'objet recherché dans les images, et nous proposons également deux méthodes pour connaître automatiquement la...

Association d'un détecteur de visages et d'un détecteur d'entités nommées pour l'annotation automatique d'images.

Pierre Tirilly, Emmanuelle Martienne, Vincent Claveau & Patrick Gros
RÉSUMÉ. Dans cet article, nous proposons une méthode d'annotation d'images de visages dans un grand corpus réel de documents texte-images. Cette méthode s'appuie sur l'utilisation conjointe d'un détecteur de visages et d'un détecteur d'entités nommées : les images contenant des visages sont annotées par les entités nommées les plus fréquentes dans le texte accompa- gnant les images. Bien que basique, cette méthode donne de bons résultats. Elle constitue un premier pas vers des méthodes d'indexation...

Considérations sur l'évaluation de la robustesse en recherche d'information.

Samir Abdou & Jacques Savoy
RÉSUMÉ . Cette communication évalue et compare l'efficacité de modèles vectoriels, probabilistes ou de langue afin de dépister des articles de presse rédigés en langue française. En se basant sur un corpus créé durant trois campagnes d'évaluation CLEF et comprenant

Une approche d'extraction et de recherche d'information spatiale dans les documents textuels - évaluation.

Christian Sallaberry, Mustapha Baziz, Julien Lesbegueries & Mauro Gaio
RÉSUMÉ .Ce papier propose une approche d'Extraction d'Information (EI) et de Recherche d'Information (RI) spatiales dans le cadre de bibliothèques numériques liées au patrimoine culturel local. L'approche proposée (implémentée dans le prototype PIV) est construite autour d'une analyse sémantique de tels corpus et de requêtes écrites en texte libre. Nous présentons la méthodologie d'annotation sémantique pour l'indexation automatique et le géo-référencement de documents textuels. Un cas d'étude permet ensuite d’évaluer le processus de RI spatiale...

Indexation sémantique et recherche d'information interactive.

Frédérik Bilhaut, Franck Dumoncel, Patrice Enjalbert & Nicolas Hernandez
RÉSUMÉ . Parmi les différentes facettes de la recherche d'information en données textuelles, la recherche d'informations localisées dans l'espace et dans le temps constitue un domaine d'étude à part entière. Celle-ci nécessite en effet, pour l'indexation comme pour la recherche, des analyses linguistiques et des ressources spécifiques. Le projet GéoSem fut le cadre de conception de techniques d'indexation sémantique d'informations géographiques. Ces techniques se trouvent aujourd'hui mises en oeuvre au sein d'un moteur de recherche...

GVC: a graph-based Information Retrieval Mode.

Quoc Dinh Truong, Taoufiq Dkaki, Josiane Mothe & Pierre-Jean Charrel

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML.

Ounas Asfari
RÉSUMÉ . Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de noeuds pertinents à une requête orientée contenu 'Content Only' composée de simples mots clés dans un corpus de documents XML en prenant en compte...

Annotation collective dans le contexte RI : définition d'une plate-forme pour expérimenter la validation sociale.

Guillaume Cabanac
RÉSUMÉ. Avec l'avènement du Web participatif, les lecteurs de documents électroniques sont de plus en plus actifs. En particulier, des systèmes d'annotation leur permettent de commen- ter, de reformuler, de critiquer, etc. des passages de documents. Les approches de RI qui ne considéraient jusqu'alors que le contenu des documents tendent actuellement à exploiter cette dimension participative du Web. L'activité des lecteurs (annotations et débats suscités) peut par exemple améliorer rappel et précision des résultats de...

Registration Year

  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    598