598 Works

Structure et proximité pour la recherche documentaire.

Michel Beigbeder
RÉSUMÉ. Notre étude compare les performances d'un système de recherche d'information basé sur la proximité des occurrences des termes de la requête dans les documents avec un système classique de modèle de langue avec lissage de Dirichlet et le modèle Okapi BM25 . Notre modèle basé sur la proximité calcule en chaque position du document une valeur d'autant plus grande que des occurrences de tous les termes de la requête sont proches de cette position....

OBIRS-feedback, une méthode de reformulation utilisant une ontologie de domaine.

Mohameth-François Sy, Sylvie Ranwez, Jacky Montmain & Vincent Ranwez
RÉSUMÉ . Les performances d'un système de recherche d'information (SRI) peuvent être dégradées en termes de précision du fait de la difficulté pour des utilisateurs à formuler précisément leurs besoins en information. La reformulation ou l'expansion de requêtes constitue une des réponses à ce problème dans le cadre des SRI. Dans cet article, nous proposons une nouvelle méthode de reformulation de requêtes conceptuelles qui, à partir de documents jugés pertinents par l'utilisateur et d'une ontologie...

Extraction de formules chimiques dans des documents manuscrits composites.

Nabil Ghanmi & Abdel Belaïd
RÉSUMÉ. Nous abordons dans ces travaux, le problème de la segmentation de documents de cahiers de la chimie en zones homogènes. Les documents à traiter sont manuscrits sans contraintes composés de zones de textes, de tableaux et de graphiques, représentant l'expres- sion graphique de l'expérience réalisée. L'objectif de ce premier travail est d'extraire, dans chaque document, le bloc contenant le schéma graphique. Nous proposons une méthode d'ex- traction et de classification des structures élémentaires du...

Indexation conceptuelle par propagation. Application à un corpus d'articles scientifiques liés au cancer.

Nicolas Fiorini, Sylvie Ranwez, Vincent Ranwez & Jacky Montmain
RÉSUMÉ . Si la recherche d'information conceptuelle a montré son efficacité dans différents contextes, elle nécessite de disposer de corpus de ressources indexées avec des concepts issus d'une ontologie de domaine. Or le processus d'indexation est souvent lourd et fastidieux et des solutions doivent être imaginées pour assister les experts dans cette tâche. Nous avons étendu notre méthode de propagation d'indexations vectorielles au cas de l'indexation con- ceptuelle, ce qui nous permet de suggérer à...

Un modèle de RI basé sur des critères d'obligation et de certitude.

Leïla Kefi, Catherine Berrut & Éric Gaussier
RÉSUMÉ Il existe un grand nombre de modèles de recherche d'information chacun ayant pour but de répondre au mieux aux attentes des utilisateurs. Le modèle que nous proposons se base sur une formulation précise de la requête reflétant le besoin de l'utilisateur : Chaque terme de la requête est augmenté par deux critères, l'un exprimant l'obligation ou non de l'apparition du terme dans les documents et l'autre exprimant la certitude de l'utilisateur quand au terme...

Impact des Réseaux Sociaux sur le Processus de Recherche d'Information.

Chahrazed Bouhini
RÉSUMÉ. L'explosion du Web 2.0 (blogs, wikis, sites de partage, réseaux sociaux, etc.) ouvre des perspectives inédites de partage et de gestion de l'information, en permettant la construction collaborative de contenus et le développement de réseaux sociaux ouverts. Notre travail s'articule autour des problématiques d'accès à l'information dans ce contexte où l'utilisateur est à la fois producteur et consommateur de contenus dans une structure qui représente les relations sociales sous forme de graphes. Nous présentons...

Annotation automatique d’images: le cas de la déforestation

Duy Ngoc Thai Huynh & Nathalie Neptune
RÉSUMÉ Cet article correspond à un état de l'art sur le thème de l'annotation automatique d'images d'observation de la terre pour la détection de la déforestation. Nous nous intéressons aux différents challenges que recouvre le domaine et nous présentons les méthodes de l'état de l'art puis les pistes de recherche que nous envisageons.

Accès personnalisé multicritères à de multiples sources d'informations.

Samir Kechid
RÉSUMÉ . Cet article décrit une approche de la recherche d'information permettant l'accès personnalisé à plusieurs sources d'informations. L'accès à des sources d'informations distribuées est souvent effectué en trois étapes, la première consiste à sélectionner les sources pertinentes pour la requête, puis soumettre la requête à ces sources sélectionnées et finalement fusionner les résultats retournés par ces sources. L'objectif de cet article est d'intégrer l'utilisateur via son profil dans les processus de sélection et de...

Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français.

Rahma Sellami, Fatiha Sadat & Lamia Hadrich Belguith
RÉSUMÉ. Dans cet article, nous nous intéressons à l'exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d'extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l'alignement du corpus des Nations Unies...

Construire et évaluer une application de veille pour l'information sur les événements sismiques.

Romaric Besançon, Olivier Ferret & Ludovic Jean-Louis
RÉSUMÉ. Le développement d'applications opérationnelles de veille pour des domaines spéci- fiques nécessite l'intégration de nombreuses techniques et outils issus du champ de la recherche d'information et du traitement automatique des langues. Dès lors, un des défis présidant à une telle intégration est la prise en compte des limitations propres à chacune de ces techniques et outils en termes d'influence sur le résultat final du système. Plus précisément, nous pré- sentons dans cet article une...

Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs

Meryem Bendella & Mohamed Quafafou
RÉSUMÉ. Les services sociaux de microblogging jouent un rôle important dans notre société. Twitter est l'une des plateformes de microblogging les plus populaires, utilisées par les in- ternautes pour trouver des informations pertinentes (sujets d'actualité, tendances populaires, informations sur certains internautes, etc.). Dans ce contexte, la recherche d'information pro- venant de telles données a récemment gagné un intérêt majeur et ouvert de nouveaux défis. Cependant, la taille de ces données ainsi que des requêtes est...

Répondre à des questions à réponses multiples : premières expérimentations.

Mathieu-Henri Falco, Véronique Moriceau & Anne Vilnat
RÉSUMÉ. Une des difficultés majeures des systèmes de question-réponse concerne l'extraction des bonnes réponses depuis les documents sélectionnés par un moteur de recherche. En effet, il est souvent difficile de procéder à un recoupement des candidats réponses, notamment dans le cas des questions qui attendent plusieurs réponses. Afin de nous focaliser sur les condi- tions d'extraction et de recoupement de réponses multiples, nous avons construit un corpus en u conditions idéales » pour une dizaine...

Définition d'un profil multidimensionnel de l'utilisateur : Vers une technique basée sur l'interaction entre dimensions.

Lynda Tamine-Lechani & Wahiba Bahsoun
RÉSUMÉ. La personnalisation d'un processus d'accès à l'information a pour objectif de délivrer à l'utilisateur une information appropriée à ses préférences, ses centres d'intérêts ou plus globalement son profil. Ce papier présente une technique de construction du profil de l'uti- lisateur qui s'inscrit dans une approche statistique utilisant le comportement de l'utilisateur comme source permettant de prédire implicitement son modèle. Cette technique s'articule plus particulièrement sur l'interaction entre dimensions du profil représentées par l'historique des...

Lecture Séquentielle de Documents pour la Classification.

Gabriel Dulac-Arnold, Ludovic Denoyer & Patrick Gallinari
RÉSUMÉ. Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d'un agent qui lit un docu- ment phrases après phrases et qui peut à tout moment décider d'associer un document à une ou plusieurs catégories données. L'algorithme proposé se base sur une formalisation de la classi- fication de texte en tant que Processus de Décision Markovien, et un apprentissage du modèle par des...

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

Classement collaboratif de manuscrits.

Pierre-Edouard Portier
RÉSUMÉ. Pour chaque projet d'édition numérique de manuscrits, après que le corpus ait été constitué, les chercheurs commencent par le classer. Cette opération demande de grands ef- forts d'interprétation, elle n'est pas neutre mais contribue à la construction du point de vue du chercheur sur son objet d'étude. Ainsi, plusieurs classements peuvent être proposés pour un même sous-ensemble de l'archive. Or il n'existe pas de plateforme informatique spécifi que pour assister les chercheurs dans cette...

Evolution des profils d'entités à l'aide d'un modèle de langue sensible au temps.

Vincent Bouvier & Patrice Bellot
RÉSUMÉ. Retrouver des informations importantes en temps sur une entité nommée particulière est un réel challenge. En effet, cela implique d'être capable de détecter l'entité dans les documents, mais en plus d'être capable de qualifier d'importante, au regard de l'entité, l'information véhiculée par le document. Dans cet article, nous formalisons un modèle de langue sensible au temps, et nous l'utilisons dans les profils d'entités. Nous mettons en place un ensemble de méta critères qui utilisent...

Modèle de langue visuel pour la reconnaissance de scènes.

Trong-Ton Pham, Loïc Maisonnasse, Philippe Mulhem & Éric Gaussier
RÉSUMÉ. Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d'images. Nous utilisons des régions d'images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d'apprentissage ou de...

Détection et segmentation des blocs de texte manuscrits et imprimés dans des documents complexes.

Philippine Barlas, Clément Chatelain, Sébastien Adam & Thierry Paquet
RÉSUMÉ. Dans cet article, nous présentons un système de segmentation des zones de texte imprimées ou manuscrites dans des documents complexes. La méthode réalise une première classification des composantes connexes en tant que texte/non-texte, puis un deuxième étage discrimine les composantes manuscrites des composantes imprimées. Les composantes de texte sont ensuite regroupées en blocs homogènes à l'aide d'un algorithme basé sur la détection des rectangles blancs. Nous présentons les résultats obtenus par le système lors...

Recherche d'information et analyse bibliographique appliquées à la mise à jour automatique de Swiss-Prot.

Imad Tbahriti, Anne-Lise Veuthey, Patrick Ruch & Julien Gobeill
RÉSUMÉ .But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l'information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu'un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l'information de l'entrée de cette protéine dans la base. Méthodes : La procédure...

Vers l'alignement des signaux écrit et sonore. Application à la reconnaissance des expressions mathématiques.

Sofiane Medjkoune, Harold Mouchère, Simon Petit-Renaud & Christian Viard-Gaudin
RÉSUMÉ. Dans cet article, nous rapportons de nouveaux résultats sur la reconnaissance des expressions mathématiques (EMs). Nous abordons cette problématique en considérant l'aspect bimodal de l'information : c'est à dire exploiter à la fois le signal de parole et celui de l'écriture manuscrite représentant la même EM. Ceci permet de disposer de plus de fiabilité lors d'un trai- tement automatique, d'autant plus que ces deux modalités s'avèrent être très complémentaires. Nous proposons d'aligner les deux...

Extraction de zones informatives dans des images de formulaire en couleur.

Maroua Hammami, Pierre Héroux & Sébastien Adam
RÉSUMÉ. Nous présentons, dans cet article, une approche permettant de localiser des zones informatives dans des documents couleur, par extraction de zones rectangulaires de couleur homogène. L'objectif de ce travail est d'obtenir des ancres pour le répérage et l'extraction d'information textuelle. L'approche proposée repose sur trois étapes. La première consiste à procéder à un filtrage de bruit, tout en évitant de créer de nouvelles couleurs ou de causer des distortions des contours. Ensuite, une quantificiation...

Recherche d'images en mobilité : le système IOTA-EyeSnap.

Philippe Mulhem, Jean-Pierre Chevallet & Nicolas Cubaud
RÉSUMÉ. Cet article décrit le système IOTA-EyeSnap, un système de recherche d'images mobile appliqué à la recherche de photographies de peintures dans le cadre du projet CLICIDE. Ce système repose sur un enchaînement d'approches probabilistes : la première à base de modèle de langue sur des graphes représentant les images, et la seconde à base de modèles bayésiens. Nous détaillons les contraintes et les choix réalisés. Ils sont adaptés à la mobilité dans un cadre...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598