598 Works

Critères d'évaluation pour les interfaces des systèmes de recherche d'information.

Nicolas Bonnel & Max Chevalier
RÉSUMÉ. La visualisation (ou restitution) des résultats d'une recherche est une étape essentielle dans tout processus de recherche d'information. En effet, les interfaces utilisateur d'information servent de lien entre les utilisateurs et les systèmes de recherche d'information, et permettent donc de donner un u sens » aux résultats pour les utilisateurs. Face à l'importance que prend la visualisation des résultats, de nombreuses interfaces (textuelles, 2D ou 3D) ont été proposées depuis une dizaine d'années. Cependant,...

Recommandation par combinaison de filtrage collaboratif et d'analyse de sentiments.

Mickaël Poussevin, Élie Guàrdia-Sebaoun, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Les domaines de la recommandation et de la classification de sentiments sont restés complètement disjoints jusqu'ici: d'un coté, la recommandation exploite les matrices d'inter- action entre les utilisateurs et les produits, sous la forme de notes en faisant l'impasse sur les données textuelles, de l'autre, la fouille d'opinion exploite les revues/notes de consomma- teurs pour construire des modèles d'analyse de documents. Nous proposons dans cet article un modèle exploitant aussi des données d'interaction textuelles...

Séparation imprimé-manuscrit par étude de la linéarité et de la régularité du texte.

Sameh Hamrouni, Florence Cloppet & Nicole Vincent
RÉSUMÉ. Le but de cet article est de proposer une méthode pour la séparation entre manuscrit et imprimé dans des documents. La méthode proposée repose sur des descripteurs originaux appartenant à deux catégories différentes, la linéarité et la régularité, invariants à la translation et à l’échelle. Plus précisément, nous dérivons une mesure de linéarité à partir de l’histogramme des longueurs des segments. Le cadre résultant est indépendant de la forme du document et du type...

Réseaux de neurones de quaternions pour le traitement du langage.

Titouan Parcollet, Mohamed Morchid & Georges Linarès
RÉSUMÉ. Les algorithmes d'apprentissage automatique, comme les réseaux de neurones (NN), ont permis d'atteindre des performances notables dans de nombreuses tâches liées au traite- ment automatique du langage (TAL). En TAL les contenus sont généralement représentés dans des espaces lexicaux ou thématiques. Les méthodes de traitement des contenus- y compris celles basées sur des NN- opèrent donc dans des espaces où les relations statistiques entre les élé- ments du document sont faiblement considérées. Nous proposons...

À la recherche des paramètres des modèles de RI.

Parantapa Goswami, Massih-Reza Amini & Éric Gaussier
RÉSUMÉ. Nous abordons ici le problème de l'estimation des paramètres des modèles standard de la recherche d'information sur de nouvelles collections pour lesquelles aucun jugement de pertinence n'est disponible. Pour cela, nous nous reposons sur des collections passées pour lesquelles des jugements de pertinence sont disponibles et introduisons une nouvelle représen- tation des requêtes indépendante de la collection considérée. À partir de cette représentation et des collections passées, nous apprenons une fonction de régression capable...

Vectorisation du modèle d'appariement pour la recherche d'images par le contenu.

Hanen Karamti
RÉSUMÉ. Le développement rapide des techniques de numérisation et de stockage a engendré une croissance accrue du volume des documents électroniques (textes, images, sons et vidéos). Pour faire face à cette grande masse d'informations, en particulier les images, il est nécessaire de développer des outils qui permettent d'optimiser l'accès à de telles sources de données. Le problème qui se pose est la représentation du contenu d'images, puisque les techniques actuelles ne permettent pas de décrire...

Aide à la gestion des processus de numérisation en vue de l'OCRisation des ouvrages.

Ahmed Ben Salah
RÉSUMÉ. Dans cet article, nous étudions deux pistes afin d'améliorer le processus de numérisa- tion des documents de la Bibliothèque nationale de France en vue de leur OCRisation. Dans la première partie, nous étudions les corrélations qui existent entre les données bibliographiques du document et les décisions de sélection des documents. Dans la deuxième partie, nous pré- sentons une méthode basée sur la précision et le rappel qui va nous servir à estimer le taux...

Impact des Réseaux Sociaux sur le Processus de Recherche d'Information.

Chahrazed Bouhini
RÉSUMÉ. L'explosion du Web 2.0 (blogs, wikis, sites de partage, réseaux sociaux, etc.) ouvre des perspectives inédites de partage et de gestion de l'information, en permettant la construction collaborative de contenus et le développement de réseaux sociaux ouverts. Notre travail s'articule autour des problématiques d'accès à l'information dans ce contexte où l'utilisateur est à la fois producteur et consommateur de contenus dans une structure qui représente les relations sociales sous forme de graphes. Nous présentons...

Classification automatique de textes basée sur une ontologie normée. Application du Extensible Business Reporting Language (XBRL) au Reuters Corpus Volume 1 (RCV1).

Stephane Gagnon, Sadia Messaoudi & Alain Charbonneau
RÉSUMÉ . Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en...

Expansion de requêtes pour la recherche d'information multilingue.

Benoît Gaillard, Jean Léon Bouraoui, Emilie Guimier De Neef & Malek Boualem

Phrases Visuelles pour l'annotation automatique d'images.

Rami Albatal, Philippe Mulhem & Yves Chiaramella
RÉSUMÉ. L'annotation automatique d'images photographiques est un problème complexe. En ef- fet, les caractéristiques visuelles des objets d'une classe varient selon l'instance considérée et les conditions de prise de vue. Nous proposons dans cet article une caractérisation visuelle des parties d'objets appelées 'Phrases Visuelles', robuste à ces variations. Une Phrase Visuelle est un ensemble de régions d'intérêts construit suivant des critères prédéfinis; un critère proposé et étudié ici est de nature topologique. Basé sur notre...

Évaluation de modèles de classification automatique appliqués à la détection d'opinions.

Olena Zubaryeva & Jacques Savoy
RÉSUMÉ . Cet article présente et évalue différentes stratégies de classification automatique d'opinions. Ces dernières sont exprimées dans des phrases que le système doit classifier comme renfermant ou non une opinion. Dans ce but, nous avons retenu une classification basée sur le modèle Naïve Bayes et une autre basée sur des séparateurs à vaste marge (SVM). Comme alternative, nous suggérons un modèle basé sur le vocabulaire spécifique et le calcul d'un score normalisé (score Z)....

Impact de l'information visuelle pour la Recherche d'Images par le contenu et le contexte.

Christophe Moulin, Christine Largeron & Mathias Géry
RÉSUMÉ. Les documents multimédia composés de texte et d'images sont de plus en plus présents grâce à Internet et à l'augmentation des capacités de stockage. Cet article présente un modèle de représentation de documents multimédia qui combine l'information textuelle et l'information visuelle. En utilisant une approche par sac de mot, un document composé de texte et d'image peut être décrit par des vecteurs correspondant à chaque type d'information. Pour une requête multimédia donnée, une liste...

Modèle d'indexation dynamique à base d'ontologies.

Gilles Hubert, Josiane Mothe, Bachelin Ralalason & Bertin Ramanonjisoa
RÉSUMÉ .Cet article propose un modèle de données pour une indexation basée sur une ontologie de référence représentant la sémantique des termes d'indexation. Le modèle proposé vise à permettre une indexation en temps réel qui suit la dynamique du corpus tout en assurant la disponibilité des documents et de l'index. Ceci permet de garder la cohérence entre les documents de la collection, l'index et l'ontologie de référence. Notre modèle permet ainsi d'éviter la reconstruction de...

Clustering en recherche d'information : concentration vs distribution de l'information pertinente.

Sylvain Lamprier, Tassadit Amghar, Bernard Levrat & Frédéric Saubion
RÉSUMÉ. S'appuyant sur la Cluster Hypothesis, qui stipule que les documents pertinents à une requête tendent à être plus proches les uns des autres que des documents non pertinents, la plupart des systèmes de recherche d'information réalisant une catégorisation de leurs ré- sultats visent à regrouper l'ensemble des documents pertinents dans un même groupe. Nous proposons ici, par la mise en place de nouvelles mesures d'évaluation, de reconsidérer les bé- néfices résultant d'une telle concentration...

Annotation collective dans le contexte RI : définition d'une plate-forme pour expérimenter la validation sociale.

Guillaume Cabanac
RÉSUMÉ. Avec l'avènement du Web participatif, les lecteurs de documents électroniques sont de plus en plus actifs. En particulier, des systèmes d'annotation leur permettent de commen- ter, de reformuler, de critiquer, etc. des passages de documents. Les approches de RI qui ne considéraient jusqu'alors que le contenu des documents tendent actuellement à exploiter cette dimension participative du Web. L'activité des lecteurs (annotations et débats suscités) peut par exemple améliorer rappel et précision des résultats de...

Involving Validity Indices in Document Clustering.

Ahmad El Sayed, Hakim Hacid & Djamel A. Zighed

Prédiction du SRI à utiliser en fonction des critères linguistiques de la requête.

Désiré Kompaoré, Josiane Mothe, Alain Baccini & Sébastien Déjean
RÉSUMÉ . En recherche d'information (RI), plusieurs techniques existent et sont utilisées par les systèmes pour répondre de manière efficace aux requêtes des utilisateurs. Nous nous intéressons dans ce papier à comment utiliser les caractéristiques linguistiques des requêtes pour prédire le(s) meilleur(s) système(s) à utiliser pour une requête donnée. Pour ce faire, nous avons utilisé 13 critères linguistiques définis dans (Mothe et al, 2005) pour catégoriser les requêtes de la campagne TREC 3, 5, 6...

Co-citations sur le Web : Recherche de Similarité entre les Articles Scientifiques.

Thanh-Trung Van & Michel Beigbeder
RÉSUMÉ. Dans cet article nous introduisons une nouvelle méthode pour estimer la similarité entre les articles scientifiques en utilisant un moteur de recherche sur le Web. Dans cette mé- thode, la similarité entre deux articles est basée sur le nombre de fois où ils sont mentionnés ensemble sur le Web. Cette méthode est appelée la méthode des co-citations sur le Web. Nous avons fait des expérimentations pour comparer la performance de différentes méthodes de cita-...

Analyse Expérimentale sur la structure des index documentaires et leur impact sur l'efficacité de la recherche: Cas de collections volumineuses.

Soheila Karbasi & Lynda Lechani Tamine
Cet article s'inscrit dans le cadre général de la problématique du passage à l'échelle dans la taille des corpus en l'abordant plus précisément sous l'angle des limites des représentations locales et globales des index documentaires. Une analyse globale de la structure de ces index est présentée en utilisant des collections de référence TREC. Cette analyse est suivie d'une évaluation expérimentale de leur impact sur l'efficacité de la recherche.

Recherche bilingue et multilingue d'information.

Jacques Savoy & Pierre-Yves Berger
RESUME . Afin de pouvoir interroger des corpus écrits dans plusieurs langues, la stratégie la plus simple et la moins onéreuse consiste à traduire la requête soumise dans la (ou les) langue(s) souhaitée(s). Dans ce but, nous nous sommes appuyés sur des ressources dispo- nibles gratuitement sur le Web. En comparant l'efficacité du dépistage entre les requêtes traduites manuellement ou automatiquement, on constate que la machine s'avère moins bonne que l'être humain. Toutefois, cette première...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598