619 Works

Vers un modèle de langue mixte concepts-mots pour la recherche d'information.

Lynda Said L'Hadj, Mohand Boughanem & Karima Amrouche
RÉSUMÉ. La majorité des modèles de langue appliqués à la recherche d'information repose sur l'hypothèse d'indépendance des mots apparaissant dans les documents et les requêtes. Plus précisément, ces modèles sont estimés à partir des mots simples sans considérer les éventuelles relations sémantiques et conceptuelles. Pour pallier ce problème, deux grandes approches ont été explorées : la première intègre des dépendances d'ordre surfacique entre les mots (bi-grammes, bi-termes), et la seconde repose sur l'utilisation des ressources...

Modèles de RI fondés sur l'information.

Stéphane Clinchant & Éric Gaussier
RÉSUMÉ. Dans une premier temps, nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d'ordonnancement (retrieval function): ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d'information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une...

Classification automatique de textes basée sur une ontologie normée. Application du Extensible Business Reporting Language (XBRL) au Reuters Corpus Volume 1 (RCV1).

Stephane Gagnon, Sadia Messaoudi & Alain Charbonneau
RÉSUMÉ . Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en...

Interprétation linguistique de requêtes pour un moteur de questions réponses grand public.

Michel Plu & Johannes Heinecke
RÉSUMÉ. Cet article décrit l'utilisation d'une plateforme de traitement automatique des langues naturelles pour le développement d'une fonction de réponses à des questions dans un moteur de recherche. Cette plateforme est utilisée pour faire une interprétation linguistique des re- quêtes. L'intérêt de cette approche est triple. Premièrement elle permet d'identifier uniquement les requêtes qui correspondent à des questions factuelles pour lesquelles le moteur a une ré- ponse précise. Deuxièmement, elle reconnait ces questions quelque soit...

Différentes interprétations d'un modèle de RI à base d'inclusion graduelle.

Laurent Ughetto, Vincent Claveau & Rima Harastani
RÉSUMÉ. Récemment, un modèle théorique de RI à base d’inclusion graduelle a été proposé (Bosc et al., 2008b). Dans ce modèle, dérivé de la division de relations floues, l’inclusion graduelle d’une requête dans un document est modélisée par une implication floue. Dans des travaux précédents, nous avons montré que ce modèle pouvait être interprété comme un modèle vectoriel sous certaines conditions. Dans cet article, nous proposons d’explorer d’autres interprétations possibles offertes par la modélisation à...

Exploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information.

Madalina Mitran
RÉSUMÉ. Les moteurs de recherche communs exploitent le contenu des documents qu'ils indexent. Or, les internautes créent également des données explicites (tags, annotations, commentaires, notes, données de géoréférencement, etc.) et implicites (clics, logs, etc.) qu'il semble utile de prendre en compte pour améliorer l'indexation. Nos travaux concernent actuellement deux problématiques. Premièrement, comment analyser les bookmarks sociaux pour en extraire les centres d'intérêts des individus et leurs tendances tout en prenant en compte la dimension temporelle?...

Speaker diarization de fichiers vidéos hétérogènes issus du web.

Pierre Clément
RÉSUMÉ. Ces dix dernières années, internet a significativement changé. Le principal change- ment est certainement le contenu proposé, que ce soit dans sa quantité, sa diversité ou encore le média utilisé pour le présenter. Concernant le média audio/video, l'évolution la plus im- pressionnante est le succès continuellement grandissant des sites de partage de vidéos. Mais ce succès entraîne des diffcultés à indexer efficacement le contenu de ces documents. La segmenta- tion et le regroupement en...

A Document Frequency Constraint for Pseudo-Relevance Feedback Models.

Stéphane Clinchant & Éric Gaussier
RÉSUMÉ. Nous étudions dans cet article le comportement de plusieurs modèles de rétro- pertinence en mettant en avant leurs principales caractéristiques. Ceci nous conduit à intro- duire une nouvelle contrainte pour les modèles de rétro-pertinence, contrainte liée à la fré- quence documentaire (DF) des mots. Nous analysons ensuite, d'un point de vue théorique, différents modèles de rétro-pertinence par rapport à cette contrainte. Cette analyse montre que le modèle de mélange utilisé en rétro-pertinence pour les...

OBIRS-feedback, une méthode de reformulation utilisant une ontologie de domaine.

Mohameth-François Sy, Sylvie Ranwez, Jacky Montmain & Vincent Ranwez
RÉSUMÉ . Les performances d'un système de recherche d'information (SRI) peuvent être dégradées en termes de précision du fait de la difficulté pour des utilisateurs à formuler précisément leurs besoins en information. La reformulation ou l'expansion de requêtes constitue une des réponses à ce problème dans le cadre des SRI. Dans cet article, nous proposons une nouvelle méthode de reformulation de requêtes conceptuelles qui, à partir de documents jugés pertinents par l'utilisateur et d'une ontologie...

Une plate-forme open-source de recherche d'information sémantique.

Ines Bannour & Haïfa Zargayouna
RÉSUMÉ. Les méthodes de RIS visent à s'affranchir des problèmes classiques de synonymie et polysémie via le passage au niveau conceptuel. Elles reposent souvent sur l'utilisation d'une ressource sémantique. La qualité des résultats dépend des fonctionnalités sémantiques mises en place ainsi que de la qualité de la ressource utilisée. Malgré la profusion des propositions, l'apport d'une sémantique explicite reste à prouver. Nous proposons une décomposition des fonctionnalités qui sont communes aux différentes méthodes de RI....

Regroupement de relations pour l'extraction d'information non supervisée.

, Romaric Besançon, Olivier Ferret & Brigitte Grau
RÉSUMÉ. En contexte de veille, l’extraction d’information non supervisée a pour but d’extraire des relations entre entités sans fournir de connaissances a priori sur les natures de ces relations. Dans ce contexte, nous nous intéressons à l’identification et la caractérisation de nouvelles relations entre des types d’entités fixés. Nous présentons dans cet article une procédure de filtrage de relations combinant des méthodes heuristiques et des méthodes par apprentissage, permettant d’atteindre un score de F-mesure de...

Reclassement d'images par le contenu.

Georges Quénot & Franck Thollard
RÉSUMÉ. Cet article présente une méthode permettant de reclasser les images fournies par un moteur de recherche par mots-clés à l'échelle du web et à l'état de l'art. Cette méthode utilise le contenu visuel des images et elle est basée sur l'idée que les images pertinentes doivent être semblables entre elles et que les images non pertinentes doivent être différentes entre elle et des images pertinentes. Cette idée a été implémentée en classant les images...

Etude comparative de stratégies de sélection de prédicteurs pour l'attribution d'auteur.

Jacques Savoy
RESUME. L'attribution d'auteur peut être vue comme une tâche en catégorisation de textes qui se subdivise en deux étapes. D'abord nous devons sélectionner les mots les plus discriminants puis appliquer un modèle de classification. Afin de bien choisir les meilleurs termes, nous avons évalué sept fonctions de sélection dont l'information mutuelle ponctuelle, le gain d'information, le rapport de cotes, le X2 ou le coefficient de corrélation. Nous avons également retenu deux stratégies de sélection proposeés...

Représentations et régularisations pour la classification de sentiments.

Abdelhalim Rafrafi, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d'un nouveau genre présentant de forts enjeux économiques et scienti- fiques. L'exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d'opinion est également d'affiner les profils d'uti- lisateurs et d'utiliser les sources ouvertes du web pour effectuer des sondages. Les algorithmes...

Automatic relevant Source Discovery over the Internet based on user profile.

Romain Noel
RÉSUMÉ. La rapide croissance d’Internet ces dernières années a rendu difficile la découverte de nouvelles sources d’intérêt sur un sujet donné parmi l’important nombre de sources disponibles. Pour résoudre ce problème, nous présentons une approche permettant de fournir aux utilisateurs de nouvelles sources d’information pertinentes en exploitant leur besoin. Elle vise à combiner un robot d’indexation personnalisé et un système de filtrage collaboratif. Nous étudions l’intérêt d’exploiter le profil de l’utilisateur pendant le processus de...

Intérêt des ressources morphologiques pour la recherche d'information précise.

Anne-Laure Ligozat, Delphine Tribout & Brigitte Grau
RÉSUMÉ. Cet article présente la construction automatique, le filtrage et la validation d'une ressource morphologique concernant les noms d'agents déverbaux. Cette validation utilise dif- férentes ressources et corpus pour tester l'appartenance des verbes et noms à la même famille morphologique, ainsi que leur lien, méthode qui peut se généraliser à d'autres ressources du même type. Hormis une méthode de construction et d'aide à la validation d'une ressource, nous montrerons l'intérêt de disposer de ressources morphologiques...

Construction de profils folksonomiques pour la Recherche d'Information.

Jonathan Van Puymbrouck, Adeline Nazarenko & Antoine Rozenknop
RÉSUMÉ. Cet article présente une méthode qui exploite les folksonomies pour prendre en compte les profils de l'utilisateur lors de sa recherche d'information. Une folksonomie est constituée d'un ensemble de relations associant un utilisateur, une ressource et le mot-clé que le premier a utilisé pour tagger la seconde. L'idée consiste à construire un recouvrement de ces relations folksonomiques par un ensemble de micro-folksonomies qui relient des groupes d'utilisateurs, un vocabulaire de tags et un ensemble...

Modèles d'information pour la recherche multilingue.

& Éric Gaussier
RÉSUMÉ. Nous présentons dans cet article plusieurs extensions multilingues des modèles d'infor- mation, en particulier le modèle log-logistique (LL) et le modèle Smoothed Power Law (SPL), récemment introduits en recherche d'information (Clinchant et al., 2010). Ces extensions sont fondées sur (a) une généralisation de la notion d'information utilisée dans ces modèles, (b) une généralisation des variables aléatoires utilisées et (c) une expansion de la requête utilisant l'en- semble des traductions de chaque mot. Nous analysons...

Classification de questions par traduction.

Anne-Laure Ligozat
RÉSUMÉ. Dans cet article, nous nous intéressons à la classification de questions pour un système de questions-réponses en français. Faisant le constat d'un manque de corpus annoté en français, nous nous interrogeons sur la possibilité d'exploiter les corpus anglais existants, en utilisant des traducteurs automatiques. Nous avons mené une série d'expériences en faisant varier le sens de traduction des corpus et les attributs fournis au classifieur. Les résultats mon- trent qu'il est possible de s'approcher...

Pseudo-réinjection de pertinence basée sur un modèle de langue mixte combinant les termes simples et composés.

Arezki Hammache, Mohand Boughanem & Rachid Ahmed-Ouamer
RÉSUMÉ. Dans cet article nous présentons une nouvelle technique de reformulation de requête. Cette technique considère la requête comme un ensemble de termes composés et un ensemble de termes simples. Pour déterminer les termes d'expansion on additionne les poids des relations d'un terme candidat avec chacun des termes de la requête (simple, composé). Un terme candidat est choisi s'il est fortement en relation avec la plupart des termes de la requête. Cette technique est modélisée...

Attribution d'auteur par ensembles de séparateurs.

Jacques Savoy
RÉSUMÉ . L'attribution d'auteur peut être analysée comme une tâche particulière en catégorisation de textes. Dans cette perspective, on définit d'abord une liste d'attributs pertinents (vocables dans cet article). Ensuite, on entraîne un modèle de classification afin de discriminer entre les auteurs potentiels. Pour améliorer la performance moyenne on peut s'appuyer sur un ensemble de séparateurs, la solution retenue étant celle de la majorité (bagging). Afin de générer ce groupe de classifieurs, nous présentons deux...

Diversité de recommandations - Application à une plateforme de blogs et évaluation.

Laurent Candillier, Max Chevalier, Damien Dudognon & Josiane Mothe
RÉSUMÉ. Les systèmes de recommandations (SR) ont pour objectif de proposer automatiquement à l'usager des objets en relation avec ses intérêts. Dans le contexte de la recherche documen- taire, les intérêts de l'usager peuvent être modélisés à partir des contenus des documents visités ou des actions réalisées. Pour tendre vers des recommandations plus pertinentes, nous propo- sons un modèle de SR qui construit une liste de recommandations répondant à un large spectre d'intérêts potentiels. L'orignialité...

Mesure de la similarité entre termes et labels de concepts ontologiques.

Van Tien Nguyen, Christian Sallaberry & Mauro Gaio
RÉSUMÉ. Nous proposons dans cet article une méthode permettant de mesurer la similarité entre des termes et des concepts ontologiques. Notre métrique permet de prendre en compte les mots proches communs aux deux chaînes de caractères à comparer mais également d'autres carac- téristiques telles que la position des mots dans ces chaînes, ou encore, le nombre d'opérations de suppression, d'insertion ou de remplacement de mots nécessaire à la construction d'une des deux chaînes à partir...

Pondération des concepts en recherche d'information sémantique.

Fatiha Boubekeur & Wassila Azzoug
RÉSUMÉ . L'objectif principal de la pondération en recherche d'information (RI) est d'assigner aux termes d'index des poids sensés traduire leur importance dans les documents où ils apparaissent. En RI sémantique, les termes d'index représentent des concepts. L'importance d'un concept est généralement mesurée soit à travers sa fréquence d'occurrence, soit à travers sa centralité, définie comme son degré de relation avec les autres concepts du document. Dans ce papier, nous proposons et évaluons une approche...

Registration Year

  • 2021
    21
  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    597
  • Conference Paper
    21
  • Conference Proceeding
    1