544 Works

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne.

Aurélien Lauf
RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d'assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voisins partagés dans un graphe de cooccurrences. Nos thématiques peuvent...

Recherche d'entités nommées dans les journaux radiophoniques par contextes hiérarchique et syntaxique.

Azeddine Zidouni, Hervé Glotin & Mohamed Quafafou
RÉSUMÉ. Ce papier présente une approche pour la recherche d'entités nommées dans des transcriptions radiophoniques. Nous allons utiliser les structures des entités nommées afin d'améliorer le taux de leur reconnaissance. En effet, l'espace des entités peut être représenté par une structure hiérarchique (arbre). Ainsi, un concept peut être vu comme un noeud dans l'arbre, et une entité comme un parcours dans la structure de l'espace. Nous allons montrer l'apport de cette représentation en utilisant le...

Intérêt des ressources morphologiques pour la recherche d'information précise.

Anne-Laure Ligozat, Delphine Tribout & Brigitte Grau
RÉSUMÉ. Cet article présente la construction automatique, le filtrage et la validation d'une ressource morphologique concernant les noms d'agents déverbaux. Cette validation utilise dif- férentes ressources et corpus pour tester l'appartenance des verbes et noms à la même famille morphologique, ainsi que leur lien, méthode qui peut se généraliser à d'autres ressources du même type. Hormis une méthode de construction et d'aide à la validation d'une ressource, nous montrerons l'intérêt de disposer de ressources morphologiques...

Vers une catégorisation visuelle facilitant le partage de connaissances en mode Web 2.0.

Xiaoyue Ma & Nour El Mawas
Une classification efficace des connaissances partagées facilite la recherche des informations dans une communauté en utilisant des tags bien structurés. Cependant, la construction d'une telle catégorisation collabirative est de plus en plus confrontée aux défis des langues, des thématiques multiples, et des cas où les connaissances partagées sont très variées. Dans cet article, nous introduisons un système iconique structuré qui permettra d'alémliorer la catégorisation textuelle dans un contexte multi-contributeurs (en mode "Web 2.0"). Ce système...

Modèle de langue visuel pour la reconnaissance de scènes.

Trong-Ton Pham, Loïc Maisonnasse, Philippe Mulhem & Éric Gaussier
RÉSUMÉ. Dans cet article, nous décrivons une méthode pour utiliser un modèle de langue sur des graphes pour la recherche et la catégorisation d'images. Nous utilisons des régions d'images (associées automatiquement à des concepts visuels), ainsi que des relations spatiales entre ces régions, lors de la construction de la représentation sous forme de graphe des images. Notre méthode gère différents scénarios, selon que des images isolées ou groupées soient utilisés comme base d'apprentissage ou de...

Une approche pour la recherche sémantique de l'information dans les documents semi-structurés hétérogènes.

Yassine Mrabet, Nacéra Bennacer, Nathalie Pernelle & Mouhamadou Thiam
RÉSUMÉ. Ce papier présente SHIRI-Querying, une approche pour la recherche sémantique de l'information dans les documents semi-structurés. Nous proposons une solution pour pallier l'incomplétude et l'imprécision des annotations au moment de l'interrogation. Cette solution repose sur deux types de reformulations élémentaires qui exploitent la notion d'agrégation et la structure des documents. Nous présentons l'algorithme DREQ qui combine ces transfor- mations élémentaires pour construire des reformulations ordonnées de la requête utilisateur. L'étude de notre approche sur...

Vers un modèle de langue mixte concepts-mots pour la recherche d'information.

Lynda Said L'Hadj, Mohand Boughanem & Karima Amrouche
RÉSUMÉ. La majorité des modèles de langue appliqués à la recherche d'information repose sur l'hypothèse d'indépendance des mots apparaissant dans les documents et les requêtes. Plus précisément, ces modèles sont estimés à partir des mots simples sans considérer les éventuelles relations sémantiques et conceptuelles. Pour pallier ce problème, deux grandes approches ont été explorées : la première intègre des dépendances d'ordre surfacique entre les mots (bi-grammes, bi-termes), et la seconde repose sur l'utilisation des ressources...

Amélioration d'un corpus de requêtes à l'aide d'une méthode non-supervisée.

Vincent Bouvier & Patrice Bellot
RÉSUMÉ. Cet article présente une méthode d'amélioration d'un corpus de requêtes par regroupe- ment des mots qui sont graphiquement similaires. L'approche utilisée est basée sur une distance d'édition normalisée et sur des propriétés statistiques distributionnelles; elle ne s'appuie sur aucune base de connaissances. Cette méthode a été développée pour résoudre un problème in- dustriel: l'amélioration d'un corpus de libellés de produits diversement orthographiés. Le but de l'algorithme est de retrouver l'écriture la plus compréhensible pour...

Mots audio-visuels joints pour la détection de scènes violentes dans les vidéos.

Nadia Derbas & Georges Quénot
RÉSUMÉ. Ce papier présente une représentation audio-visuelle des données pour la détection des scènes violentes dans les films. Les travaux existants dans ce domaine considèrent l'information visuelle ou l'information audio; voire leur fusion classique. Jusqu'à présent peu d'ap- proches ont exploré leur dépendance mutuelle pour la détection de scènes violentes. Ainsi, nous proposons un descripteur qui fournit des indices multimodaux audio et visuels; tout d'abord en assemblant les descripteurs audio et visuels, ensuite en révélant...

Etude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents.

Aurélien Bossard & Emilie Guimier De Neef
RÉSUMÉ. Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l'impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montrent qu'un regroupement des phrases en classes sémantiques améliore la qualité des résumés.

Personnalisation de l'information: aperçu de l'état de l'art et définition d'un modèle flexible de profils.

Mokrane Bouzeghoub & Dimitre Kostadinov
Le but de la personnalisation est de faciliter l'expression du besoin de l'utilisateur et de lui permettre d'obtenir des informations pertinentes lors de ses accès à un système d'information. La pertinence de l'information se définit par un ensemble de critères et de préférences personnalisables spécifiques à chaque utilisateur ou communauté d'utilisateurs. Les données décrivant les utilisateurs sont souvent regroupées sous forme de profils. Le contenu du profil d'un utilisateur varie selon les approches et les...

Définition d'un profil multidimensionnel de l'utilisateur : Vers une technique basée sur l'interaction entre dimensions.

Lynda Tamine-Lechani & Wahiba Bahsoun
RÉSUMÉ. La personnalisation d'un processus d'accès à l'information a pour objectif de délivrer à l'utilisateur une information appropriée à ses préférences, ses centres d'intérêts ou plus globalement son profil. Ce papier présente une technique de construction du profil de l'uti- lisateur qui s'inscrit dans une approche statistique utilisant le comportement de l'utilisateur comme source permettant de prédire implicitement son modèle. Cette technique s'articule plus particulièrement sur l'interaction entre dimensions du profil représentées par l'historique des...

Vues et mises à jour de données semi-structurées : une analyse de dépendances.

Hicham Idabal
RÉSUMÉ. Dans ce papier nous étudions le problème classique de l'impact d'une mise à jour sur une vue, dans le cadre de données semi-structurées. Nous faisons les hypothèses suivantes: (i) le document source est modélisé par un arbre ordonné étiqueté par des symboles d'arité variable, (ii) une vue V est une requête arbre dont l'évaluation sur le document source fournit la vue partielle du document souhaitée (iii) une classe de mises à jour C est...

Méthodologie pour une représentation multi-dimensionnelle des documents.

Benjamin Piwowarski
RÉSUMÉ. La représentation des documents et questions en Recherche d'Information (RI) est res- tée une représentation majoritairement uni-dimensionnelle (i.e., vecteur). Cette représentation a des limites : Comment par exemple représenter un document qui traite de plusieurs thèmes ou une question ambiguë ? Ces problèmes sont importants pour développer des systèmes de RI interactifs ou cherchant à diversifier les résultats. Les modèles actuels sont soit basés sur des heuristiques, soit sur des modèles latents qui pré-supposent...

Recherche d'Information efficace utilisant la sémantique: le focus.

Anthony Ventresque
RÉSUMÉ. L'indexation sémantique de documents à partir d'ontologies est un domaine qui prend de l'essor, malgré les difficultés d'une indexation automatique ou même semi-automatique, sans parler d'indexation manuelle. Il est possible désormais d'avoir des caractérisations séman- tiques de documents textuels ou non textuels basées sur des ontologies. Partant de ce fait, nous avons mis en place un objet, le focus, qui représente un document ou une requête en pondé- rant les concepts d'une ontologie de...

Vers une approche utilisant l’apprentissage de métrique pour du clustering semi-supervisé interactif d’images.

Viet Minh Vu, Hien Phuong Lai & Muriel Visani
RÉSUMÉ. La problématique du clustering non supervisé et semi-supervisé est très étudiée dans le domaine de l’apprentissage automatique. En vue d’impliquer l’utilisateur dans le clustering d’images, (Lai et al., 2014) a proposé un nouveau modèle de clustering semi-supervisé interactif traduisant les retours de l’utilisateur (exprimés au niveau des images) en contraintes par paires (must-link et cannot-link) entre groupes d’images constitués à l’aide d’une solution de clustering hiérarchique et de ces retours. Ces dernières années, le...

Retweeter ou ne pas retweeter : Le dilemme des portails de diffusion d’information temps-réel.

Thomas Palmer, Gilles Hubert & Karen Pinel-Sauvagnat
RÉSUMÉ. L'étude des caractéristiques contextuelles a été largement traitée en Recherche d'Information (RI), mais les applications concrètes sur de vrais flux de données ne sont pas très répandues. Dans cet article, notre problématique concerne la décision automatique de retwee- ter un message. En considérant le centre d'intérêt d'un utilisateur, nous proposons un modèle pour effectuer un filtrage automatique en temps-réel du flux Twitter en utilisant de multiples caractéristiques contextuelles. Le modèle sépare l'aspect contextuel du...

Un système d'aide à la recherche d'information en ligne basé sur les ontologies (SA-RI-Onto).

Rania Soussi, Nesrine Ben Mustapha, Hajer Baazaoui Zghal & Marie-Aude Aufaure
RÉSUMÉ . La croissance très importante des informations disponibles sur Internet nécessite des outils de recherche de plus en plus performants permettant de discerner efficacement les informations intéressantes parmi des centaines voire des milliers de documents. Seulement, la qualité des résultats fournis par les moteurs de recherche traditionnels n'est pas toujours pertinente surtout quand il s'agit de composer plus d'une requête. Ceci est dû aux ambiguïtés linguistiques et aux concepts abstraits qui ne sont pas...

RI-TAL : le TAL au service de la RI.

Laurent Candillier & Julien Hénot
RÉSUMÉ. Comment le Traitement Automatique des Langues peut-il servir la Recherche d’Information? Cet article apporte des éléments de réponse à cette question dans le cadre de la mise en place d’un moteur de recherche au sein d’une application industrielle, TokTokTok, qui réunit un ensemble important de données hétérogènes sur des produits de tout type. Nous démontrons que l’enrichissement de la base de données par des traitements sémantiques améliore les résultats du moteur de recherche, mais...

Recherche multi-terminologique de l'information de santé sur l'Internet.

Saoussen Sakji
RÉSUMÉ .La recherche d'informations et des connaissances médicales devient de plus en plus facile et accessible sur Internet pour le professionnel de santé, l'étudiant, mais aussi pour le patient et le cyber citoyen. CISMeF (Catalogue et Index des Sites Médicaux Francophones) est un outil visant à cataloguer et indexer les sources les plus importantes d'information de santé institutionnelles en France afin de les mettre à disposition du public. L'indexation des ressources Internet est mono-terminologique du...

Fusion d'informations pour l'indexation de photos.

Saïd Kharbouche, Michel Plu & Patrick Vannoorenberghe
RÉSUMÉ. Cet article présente une méthode d'indexation de photos appliquée à la reconnaissance de personnes dans des photos personnelles afin de permettre à un utilisateur de les retrouver à partir de requêtes correspondant à des identifiants de personnes. Cette méthode utilise la fusion d'index-FUSINDEX- issus de l'analyse de la photo elle-même et de l'analyse des com- mentaires textuels et oraux qui lui ont été associés. Ces analyses sont effectuées par différents moteurs d'indexations dédiés qui...

Quels problèmes pour la recherche d’information médicale au Mali ?

Seydou Doumbia, Lorraine Goeuriot & Marie-Christine Fauvet
RESUME. L'entreprise Bupa a effectué une enquête entre juin et juillet 2010 dans 12 pays à travers le monde. Selon cette enquête au moins trois répondants sur cinq faisaient des recherches d'information relatives à leur santé sur Internet. La plupart de ces personnes cherchent en majorité des informations sur une maladie ou les symptômes d'une maladie puis sur les médicaments. Dans la plupart des cas, un moteur de recherche général est utilisé. Une autre étude...

Apprentissage des schémas de propagation dans les multi-graphes.

Yann Jacob, Ludovic Denoyer & Patrick Gallinari
RÉSUMÉ. Nous considérons le problème de l'étiquetage de noeuds dans un multi-graphe- ou graphe multi-relationnel- dans lequel les noeuds peuvent être connectés simultanément par dif- férents types de relations. De nombreux problèmes se modélisent ainsi, comme par exemple les réseaux sociaux ou bien les bases de données bibliographiques. Les relations peuvent être expli- cites (par exemple amitié dans un réseau social) ou bien implicite (par exemple des similarités de contenu calculées sur les données). Nous...

Vers une détection en temps réel de documents Web centrés sur une entité donnée.

Ludovic Bonnefoy, Vincent Bouvier, Romain Deveaud & Patrice Bellot
RÉSUMÉ. La tâche de désambiguïsation des entités nommées consiste à lier une mention ambiguë d'une entité dans un document à l'entité correspondante dans une base de connaissances. Dans ce travail, nous nous plaçons dans un cadre applicatif 'inverse' et nous ajoutons une contrainte temporelle : nous souhaitons surveiller un flux de nouveaux documents Web et déterminer quels sont ceux mentionnant une entité donnée tout en mesurant l'importance de l'information conte- nue. Une telle approche peut...

Un modèle de contexte documentaire par doxels pondérés - Application à un modèle de langue contextuel pour la recherche de documents stucturés.

Philippe Mulhem & Jean-Pierre Chevallet
RÉSUMÉ. Cet article porte sur la recherche de parties de documents appelées doxels. Nous défi- nissons la notion de contexte documentaire d'un doxel, en utilisant deux éléments : 1) un lissage de type Dirichlet sur des doxels, et 2) une interprétation du contexte d'un doxel par des pro- pagations du contenu des autres doxels de contexte. Nous montrons que cette interprétation de contexte documentaire est exprimable par des combinaisons du contenu intrinsèque lissé et des...

Registration Year

  • 2017
    544

Resource Types

  • Text
    544