598 Works

Quel est l'auteur de ce roman ?

Jacques Savoy
RÉSUMÉ . Dans cet article, nous présentons le problème de l'attribution d'auteur d'une oeuvre écrite. Comme représentation des textes, les études récentes s'appuient sur un ensemble restreint de mots fonctionnels ou très fréquents (50 ou 100). Sur cette base, les méthodes de l'analyse en composantes principales (ACP) ou des correspondances (AC) permettent de visualiser les affinités et différences entre les représentations des écrits. En appliquant l'approche du plus proche voisin, nous pouvons estimer l'auteur de...

Recherche par le contenu d'images de monnaies de collection.

Joseph Chazalon & Mickaël Coustaty
RÉSUMÉ. Cette démonstration consiste en une variante du travail de (Perronnin et al., 2010) simplifiée et transposée au cas des images de monnaies de collection. Tirant profit de certaines particularité des objets numismatiques (pièces et billets de collection), qui peuvent être assimilés à un type de documents particuliers, nous avons développé un outil qui permet de chercher les objets similaires à un objet requête parmi une base de plusieurs dizaines de milliers d’objets. Plusieurs modifications...

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML.

Guillaume Wisniewski, Ludovic Denoyer & Patrick Gallinari
RÉSUMÉ. Le domaine de la Recherche d'Information Structurée (RIS) est un domaine qui émerge avec l'arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l'initiative INEX, concerne principalement le développement de moteurs de recherche documen- taire. Aujourd'hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de...

Segmentation thématique : apport de la vectorisation.

Vincent Claveau & Sébastien Lefèvre
RÉSUMÉ. Dans cet article, nous nous intéressons à la segmentation thématique d'émissions télé- visées à partir de la transcription automatique de leur bande-son. La segmentation thématique de textes a fait l'objet de travaux depuis de nombreuses années, et les techniques mises en oeuvre reposent souvent sur des descriptions de contenu et des calculs de similarité utilisés en recherche d'information. Dans cet article, nous proposons une technique s'inspirant des tra- vaux de morphologie mathématique utilisés en...

Recherche visuo-textuelle d'images sur le Web améliorée par sélection de la dimension.

Sabrina Tollari & Hervé Glotin
RÉSUMÉ. Dans cet article, nous proposons une méthode pour améliorer la recherche d'images sur le web dans le cas de requêtes bimodales composées de quelques mots et de quelques images. Pour chaque page web et chaque requête, une moyenne pondérée fusionne les distances textuelles basées sur tfidf et les distances visuelles. Nous montrons alors que cette recherche bi- modale d'images peut être optimisée en analysant simplement des images récupérées en ligne par des requêtes purement...

Évaluation des approches multi-apprenants pour l'indexation des concepts dans les documents vidéo.

Bahjat Safadi & Georges Quénot

Détection d’opinion argumentée à partir de Twitter

Asma Ouertatani, Ghada Gasmi & Chiraz Latiri
RÉSUMÉ. Savoir ce que pensent les gens est fondamental pour la prise de décision. Avec la croissance explosive des réseaux sociaux ces informations sont disponibles à profusion, sous forme d'avis, d'opinions ou d'un jugement formé sur quelque chose ou quelqu'un pour défendre un point de vue. Plusieurs chercheurs ne se sont concentrés que sur l'identification et la définition de l'opinion. Nous proposons dans cet article de définir et de caractériser l'opinion argumentée selon les composantes...

Adaptation de XML et XQuery pour la représentation et l'interrogation des documents multi-structurés.

Noureddine Chatti & Sylvie Calabretto
RÉSUMÉ . Nous traitons dans cet article le problème de l'interrogation des documents à structures multiples, appelés aussi documents multi-structurés. Pour des besoins d'usages variés, plusieurs structurations différentes peuvent être associées à un même document initial. Par exemple, une première structure peut être définie pour organiser logiquement le contenu d'un document tandis qu'une deuxième explicitera les règles de sa mise en forme sur un support physique. Dans de précédents travaux, nous avons proposé une modélisation...

Apprentissage de l’évolution langagière dans des communautés d’auteurs

Edouard Delasalles, Sylvain Lamprier & Ludovic Denoyer
RÉSUMÉ. Les modèles de langue sont au coeur de nombreux de travaux, notamment dans les domaines de la recherche d'information et de la fouille de texte. Plutôt qu'une analyse fine de la sémantique des textes, ces modèles statistiques visent à extraire des distributions d'occurrence de mots dans différents contextes. Divers types d'approches ont été proposés dans la littérature, du simple modèle multinomial unigramme à des modèles à variables latentes pour la prise en compte de...

Data-to-Text: Vers la génération de texte à partir de données non-linguistiques

Clément Rebuffel
RÉSUMÉ. Nous nous intéressons à la problématique de la génération du langage natu- rel dont l'objectif est de transcrire un contexte d'entrée vers une description adéquate de ce contexte. Plus particulièrement, nous abordons la problématique du "data-to- text" qui se focalise sur les descriptions de données non linguistiques, comme les ta- bleaux numériques ou les graphiques. Dans ce papier, nous exposons l'état de l'art relatif à ce domaine : nous décrivons les mécanismes de base...

Modèle probabiliste pour l'extraction de structures dans les documents semistructurés - Application aux documents Web.

Guillaume Wisniewski, Ludovic Denoyer, Francis Maes & Patrick Gallinari
RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du Web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l'information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d'une information de mise en page à une...

Prédire la difficulté des requêtes : la combinaison de mesures statistiques et sémantiques.

Adrian-Gabriel Chifu
RÉSUMÉ. La performance d'un Système de Recherche d'Information (SRI) est étroitement liée à la requête. Les requêtes pour lesquelles les SRI échouent sont appelées dans la littérature des u requêtes difficiles ». L'étude présentée dans cet article vise à ana- lyser, adapater et combiner plusieurs prédicteurs de difficulté de requêtes. Nous avons considéré trois prédicteurs: un lié à l'ambiguïté des termes, un basé sur la fréquence des termes et une mesure de répartition des résultats....

Fouille d'opinion : ces mots qui changent de polarité selon le domaine.

Morgane Marchand
RÉSUMÉ. La manière dont les gens expriment leur avis change selon ce dont ils parlent. Ainsi, un classifieur d'opinion entraîné sur des critiques de films, ne pourra pas être appliqué à des critiques de restaurants sans un minimum d'adaptation. Par exemple, certains mots présents dans les deux domaines peuvent changer de polarité. Dans cet article, nous montrons dans un premier temps que ces mots changeant de polarité affectent le comportement des classifieurs automatiques d'opinion :...

Applying a family of IR models to text description-based service retrieval.

Isaac-Bernardo Caicedo, Marie-Christine Fauvet, Ahmed Lbath & Helga Duarte-Amaya
RÉSUMÉ. Dans l'étude rapportée dans cet article, nous appliquons et étudions une famille de modèles de Recherche d'Information (RI) afin de traiter le problème de la recherche de services, dont la description correspond aux requêtes des utilisateurs exprimées sous forme libre. Ainsi, nous appliquons quatre modèles qui, au meilleur de notre connaissance, n'ont été appliqués dans aucune des approches existantes de RI pour la découverte de services. Les deux pre- miere sont basés sur des...

REDENE - Recherche documentaire assistée par ontologies de domaine adaptatives.

Xavier Aimé, Frédéric Fürst, Pascale Kuntz & Francky Trichet
RÉSUMÉ. La subjectivité des connaissances devient une dimension incontournable qui se doit d'être intégrée et prise en compte dans le processus d'Ingénierie des Ontologies (IO). Le projet REDENE est fondé (i) sur une formalisation des résultats obtenus en psychologie cognitive sur le fonctionnement de la mémoire humaine- en tenant compte des hypothèses établies dans le domaine des neurosciences- et (ii) sur l'intégration et l'exploitation d'un telle formalisation au sein des processus de recherche d'information basés...

Influence de mesures de densité pour la recherche de passages et l'extraction de réponses dans un système de questions-réponses.

Laurent Gillard, Patrice Bellot & Marc El-Bèze
RÉSUMÉ . Dans cet article, nous comparons différentes méthodes de filtrage et d'extraction d'une réponse candidate dans le cadre d'un système de questions-réponses. Ces expériences sont effectuées sur un sous-ensemble du corpus de la campagne Technolangue-EQueR, première campagne francophone de questions-réponses utilisant des questions et un corpus en français. Nous évaluons la méthode que nous avions retenue lors de notre participation à cette campagne. Celle-ci est basée sur une densité et une compacité des mots...

Une Nouvelle Approche d'Expansion Sociale de Requêtes dans le Web 2.0.

Mohamed Reda Bouadjenek, Hakim Hacid, Mokrane Bouzeghoub & Johann Daigremont
RÉSUMÉ. Cet article aborde le problème d'expansion de requêtes qui consiste à enrichir les requêtes utilisateurs avec de l'information additionnelle pour maximiser son niveau de satis- faction en prenant en considération son écosystème. Tout en considérant les systèmes de book- marking sociaux, l'approche proposée considère : (i) la similarité sémantique entre les termes qui composent les requêtes, (ii) la proximité sociale entre les termes qui composent les requêtes et les profils utilisateurs construits sur la...

KWSim: Concepts Similarity Measure.

Youssef Matar, Elöd Egyed-Zsigmond & Sonia Lajmi
RÉSUMÉ . La comparaison des images médicales annotées manuellement peut être réalisée grâce à une comparaison lexicale entre des mots-clés ou en utilisant des thésaurus médicaux existants pour calculer une similarité sémantique entre ces mots. Dans cet article, nous présentons tout d'abord la mesure KW Sim, une technique entièrement automatisée pour le calcul de la similarité sémantique en mappant des concepts (mots-clés) aux différents thésaurus médicaux et en examinant le type de relation u is-a...

Fusion des réponses de systèmes de question-réponses.

Arnaud Grappy, Brigitte Grau & Sophie Rosset
RÉSUMÉ. Les réponses données par plusieurs systèmes de questions-réponses proviennent de l'application de stratégies différentes, et de ce fait permettent de répondre à des questions différentes. La combinaison de ces systèmes vise alors à accroître le nombre total de questions résolues. Cet article présente la combinaison de trois systèmes : QAVAL, qui s'appuie sur un module de validation de réponses et deux versions du systèmes RITEL qui s'appuie sur une analyse multi-niveaux appliquée aux questions...

Une Indexation conceptuelle pour un filtrage par dimensions.

Saïd Radhouani, Loïc Maisonnasse, Joo-Hwee Lim, Thi-Hoang-Diem Le & Jean-Pierre Chevallet
RÉSUMÉ. Dans le but de résoudre des requêtes multi-dimensions, nous proposons une indexation conceptuelle à l'aide d'un méta thésaurus médical (UMLS). Nous étudions l'impact de cette indexation par rapport à une indexation à base de mots. Nous montrons que l'usage du méta thésaurus est délicat à mettre en oeuvre mais peut donner des résultats supérieurs à une indexation par mots. Nous définissons ensuite la notion de dimensions des requêtes. En utilisant une organisation hiérarchique des...

Dynamiques des popularités dans YouTube.

Cédric Richier, Georges Linarès, Rachid El Azouzi, Tania Jiménez, Eitan Altman & Yonathan Portilla
RÉSUMÉ. Cet article est une étude de l’évolution du nombre de vues des contenus dans You- Tube. Nous proposons dans un premier temps plusieurs modèles inspirés de l’économie et de la biologie pour caractériser les courbes d’évolution des nombres de vues des vidéos. Dans un deuxième temps, nous proposons une méthode automatique de classification de ces courbes en les associant à l’un des différents modèles suggérés. Nous montrons, sur un large ensemble de données, que...

GNOM-FCA : Une extension de la méthode de Falzon de détection de communautés.

Sid-Ali Selmane
RÉSUMÉ. Dans cet article, nous proposons une nouvelle approche basée sur l'Analyse Formelle des Concepts (AFC) pour la détection de communautés dans un réseau social. Nous proposons une fonction basée sur une modularité adaptée, appelée GroupNode modularity, qui améliore une méthode de détection partielle proposée par Falzon en considérant tous les acteurs du réseau social. Nous appelons notre approche GNOM-FCA (GroupNOde Modularity combined with Formal Concept Analysis approach). En outre, nous avons adapté une fonction...

Une méthode collaborative pour identifier les spams: contribution à la qualité de l’information dans les réseaux sociaux.

Mahdi Washha, Manel Mezghani & Florence Sèdes
RÉSUMÉ. Contrer les actions des utilisateurs mal intentionnés dits "spammeurs" est un réel défi pour maintenir un haut niveau de performance dans les applications mises en oeuvre dans les réseaux so- ciaux. Les méthodes conventionnelles de détection de spams imposent des délais de traitement impor- tants et inévitables, allant par exemple jusqu'à des mois pour traiter de grandes collections de tweets. Ces méthodes entièrement dépendantes de l'approche d'apprentissage supervisé choisie pour produire des modèles de...

Passage à l'Echelle - Une méthodologie d'étude de l'influence du volume de collection sur les modèles de Recherche d'Information.

Amélie Imafouo & Michel Beigbeder
RÉSUMÉ. Peu de travaux en Recherche d'Information (RI) ont jusqu'alors abordé les questions d'efficience et d'efficacité des systèmes de RI dans le contexte du passage à l'échelle dans la taille des corpus. Nous proposons une démarche expérimentale reproductible (pour l'étude de l'influence du passage à l'échelle sur les modèles de RI) basée sur la construction d'une col- lection sur laquelle une caractéristique donnée est la même quelle que soit la portion de collection selectionnée. Cette...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598