31 Works

GRAD: A Metric for Evaluating Summaries

Liana Ermakova & Anton Firsov
RÉSUMÉ. Ce papier vise à proposer une nouvelle métrique pour évaluer les résumés. La plupart de méthodes existantes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise à dépasser les défauts des mesures existantes et...

Similarité textuelle pour l’association de documents journalistiques

Delphine Charlet & Géraldine Damnati
RÉSUMÉ. Cet article étudie l'association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s'avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l'association de documents, quelle que soit la configuration d'association média. L'influence...

Combining Subword information and Language model for Information Retrieval

Jibril Frej, Philippe Mulhem, Didier Schwab & Jean-Pierre Chevallet
RÉSUMÉ. En recherche d'information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l'on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités...

RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés

Charles-Emmanuel Dias, Clara Gainon De Forsan De Gabriac, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons dans cet article à la construction de profils issus à la fois des données d'interaction des utilisateurs (notes sur les produits) et des données textuelles associées (revues). L'enjeu est de s'éloigner des approches de factorisation matricielle pour mieux exploiter les données textuelles. Nous proposons de personnaliser une architecture de réseau de neurones hiérarchique dédiée à la classification de sentiments en apprenant des paramètres d'attention spécifiques pour les différents utilisateurs. Nous démontrons...

Browsing Information Retrieval System Results

Tamer Abdulghani, Mahmoud Al Najar, Rayhane Belaroussi, Josiane Mothe, Mikhail Ryzhov & Sarune Samoskaite
RÉSUMÉ. L'évaluation en recherche d'information (RI) est fondamentale. Depuis les années 70, les chercheurs utilisent un cadre d'évaluation du type de celui proposé dans les projets Cranfield ou TREC pour calculer l'efficacité du système sur des collections de référence. Alors que les résultats numériques sont une pratique courante de comparaison de systèmes, nous pensons que les comparaisons visuelles pourraient aussi être utiles aux chercheurs. À cette fin, nous avons développé une interface qui permet aux...

Recommandation de séquences d’activités pendant des événements distribués

Diana Nurbakova, Léa Laporte, Sylvie Calabretto & Jérôme Gensel
RÉSUMÉ. Le nombre d'événements sociaux augmente de manière significative et les services basés sur la localisation deviennent partie intégrante de notre vie. Ainsi la recommandation de séquences d'activities devient une application émergente importante. Ce problème est crucial dans le cas d'événements distribués (e.g. festival ou croisière) qui rassemblent plusieurs activités concurrentes. Un participant à de tels événements est submergé par le choix de nombreuses activités possibles et fait face au problème de sélection d'activités. Dans...

Annotation automatique d’images: le cas de la déforestation

Duy Ngoc Thai Huynh & Nathalie Neptune
RÉSUMÉ Cet article correspond à un état de l'art sur le thème de l'annotation automatique d'images d'observation de la terre pour la détection de la déforestation. Nous nous intéressons aux différents challenges que recouvre le domaine et nous présentons les méthodes de l'état de l'art puis les pistes de recherche que nous envisageons.

Construction de patrons lexico-syntaxiques d’extraction pour l’acquisition de connaissances à partir du web

Chloé Monnin & Olivier Hamon
RESUME Cet article présente une méthode permettant de collecter sur le web des informations complémentaires à une information prédéfinie, afin de remplir une base de connaissances. Notre méthode utilise des patrons lexico-syntaxiques, servant à la fois de requêtes de recherche et de patrons d'extraction permettant l'analyse de documents non structurés. Pour ce faire, il nous a fallu définir au préalable les critères pertinents issus des analyses dans l'objectif de faciliter la découverte de nouvelles valeurs.

Analyse des inférences pour la fouille d’opinion en chinois

Liyun Yan
RÉSUMÉ La fouille d'opinion est une activité essentielle pour la veille économique, facilitée par les réseaux sociaux et forums dédiés. L'analyse repose généralement sur des lexiques de sentiments. Pourtant, certaines opinions sont exprimées au moyen d'inférences. Dans cet article, nous proposons une classification des inférences utilisées en chinois dans des commentaires touristiques, à des fins de fouille d'opinion, selon trois niveaux d'analyse (réalisation sémantique, modalité de réalisation, et mode de production). Nous démontrons l'intérêt d'analyser...

Résumé automatique guidé de textes: État de l’art et perspectives

Salima Lamsiyah, Said Ouatik El Alaoui & Bernard Espinasse
RÉSUMÉ Les systèmes de résumé automatique de textes (SRAT) consistent à produire une représentation condensée et pertinente à partir d'un ou de plusieurs documents textuels. La majorité des SRAT sont basés sur des approches extractives. La tendance actuelle consiste à s'orienter vers les approches abstractives. Dans ce contexte, le résumé guidé défini par la campagne d'évaluation internationale TAC (Text Analysis Conference) en 2010, vise à encourager la recherche sur ce type d'approche, en se basant...

Apprentissage de l’évolution langagière dans des communautés d’auteurs

Edouard Delasalles, Sylvain Lamprier & Ludovic Denoyer
RÉSUMÉ. Les modèles de langue sont au coeur de nombreux de travaux, notamment dans les domaines de la recherche d'information et de la fouille de texte. Plutôt qu'une analyse fine de la sémantique des textes, ces modèles statistiques visent à extraire des distributions d'occurrence de mots dans différents contextes. Divers types d'approches ont été proposés dans la littérature, du simple modèle multinomial unigramme à des modèles à variables latentes pour la prise en compte de...

Identification de descripteurs pour la caractérisation de registres

Jade Mekki, Delphine Battistelli, Gwénolé Lecorvé & Nicolas Béchet
RÉSUMÉ L'article présente une étude des descripteurs linguistiques pour la caractérisation d'un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d'un état de l'art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons...

Construction d’un corpus multilingue annoté en relations de traduction

Yuming Zhai
RÉSUMÉ Les relations de traduction, qui distinguent la traduction littérale d'autres procédés, constituent un sujet d'étude important pour les traducteurs humains (Chuquet Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu'à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un...

Automatic Detection of Depressive Users in Social Media

Farah Benamara, Véronique Moriceau, Josiane Mothe, Faneva Ramiandrisoa & Zhaolong He
RÉSUMÉ. La dépression est une affection courante qui concerne environ 350 millions de personnes dans le monde selon les estimations de l'Organisation Mondiale de la Santé. La détection de ce trouble est donc un enjeu majeur de santé publique. Plusieurs recherches en psychologie ont démontré l'existence d'un lien fort entre l'état dépressif d'un individu et son expression langagière. Dans cet article, nous proposons de repérer automatiquement ces indices linguistiques dans le but de détecter les...

TournaRank : Quand la Recherche d’Information devient un tournoi entre documents

Gilles Hubert, Yoann Pitarch, Karen Pinel-Sauvagnat, Ronan Tournier & Léa Laporte
RÉSUMÉ. De nombreuses approches supervisées utilisant les caractéristiques des documents ont été proposées pour l'ordonnancement de documents. Un inconvénient est qu'elles requièrent une phase d'apprentissage. Dans cet article, nous proposons TournaRank, une approche non supervisée d'ordonnancement de documents inspirée des compétitions sportives. Les documents sont représentés par un ensemble de caractéristiques et s'affrontent lors de tournois. Un tournoi est vu comme une séquence de matchs au cours desquels deux documents s'affrontent sur la base des...

Analyse des noms agentifs dans les espaces vectoriels distributionnels

Marine Wauquier
RÉSUMÉ Notre étude s'inscrit dans le cadre d'une thèse ayant pour but d'exploiter les modèles distributionnels pour décrire sémantiquement des classes de mots définies selon des critères morphologiques. Nous utilisons des indices morphologiques et formels fournis par une base lexicale pour cibler les noms agentifs déverbaux construits par suffixation en-eur. Nous montrons qu'il est possible de constituer un représentant prototypique de la classe sémantique des noms agentifs en-eur dans les modèles distributionnels. L'étude de ce...

Fusion multimodale image/texte par réseaux de neurones profonds pour la classification de documents imprimés.

Thibault Magallon, Frédéric Béchet & Benoît Favre
RÉSUMÉ. La classification de documents imprimés est une tâche réalisée en entrée de multiples chaînes de traitement et d'analyse d'archives numériques, ce qui en fait un point critique dans de tel systèmes. Afin d'extraire des éléments caractéristiques de chaque catégorie parmi lesquels ces pièces doivent être classés, des données textuelles ou des images sont utilisés. Nous présentons dans cet article une analyse de différentes approches pour la catégorisation de documents exploitant des données textuelles ou...

Classification multi-label à grande dimension pour la détection de concepts médicaux

Nomena Ny Hoavy, Mamitiana Ignace Randrianarivony & Josiane Mothe
RÉSUMÉ Dans ce papier, nous présentons une méthode pour associer de façon automatique des concepts à des images. Nous nous focalisons plus particulièrement sur des images médicales à annoter avec des concepts UMLS. Nous avons développé deux modèles de transfert d'apprentissage à partir des réseaux CNN VGG19 et ResNet50 . Nous avons utilisé des modèles avec des techniques simples et que nous avons optimisés pour l'apprentissage. Les résultats que nous avons obtenus en utilisant les...

Modèle neuronal tripartite pour la représentation de documents

Gia-Hung Nguyen, Lynda Tamine, Laure Soulier & Nathalie Bricon-Souf
RÉSUMÉ. De nombreux travaux en recherche d'information (RI) ont montré que l'utilisation des sources d'évidence provenant de ressources sémantiques externes pourrait améliorer la performance de l'appariement. Par ailleurs, les approches neuronales sont devenues des modèles de référence qui permettent de capturer à partir des corpus, la sémantique latente des mots qui peut être injectée dans les modèles RI. Ce papier présente un modèle qui a pour but de réduire le fossé sémantique en RI en...

Détection d’opinion argumentée à partir de Twitter

Asma Ouertatani, Ghada Gasmi & Chiraz Latiri
RÉSUMÉ. Savoir ce que pensent les gens est fondamental pour la prise de décision. Avec la croissance explosive des réseaux sociaux ces informations sont disponibles à profusion, sous forme d'avis, d'opinions ou d'un jugement formé sur quelque chose ou quelqu'un pour défendre un point de vue. Plusieurs chercheurs ne se sont concentrés que sur l'identification et la définition de l'opinion. Nous proposons dans cet article de définir et de caractériser l'opinion argumentée selon les composantes...

Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques

Aurélien Lamercerie
RÉSUMÉ Cet article explore la construction de représentations formelles d'énoncés en langue naturelle. Le passage d'un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l'analyse syntaxique de l'énoncé à une représentation sémantique. Nous ciblons l'aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c'est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l'enjeu serait d'apporter une aide au concepteur....

Étude de l’informativité des transcriptions : une approche basée sur le résumé automatique

Carlos-Emiliano González-Gallardo, Malek Hajjem, Eric SanJuan & Juan-Manuel Torres-Moreno
RÉSUMÉ. Dans cet article nous proposons une nouvelle approche d'évaluation de l'informativité des transcriptions issues de différents systèmes de Reconnaissance Automatiques de la Parole. Cette approche, fondée sur la notion d'informativité, s'inscrit particulièrement dans le cadre du Résumé Automatique de texte effectué sur ces transcriptions. Nous estimons, dans un premier temps, le contenu informatif des différentes transcriptions. Par la suite, nous explorons la capacité du Résumé automatique de texte pour surmonter la perte informative. Pour...

Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot & Massih-Reza Amini
RÉSUMÉ. Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l'apport de l'utilisation de plongements de mots, très populaire actuellement en recherche d'information, est dépendant de l'ensemble d'apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l'utilisation de corpus spécifiques (au niveau...

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans cet article, nous étudions l'appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l'aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l'appariement exact entre les mots, le processus d'appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les...

Registration Year

  • 2018
    31

Resource Types

  • Text
    31