31 Works

Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot & Massih-Reza Amini
RÉSUMÉ. Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l'apport de l'utilisation de plongements de mots, très populaire actuellement en recherche d'information, est dépendant de l'ensemble d'apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l'utilisation de corpus spécifiques (au niveau...

TournaRank : Quand la Recherche d’Information devient un tournoi entre documents

Gilles Hubert, Yoann Pitarch, Karen Pinel-Sauvagnat, Ronan Tournier & Léa Laporte
RÉSUMÉ. De nombreuses approches supervisées utilisant les caractéristiques des documents ont été proposées pour l'ordonnancement de documents. Un inconvénient est qu'elles requièrent une phase d'apprentissage. Dans cet article, nous proposons TournaRank, une approche non supervisée d'ordonnancement de documents inspirée des compétitions sportives. Les documents sont représentés par un ensemble de caractéristiques et s'affrontent lors de tournois. Un tournoi est vu comme une séquence de matchs au cours desquels deux documents s'affrontent sur la base des...

Identification de descripteurs pour la caractérisation de registres

Jade Mekki, Delphine Battistelli, Gwénolé Lecorvé & Nicolas Béchet
RÉSUMÉ L'article présente une étude des descripteurs linguistiques pour la caractérisation d'un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d'un état de l'art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons...

Détection d’opinion argumentée à partir de Twitter

Asma Ouertatani, Ghada Gasmi & Chiraz Latiri
RÉSUMÉ. Savoir ce que pensent les gens est fondamental pour la prise de décision. Avec la croissance explosive des réseaux sociaux ces informations sont disponibles à profusion, sous forme d'avis, d'opinions ou d'un jugement formé sur quelque chose ou quelqu'un pour défendre un point de vue. Plusieurs chercheurs ne se sont concentrés que sur l'identification et la définition de l'opinion. Nous proposons dans cet article de définir et de caractériser l'opinion argumentée selon les composantes...

Apprentissage de l’évolution langagière dans des communautés d’auteurs

Edouard Delasalles, Sylvain Lamprier & Ludovic Denoyer
RÉSUMÉ. Les modèles de langue sont au coeur de nombreux de travaux, notamment dans les domaines de la recherche d'information et de la fouille de texte. Plutôt qu'une analyse fine de la sémantique des textes, ces modèles statistiques visent à extraire des distributions d'occurrence de mots dans différents contextes. Divers types d'approches ont été proposés dans la littérature, du simple modèle multinomial unigramme à des modèles à variables latentes pour la prise en compte de...

Construction de patrons lexico-syntaxiques d’extraction pour l’acquisition de connaissances à partir du web

Chloé Monnin & Olivier Hamon
RESUME Cet article présente une méthode permettant de collecter sur le web des informations complémentaires à une information prédéfinie, afin de remplir une base de connaissances. Notre méthode utilise des patrons lexico-syntaxiques, servant à la fois de requêtes de recherche et de patrons d'extraction permettant l'analyse de documents non structurés. Pour ce faire, il nous a fallu définir au préalable les critères pertinents issus des analyses dans l'objectif de faciliter la découverte de nouvelles valeurs.

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans cet article, nous étudions l'appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l'aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l'appariement exact entre les mots, le processus d'appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les...

Catégorisation libre d’extraits musicaux et analyse automatique

Nicolas Dauban, Paul Albenge, Ludovic Florin, Julien Pinquier, Christine Sénac, Pascal Gaillard & Patrice Guyot
RÉSUMÉ. Cet article décrit le protocole expérimental et les résultats obtenus lors d'une expérience de catégorisation. Cette expérience s'inscrit dans le cadre de travaux de recherche sur la recommandation musicale personnalisée et basée sur le contenu. Durant cette expérience, les volontaires ont dû catégoriser librement des extraits musicaux sélectionnés selon des critères musicologiques. Cette catégorisation est analysée via un dendrogramme représentant la u classification moyenne des participants ». Une analyse automatique des résultats menée a...

Classification multi-label à grande dimension pour la détection de concepts médicaux

Nomena Ny Hoavy, Mamitiana Ignace Randrianarivony & Josiane Mothe
RÉSUMÉ Dans ce papier, nous présentons une méthode pour associer de façon automatique des concepts à des images. Nous nous focalisons plus particulièrement sur des images médicales à annoter avec des concepts UMLS. Nous avons développé deux modèles de transfert d'apprentissage à partir des réseaux CNN VGG19 et ResNet50 . Nous avons utilisé des modèles avec des techniques simples et que nous avons optimisés pour l'apprentissage. Les résultats que nous avons obtenus en utilisant les...

Recommandation de séquences d’activités pendant des événements distribués

Diana Nurbakova, Léa Laporte, Sylvie Calabretto & Jérôme Gensel
RÉSUMÉ. Le nombre d'événements sociaux augmente de manière significative et les services basés sur la localisation deviennent partie intégrante de notre vie. Ainsi la recommandation de séquences d'activities devient une application émergente importante. Ce problème est crucial dans le cas d'événements distribués (e.g. festival ou croisière) qui rassemblent plusieurs activités concurrentes. Un participant à de tels événements est submergé par le choix de nombreuses activités possibles et fait face au problème de sélection d'activités. Dans...

Annotation automatique d’images: le cas de la déforestation

Duy Ngoc Thai Huynh & Nathalie Neptune
RÉSUMÉ Cet article correspond à un état de l'art sur le thème de l'annotation automatique d'images d'observation de la terre pour la détection de la déforestation. Nous nous intéressons aux différents challenges que recouvre le domaine et nous présentons les méthodes de l'état de l'art puis les pistes de recherche que nous envisageons.

Fusion multimodale image/texte par réseaux de neurones profonds pour la classification de documents imprimés.

Thibault Magallon, Frédéric Béchet & Benoît Favre
RÉSUMÉ. La classification de documents imprimés est une tâche réalisée en entrée de multiples chaînes de traitement et d'analyse d'archives numériques, ce qui en fait un point critique dans de tel systèmes. Afin d'extraire des éléments caractéristiques de chaque catégorie parmi lesquels ces pièces doivent être classés, des données textuelles ou des images sont utilisés. Nous présentons dans cet article une analyse de différentes approches pour la catégorisation de documents exploitant des données textuelles ou...

RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés

Charles-Emmanuel Dias, Clara Gainon De Forsan De Gabriac, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons dans cet article à la construction de profils issus à la fois des données d'interaction des utilisateurs (notes sur les produits) et des données textuelles associées (revues). L'enjeu est de s'éloigner des approches de factorisation matricielle pour mieux exploiter les données textuelles. Nous proposons de personnaliser une architecture de réseau de neurones hiérarchique dédiée à la classification de sentiments en apprenant des paramètres d'attention spécifiques pour les différents utilisateurs. Nous démontrons...

Résumé automatique guidé de textes: État de l’art et perspectives

Salima Lamsiyah, Said Ouatik El Alaoui & Bernard Espinasse
RÉSUMÉ Les systèmes de résumé automatique de textes (SRAT) consistent à produire une représentation condensée et pertinente à partir d'un ou de plusieurs documents textuels. La majorité des SRAT sont basés sur des approches extractives. La tendance actuelle consiste à s'orienter vers les approches abstractives. Dans ce contexte, le résumé guidé défini par la campagne d'évaluation internationale TAC (Text Analysis Conference) en 2010, vise à encourager la recherche sur ce type d'approche, en se basant...

Étude de l’informativité des transcriptions : une approche basée sur le résumé automatique

Carlos-Emiliano González-Gallardo, Malek Hajjem, Eric SanJuan & Juan-Manuel Torres-Moreno
RÉSUMÉ. Dans cet article nous proposons une nouvelle approche d'évaluation de l'informativité des transcriptions issues de différents systèmes de Reconnaissance Automatiques de la Parole. Cette approche, fondée sur la notion d'informativité, s'inscrit particulièrement dans le cadre du Résumé Automatique de texte effectué sur ces transcriptions. Nous estimons, dans un premier temps, le contenu informatif des différentes transcriptions. Par la suite, nous explorons la capacité du Résumé automatique de texte pour surmonter la perte informative. Pour...

Browsing Information Retrieval System Results

Tamer Abdulghani, Mahmoud Al Najar, Rayhane Belaroussi, Josiane Mothe, Mikhail Ryzhov & Sarune Samoskaite
RÉSUMÉ. L'évaluation en recherche d'information (RI) est fondamentale. Depuis les années 70, les chercheurs utilisent un cadre d'évaluation du type de celui proposé dans les projets Cranfield ou TREC pour calculer l'efficacité du système sur des collections de référence. Alors que les résultats numériques sont une pratique courante de comparaison de systèmes, nous pensons que les comparaisons visuelles pourraient aussi être utiles aux chercheurs. À cette fin, nous avons développé une interface qui permet aux...

Représentations Gaussiennes pour le Filtrage Collaboratif

Hadrien Titeux, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. La plupart des systèmes de filtrage collaboratifs, comme par exemple la factorisation matricielle, utilisent des représentations vectorielles pour les articles et les utilisateurs. Ces représentations sont déterministes, et ne permettent pas de modéliser l'incertitude des représentations apprises, ce qui peut être utile quand un utilisateur a évalué un petit nombre d'articles (problème du démarrage à froid), ou quand le modèle est confronté à des informations contradictoires concernant le comportement d'un utilisateur ou les évaluations...

Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques

Aurélien Lamercerie
RÉSUMÉ Cet article explore la construction de représentations formelles d'énoncés en langue naturelle. Le passage d'un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l'analyse syntaxique de l'énoncé à une représentation sémantique. Nous ciblons l'aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c'est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l'enjeu serait d'apporter une aide au concepteur....

Automatic Detection of Depressive Users in Social Media

Farah Benamara, Véronique Moriceau, Josiane Mothe, Faneva Ramiandrisoa & Zhaolong He
RÉSUMÉ. La dépression est une affection courante qui concerne environ 350 millions de personnes dans le monde selon les estimations de l'Organisation Mondiale de la Santé. La détection de ce trouble est donc un enjeu majeur de santé publique. Plusieurs recherches en psychologie ont démontré l'existence d'un lien fort entre l'état dépressif d'un individu et son expression langagière. Dans cet article, nous proposons de repérer automatiquement ces indices linguistiques dans le but de détecter les...

GRAD: A Metric for Evaluating Summaries

Liana Ermakova & Anton Firsov
RÉSUMÉ. Ce papier vise à proposer une nouvelle métrique pour évaluer les résumés. La plupart de méthodes existantes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise à dépasser les défauts des mesures existantes et...

Similarité textuelle pour l’association de documents journalistiques

Delphine Charlet & Géraldine Damnati
RÉSUMÉ. Cet article étudie l'association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s'avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l'association de documents, quelle que soit la configuration d'association média. L'influence...

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Maëlle Brassier & Alexis Puret
RÉSUMÉ Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d'un modèle de résolution des coréférences en français à l'aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s'inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en...

Détection d’influenceurs dans des médias sociaux

Kévin Deturck
RÉSUMÉ Les influenceurs ont la capacité d'avoir un impact sur d'autres individus lorsqu'ils interagissent avec eux. Détecter les influenceurs permet d'identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d'analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d'abord une évaluation de différentes mesures de centralité sur la structure...

Modèle neuronal tripartite pour la représentation de documents

Gia-Hung Nguyen, Lynda Tamine, Laure Soulier & Nathalie Bricon-Souf
RÉSUMÉ. De nombreux travaux en recherche d'information (RI) ont montré que l'utilisation des sources d'évidence provenant de ressources sémantiques externes pourrait améliorer la performance de l'appariement. Par ailleurs, les approches neuronales sont devenues des modèles de référence qui permettent de capturer à partir des corpus, la sémantique latente des mots qui peut être injectée dans les modèles RI. Ce papier présente un modèle qui a pour but de réduire le fossé sémantique en RI en...

Registration Year

  • 2018
    31

Resource Types

  • Text
    31