31 Works

Corpus d’entraînement sur les plongements de mots pour la recherche de microblogs culturels

Nayanika Dogra, Philippe Mulhem, Lorraine Goeuriot & Massih-Reza Amini
RÉSUMÉ. Cet article décrit un cadre expérimental et des résultats obtenus pour la recherche de microblogs. Notre approche consiste à étudier de quelle manière l'apport de l'utilisation de plongements de mots, très populaire actuellement en recherche d'information, est dépendant de l'ensemble d'apprentissage de ces plongements. Nous étudions en particulier son utilisation pour étendre des requêtes sur des tweets culturels sur le corpus CLEF CMC 2016. Nos résultats montrent que l'utilisation de corpus spécifiques (au niveau...

Combining Subword information and Language model for Information Retrieval

Jibril Frej, Philippe Mulhem, Didier Schwab & Jean-Pierre Chevallet
RÉSUMÉ. En recherche d'information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l'on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités...

Similarité textuelle pour l’association de documents journalistiques

Delphine Charlet & Géraldine Damnati
RÉSUMÉ. Cet article étudie l'association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s'avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l'association de documents, quelle que soit la configuration d'association média. L'influence...

Catégorisation libre d’extraits musicaux et analyse automatique

Nicolas Dauban, Paul Albenge, Ludovic Florin, Julien Pinquier, Christine Sénac, Pascal Gaillard & Patrice Guyot
RÉSUMÉ. Cet article décrit le protocole expérimental et les résultats obtenus lors d'une expérience de catégorisation. Cette expérience s'inscrit dans le cadre de travaux de recherche sur la recommandation musicale personnalisée et basée sur le contenu. Durant cette expérience, les volontaires ont dû catégoriser librement des extraits musicaux sélectionnés selon des critères musicologiques. Cette catégorisation est analysée via un dendrogramme représentant la u classification moyenne des participants ». Une analyse automatique des résultats menée a...

Browsing Information Retrieval System Results

Tamer Abdulghani, Mahmoud Al Najar, Rayhane Belaroussi, Josiane Mothe, Mikhail Ryzhov & Sarune Samoskaite
RÉSUMÉ. L'évaluation en recherche d'information (RI) est fondamentale. Depuis les années 70, les chercheurs utilisent un cadre d'évaluation du type de celui proposé dans les projets Cranfield ou TREC pour calculer l'efficacité du système sur des collections de référence. Alors que les résultats numériques sont une pratique courante de comparaison de systèmes, nous pensons que les comparaisons visuelles pourraient aussi être utiles aux chercheurs. À cette fin, nous avons développé une interface qui permet aux...

RNN et modèle d’attention pour l’apprentissage de profils textuels personnalisés

Charles-Emmanuel Dias, Clara Gainon De Forsan De Gabriac, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons dans cet article à la construction de profils issus à la fois des données d'interaction des utilisateurs (notes sur les produits) et des données textuelles associées (revues). L'enjeu est de s'éloigner des approches de factorisation matricielle pour mieux exploiter les données textuelles. Nous proposons de personnaliser une architecture de réseau de neurones hiérarchique dédiée à la classification de sentiments en apprenant des paramètres d'attention spécifiques pour les différents utilisateurs. Nous démontrons...

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

Classification multi-label à grande dimension pour la détection de concepts médicaux

Nomena Ny Hoavy, Mamitiana Ignace Randrianarivony & Josiane Mothe
RÉSUMÉ Dans ce papier, nous présentons une méthode pour associer de façon automatique des concepts à des images. Nous nous focalisons plus particulièrement sur des images médicales à annoter avec des concepts UMLS. Nous avons développé deux modèles de transfert d'apprentissage à partir des réseaux CNN VGG19 et ResNet50 . Nous avons utilisé des modèles avec des techniques simples et que nous avons optimisés pour l'apprentissage. Les résultats que nous avons obtenus en utilisant les...

Construction d’un corpus multilingue annoté en relations de traduction

Yuming Zhai
RÉSUMÉ Les relations de traduction, qui distinguent la traduction littérale d'autres procédés, constituent un sujet d'étude important pour les traducteurs humains (Chuquet Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu'à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un...

GRAD: A Metric for Evaluating Summaries

Liana Ermakova & Anton Firsov
RÉSUMÉ. Ce papier vise à proposer une nouvelle métrique pour évaluer les résumés. La plupart de méthodes existantes (e.g. ROUGE) nécessitent une intervention humaine importante car elles comparent le résumé considéré avec un ensemble des résumés de référence (gold standard). De plus, les métriques basées sur le chevauchement de vocabulaires ne sont pas appropriées pour la comparaison avec le texte intégral. La métrique proposée intitulée GRAD vise à dépasser les défauts des mesures existantes et...

Détection d’influenceurs dans des médias sociaux

Kévin Deturck
RÉSUMÉ Les influenceurs ont la capacité d'avoir un impact sur d'autres individus lorsqu'ils interagissent avec eux. Détecter les influenceurs permet d'identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d'analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d'abord une évaluation de différentes mesures de centralité sur la structure...

Annotation automatique d’images: le cas de la déforestation

Duy Ngoc Thai Huynh & Nathalie Neptune
RÉSUMÉ Cet article correspond à un état de l'art sur le thème de l'annotation automatique d'images d'observation de la terre pour la détection de la déforestation. Nous nous intéressons aux différents challenges que recouvre le domaine et nous présentons les méthodes de l'état de l'art puis les pistes de recherche que nous envisageons.

Apprentissage de l’évolution langagière dans des communautés d’auteurs

Edouard Delasalles, Sylvain Lamprier & Ludovic Denoyer
RÉSUMÉ. Les modèles de langue sont au coeur de nombreux de travaux, notamment dans les domaines de la recherche d'information et de la fouille de texte. Plutôt qu'une analyse fine de la sémantique des textes, ces modèles statistiques visent à extraire des distributions d'occurrence de mots dans différents contextes. Divers types d'approches ont été proposés dans la littérature, du simple modèle multinomial unigramme à des modèles à variables latentes pour la prise en compte de...

Recommandation de séquences d’activités pendant des événements distribués

Diana Nurbakova, Léa Laporte, Sylvie Calabretto & Jérôme Gensel
RÉSUMÉ. Le nombre d'événements sociaux augmente de manière significative et les services basés sur la localisation deviennent partie intégrante de notre vie. Ainsi la recommandation de séquences d'activities devient une application émergente importante. Ce problème est crucial dans le cas d'événements distribués (e.g. festival ou croisière) qui rassemblent plusieurs activités concurrentes. Un participant à de tels événements est submergé par le choix de nombreuses activités possibles et fait face au problème de sélection d'activités. Dans...

Construction de patrons lexico-syntaxiques d’extraction pour l’acquisition de connaissances à partir du web

Chloé Monnin & Olivier Hamon
RESUME Cet article présente une méthode permettant de collecter sur le web des informations complémentaires à une information prédéfinie, afin de remplir une base de connaissances. Notre méthode utilise des patrons lexico-syntaxiques, servant à la fois de requêtes de recherche et de patrons d'extraction permettant l'analyse de documents non structurés. Pour ce faire, il nous a fallu définir au préalable les critères pertinents issus des analyses dans l'objectif de faciliter la découverte de nouvelles valeurs.

Fusion multimodale image/texte par réseaux de neurones profonds pour la classification de documents imprimés.

Thibault Magallon, Frédéric Béchet & Benoît Favre
RÉSUMÉ. La classification de documents imprimés est une tâche réalisée en entrée de multiples chaînes de traitement et d'analyse d'archives numériques, ce qui en fait un point critique dans de tel systèmes. Afin d'extraire des éléments caractéristiques de chaque catégorie parmi lesquels ces pièces doivent être classés, des données textuelles ou des images sont utilisés. Nous présentons dans cet article une analyse de différentes approches pour la catégorisation de documents exploitant des données textuelles ou...

Automatic Detection of Depressive Users in Social Media

Farah Benamara, Véronique Moriceau, Josiane Mothe, Faneva Ramiandrisoa & Zhaolong He
RÉSUMÉ. La dépression est une affection courante qui concerne environ 350 millions de personnes dans le monde selon les estimations de l'Organisation Mondiale de la Santé. La détection de ce trouble est donc un enjeu majeur de santé publique. Plusieurs recherches en psychologie ont démontré l'existence d'un lien fort entre l'état dépressif d'un individu et son expression langagière. Dans cet article, nous proposons de repérer automatiquement ces indices linguistiques dans le but de détecter les...

Identification de descripteurs pour la caractérisation de registres

Jade Mekki, Delphine Battistelli, Gwénolé Lecorvé & Nicolas Béchet
RÉSUMÉ L'article présente une étude des descripteurs linguistiques pour la caractérisation d'un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d'un état de l'art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons...

Analyse des inférences pour la fouille d’opinion en chinois

Liyun Yan
RÉSUMÉ La fouille d'opinion est une activité essentielle pour la veille économique, facilitée par les réseaux sociaux et forums dédiés. L'analyse repose généralement sur des lexiques de sentiments. Pourtant, certaines opinions sont exprimées au moyen d'inférences. Dans cet article, nous proposons une classification des inférences utilisées en chinois dans des commentaires touristiques, à des fins de fouille d'opinion, selon trois niveaux d'analyse (réalisation sémantique, modalité de réalisation, et mode de production). Nous démontrons l'intérêt d'analyser...

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Maëlle Brassier & Alexis Puret
RÉSUMÉ Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d'un modèle de résolution des coréférences en français à l'aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s'inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en...

Détection d’opinion argumentée à partir de Twitter

Asma Ouertatani, Ghada Gasmi & Chiraz Latiri
RÉSUMÉ. Savoir ce que pensent les gens est fondamental pour la prise de décision. Avec la croissance explosive des réseaux sociaux ces informations sont disponibles à profusion, sous forme d'avis, d'opinions ou d'un jugement formé sur quelque chose ou quelqu'un pour défendre un point de vue. Plusieurs chercheurs ne se sont concentrés que sur l'identification et la définition de l'opinion. Nous proposons dans cet article de définir et de caractériser l'opinion argumentée selon les composantes...

Étude de l’informativité des transcriptions : une approche basée sur le résumé automatique

Carlos-Emiliano González-Gallardo, Malek Hajjem, Eric SanJuan & Juan-Manuel Torres-Moreno
RÉSUMÉ. Dans cet article nous proposons une nouvelle approche d'évaluation de l'informativité des transcriptions issues de différents systèmes de Reconnaissance Automatiques de la Parole. Cette approche, fondée sur la notion d'informativité, s'inscrit particulièrement dans le cadre du Résumé Automatique de texte effectué sur ces transcriptions. Nous estimons, dans un premier temps, le contenu informatif des différentes transcriptions. Par la suite, nous explorons la capacité du Résumé automatique de texte pour surmonter la perte informative. Pour...

Analyse des noms agentifs dans les espaces vectoriels distributionnels

Marine Wauquier
RÉSUMÉ Notre étude s'inscrit dans le cadre d'une thèse ayant pour but d'exploiter les modèles distributionnels pour décrire sémantiquement des classes de mots définies selon des critères morphologiques. Nous utilisons des indices morphologiques et formels fournis par une base lexicale pour cibler les noms agentifs déverbaux construits par suffixation en-eur. Nous montrons qu'il est possible de constituer un représentant prototypique de la classe sémantique des noms agentifs en-eur dans les modèles distributionnels. L'étude de ce...

Modèle neuronal tripartite pour la représentation de documents

Gia-Hung Nguyen, Lynda Tamine, Laure Soulier & Nathalie Bricon-Souf
RÉSUMÉ. De nombreux travaux en recherche d'information (RI) ont montré que l'utilisation des sources d'évidence provenant de ressources sémantiques externes pourrait améliorer la performance de l'appariement. Par ailleurs, les approches neuronales sont devenues des modèles de référence qui permettent de capturer à partir des corpus, la sémantique latente des mots qui peut être injectée dans les modèles RI. Ce papier présente un modèle qui a pour but de réduire le fossé sémantique en RI en...

Registration Year

  • 2018
    31

Resource Types

  • Text
    31