23 Works

« Hé Manu, tu descends ? » : identification nommée du locuteur dans les dialogues

Léo Galmant, Hervé Bredin, Camille Guinaudeau & Anne-Laure Ligozat
RÉSUMÉ. L'identification du locuteur est la tâche qui consiste à associer un locuteur à chaque tour de parole d'un dialogue, utilisée notamment pour enrichir les corpus de transcriptions automatiques.Le traitement de la tâche peut totalement différer selon le média : vidéo (films, séries, etc.), audio (séries, radio, etc.) ou textuel (scripts, transcriptions, etc.). Dans cet article, nous proposons une méthode d'identification du locuteur à partir des scripts et transcriptions de séries. Dans un dialogue de...

Architecture siamoise et embeddings de triplet pour la validation de relations

Jose G. Moreno, Rashedur Rahman, Charlotte Rudnik, Cong Wang & Brigitte Grau
RÉSUMÉ. La reconnaissance qu'une relation existe entre deux entités mentionnées dans un texte joue un rôle vital en extraction d'information (EI). Pour répondre à la nécessité d'annoter ma- nuellement de nombreux exemples, des paradigmes de supervision distante et d'EI non super- visée ont été proposés. Le point crucial dans ces approches est de pouvoir évaluer la validité des relations extraites. Dans cet article, nous proposons une nouvelle architecture neuronale pour modéliser la validation de relations,...

Réseaux de neurones convolutifs de quaternions pour l'identification de thèmes de conversations téléphoniques

Titouan Parcollet, Mohamed Morchid & Georges Linarès
RÉSUMÉ. Les réseaux de neurones convolutifs de quaternions (QCNN) forment un ensemble d’algorithmes particulièrement efficaces pour l’apprentissage et la modélisation des relations internes et externes existantes entre les caractéristiques d’un vecteur de données. Ce travail propose d’évaluer l’efficacité des QCNNs à travers une tâche réaliste d’identification automatique de thèmes contenus dans des conversations téléphoniques, impliquant des agents et des usagers du centre d’appel du service de transport de la ville de Paris (RATP). Il est...

Data-to-Text: Vers la génération de texte à partir de données non-linguistiques

Clément Rebuffel
RÉSUMÉ. Nous nous intéressons à la problématique de la génération du langage natu- rel dont l'objectif est de transcrire un contexte d'entrée vers une description adéquate de ce contexte. Plus particulièrement, nous abordons la problématique du "data-to- text" qui se focalise sur les descriptions de données non linguistiques, comme les ta- bleaux numériques ou les graphiques. Dans ce papier, nous exposons l'état de l'art relatif à ce domaine : nous décrivons les mécanismes de base...

Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs

Meryem Bendella & Mohamed Quafafou
RÉSUMÉ. Les services sociaux de microblogging jouent un rôle important dans notre société. Twitter est l'une des plateformes de microblogging les plus populaires, utilisées par les in- ternautes pour trouver des informations pertinentes (sujets d'actualité, tendances populaires, informations sur certains internautes, etc.). Dans ce contexte, la recherche d'information pro- venant de telles données a récemment gagné un intérêt majeur et ouvert de nouveaux défis. Cependant, la taille de ces données ainsi que des requêtes est...

Quelques pas vers l'Honnêteté et l'Explicabilité de moteurs de recherche sur le Web

Lydie Du Bousquet, Philippe Mulhem & Sara Lakah
RÉSUMÉ. La transparence des algorithmes est un sujet de préoccupation pour les utilisateurs et les autorités. Parmi les différents aspects de cette notion de transparence, est-il possible d'étu- dier dans quelle mesure les moteurs de recherche sur le web sont honnêtes par rapport à leur politique de personnalisation déclarée, et dans quelle mesure est-il possible d'expliquer leur comportement, ne serait-ce que succinctement ? Cet article décrit un cadre expérimental pour étudier ces aspects, et des...

Exploitation de syntagmes dans la découverte de thèmes

Amaury Delamaire, Michel Beigbeder & Mihaela Juganaru-Mathieu
RÉSUMÉ. Le but de cet article est d'étudier l'apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l'hypothèse qu'ajouter des syntagmes à la représentation des documents-- pour lesquels ne sont traditionnellement considérés que les mots simples-- permettrait d'améliorer la qualité d'un modèle de thèmes, en l'occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un...

Méthodes de classification pour l’identification de nœuds importantes dans les graphes dynamiques

Marwan Ghanem
RÉSUME. De nos jours, nous nous intéressons à la détection d'entités importantes, ceci peut être des mots-clés importants dans un document ou Twitter, ou des individus importants dans un réseau de mouvement. Nous pouvons modéliser ces données sous la forme d'un graphe dy- namique et utiliser des métriques de centralité telle que la centralité de proximité temporelle. Malheureusement, cela peut être coûteux. Dans ce travail, nous comparons la précision de plu- sieurs méthodes de classification...

Régularisation Spatiale de Représentations Distribuées de Mots

Paul Mousset, Yoann Pitarch & Lynda Tamine
RÉSUMÉ. Stimulée par l'usage intensif des téléphones mobiles, l'exploitation conjointe des don- nées textuelles et des données spatiales présentes dans les objets spatio-textuels (p. ex. tweets) est devenue la pierre angulaire à de nombreuses applications comme la recherche de lieux d'at- traction. Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d'objets spatiaux et la définition de fonctions d'appariement entre ces objets. Dans cet article, nous nous intéressons au problème...

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Thomas Scialom, Benjamin Piwowarski & Jacopo Staiano
RÉSUMÉ. Les architectures neuronales basées sur l'attention, telles que le Transformer, ont ré- cemment suscité l'intérêt de la communauté scientifique et ont permis d'obtenir des progrès im- portants par rapport à l'état de l'art dans plusieurs domaines. L'adaptation des Transformers à la tâche de la génération de questions n'est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l'effet des...

Recherche d'Information Sociale en Langue Arabe : Cas de Facebook

Ismail Badache, Aya Abu-Thaher, Mariam Hamdan & Lara Abu-Jaish
RÉSUMÉ. Cet article propose une approche de recherche d'information (RI) en langue arabe sur Facebook, qui exploite toutes les traces des utilisateurs (ex. polarité, partage, j'aime, haha) laissées sur des publications Facebook pour estimer leur importance sociale. Notre objectif est de montrer comment ces signaux peuvent jouer un rôle vital dans l'amélioration de la recherche en langue arabe sur Facebook. Premièrement, des polarités (positive ou négative) portée par les signaux textuels (ex. commentaires) et non...

CLEF MC2 Lab: Évaluation, Résultats, et Perspectives

Malek Hajjem, Jean Valère Cossu, Chiraz Latiri & Eric SanJuan
RÉSUMÉ. Le Lab MC21 2018 est une tâche de recherche d’information (RI) au sein de la campagne d’évaluation CLEF. L’objectif de cette tâche est de développer des méthodes et ressources textuelles pour l’analyse des médias sociaux autour d’évènements culturels. Cet atelier de recherche se focalise sur le corpus de microblogs "GAFES"2 comme principale ressource. En exploitant ces données pendant trois ans, les organisateurs ont pu proposer au fil de temps des sous-tâches aux perspectives diverses....

Extension du modèle de langue pour la RI avec la position du terme.

Hammache Arezki & Mohand Boughanem
RESUME. La plupart des modèles de RI se basent généralement sur la combinaison de trois facteurs dans leur fonction de pondération, qui sont : la fréquence du terme dans le document (TF), la fréquence du terme dans la collection (ou l'IDF) et la taille du document. Quelques approches ont proposé d'intégrer la position du terme dans le document dans l'objectif de surpondérer les termes qui apparaissent au début du document. Dans cet article, nous nous...

Apprentissage de Représentation appliqué à la Recommandation pour la Littérature Scientifique

Robin Brochier
RÉSUMÉ. La littérature scientifique forme un large réseau d'information reliant des acteurs va- riés (laboratoires, entreprises, institutions, etc.). La vaste quantité de données générées par ce réseau constitue un graphe hétérogène attribué dynamique, dans lequel de nouvelles informa- tions sont constamment produites et dont il est de plus en plus difficile d'extraire du contenu d'intérêt. Dans cet article, je présente mes premiers travaux de thèse réalisés en partena- riat avec un acteur industriel. Celui-ci propose...

Architecture Asymétrique pour les Modèles Neuronaux d'Appariement de Textes

Thiziri Belkacem, Taofiq Dkaki, Jose G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans les modèles neuronaux d'appariement de textes, les entrées subissent les mêmes transformations pour construire les représentations correspondantes. La nature de la tâche d'appariement est défini à partir du type des entrées du modèle et de la relation entre elles. Nous distinguons deux types d'appariement : (1) l'appariement symétrique fait référence aux tâches d'appariement à des entrées de même nature, telles que l'identification des paraphrases et la classification de documents. (2) l'appariement asymétrique concerne...

Influence des lexiques d’émotions et de sentiments sur l’analyse des sentiments

Soëlie Lerch, Patrice Bellot, Elisabeth Murisasco & Emmanuel Bruno
RÉSUMÉ. Les consommateurs ont l'habitude de consulter les critiques postées sur internet avant d'acheter un produit. Mais, il est difficile pour le consommateur de connaître l'opinion globale du produit vu le nombre important de ces critiques. L'analyse des sentiments permet de détecter la polarité (positive, négative ou neutre) sur une opinion exprimée et donc de classer ces critiques. Notre but est de déterminer l'influence de l'expression des émotions sur l'analyse de la polarité des critiques...

Navigation conceptuelle dans une base de connaissances sur l'usage des plantes en santé animale et végétale

Priscilla Keip, Amirouche Ouzerdine, Marianne Huchard, Pierre Silvie & Pierre Martin
RÉSUMÉ. De plus en plus de bases de connaissances sont développées dans le domaine de l'envi- ronnement et du vivant. L'enjeu de ce travail est de rendre ces connaissances accessibles à des utilisateurs ayant des préoccupations variées. Notre cas d'étude concerne une base de connais- sances rassemblant environ 30 000 descriptions d'usage de plantes en Afrique, à effet pesticide, antimicrobien et antiparasitaire de synthèse. Dans cet article, nous proposons une architecture de système pour explorer...

Detecting new word meanings: a comparison of word embedding models in Spanish

Andrés Torres Rivera & Juan-Manuel Torres-Moreno
RÉSUMÉ. Les néologismes sémantiques (NS) sont définis comme des mots qui acquièrent une nou- velle signification tout en maintenant leur forme. Compte tenu de la nature de ce type de néolo- gisme, la tâche d'identifier ces nouveaux sens des mots est actuellement effectuée manuellement par des spécialistes des observatoires de néologie. Pour détecter les NS de manière semi- automatique, nous avons développé un système mettant en uvre une combinaison des stratégies suivantes: modélisation de sujets,...

Recherche d'information entre des bases de connaissances

Jean Dupuy
RÉSUMÉ. Dans cet article nous nous intéresserons à la recommandation de contenus, et plus par- ticulièrement au sein de bases de connaissances. Le sujet de thèse présenté ici se focalise sur la représentation de documents textuels en prenant en compte plusieurs échelles (phrase, para- graphe et document entier) et l'exploitation de celle-ci par un système de recommandation, soit au sein de la même base de connaissances, soit entre des bases différentes. Après un détail du...

Modèle de compréhension du besoin en information pour la recherche d'information conversationnelle

Wafa Aissa, Laure Soulier & Ludovic Denoyer
RÉSUMÉ. La RI repose sur un cadre standard qui interroge des collections de documents à partir d'un besoin en information exprimé sous la forme d'un ensemble de mots-clés. Notre contri- bution vise à dépasser ce paradigme habituel en traitant directement le besoin en information exprimé en langage naturel pour tendre vers une nouvelle génération de systèmes de RI axés sur l'aspect conversationnels (appelés aussi "search oriented conversational systems"). Une première étape réside alors dans la...

Exploration de l'apport de l'analyse des perceptions oculaires : étude préliminaire pour le bouclage de pertinence

Lucas Albarede, Francis Jambon & Philippe Mulhem
RÉSUMÉ. Nos travaux visent à évaluer l’impact potentiel de l’utilisation des perceptions oculaires vis-à-vis du mécanisme de bouclage de pertinence d’un moteur de recherche d’information. Nous nous sommes intéressés aux situations écologiques où l’utilisateur évalue la pertinence des résultats d’une requête via les snippets affichées sur la page des résultats. Notre hypothèse est que la connaissance des termes lus par un utilisateur sur cette page de résultats peut être utilisée pour améliorer le mécanisme de...

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. L'ancrage visuel est un domaine de recherche actif dont le but est d'enrichir les repré- sentations vectorielles textuelles à l'aide d'informations visuelles. La plupart des travaux du domaine s'appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s'avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d'apprentissage de re- présentation de phrases qui transfère la structure...

Registration Year

  • 2019
    23

Resource Types

  • Text
    23