21 Works

Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Gaël Lejeune, Adam Jatowt & Moses Odeo
Dans cet article, nous abordons la tâche de classification multilingue de textes dans le domaine épidémiologique. Nous comparons différents modèles d'apprentissage automatique et d'apprentissage profond à l'aide d'un jeu de données multilingue comprenant des articles de presse en six langues. Notre objectif est d'analyser l'influence de la famille de langue, de la structure du document et de la taille des données sur les résultats de classification. Nos résultats indiquent que les performances des modèles basés...

Une Analyse du Modèle ColBERT

Thibault Formal, Benjamin Piwowarski & Stéphane Clinchant
Les modèles de RI basés sur les Transformers sont aujourd'hui état de l'art en Recherche d'Information ad-hoc, mais leur comportement reste encore incompris. Des travaux récents ont montré que BERT ne satisfait pas les axiomes classiques de la RI. Nous proposons d'étudier le processus d'appariement par l'analyse de l'importance des termes et des mécanismes d'appariement exact et sémantique. Même si les axiomes classiques ne sont pas formellement vérifiés, notre analyse révèle que des modèles comme...

Recherche d'information dans les systémes P2P hétérogènes.

Thomas Cerqueus
RÉSUMÉ. Nous considérons la recherche d'information sémantique dans les systèmes pair-à- pair. Ces derniers semblent être une solution intéressante pour le partage de données car ils garantissent le passage à l'échelle, et gère la dynamicité. Dans ce contexte, il est difficilement imaginable que tous les participants s'accordent sur l'utilisation d'une même représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le système est sémantique- ment hétérogène. Cette situation limite l'interopérabilité entre participants. Dans cet article...

Oubli catastrophique et approches neuronales pour la Recherche d'Information

Jesús Lovón-Melgarejo, Laure Soulier, Karen Pinel-Sauvagnat & Lynda Tamine
Dans cet article, nous étudions dans quelle mesure les approches neuronales pour la recherche d'information souffrent du problème bien identifié de l'oubli catastrophique: toute redéfinition significative de l'objectif d'apprentissage (dans notre cas un corpus très différent) provoque une grande dégradation des connaissances préalablement acquises sur le corpus d'origine. De premières expérimentations sur quatre corpus montrent que les cinq approches neuronales que nous avons évaluées souffrent de cet oubli, et qu'une stratégie d'apprentissage tout au long...

Génération de textes artificiels pour l'expansion de requêtes

Vincent Claveau
Un moyen d'améliorer les performances de la recherche de documents consiste à étendre la requête de l'utilisateur. Plusieurs approches ont été proposées dans la littérature, et certaines d'entre elles obtiennent des résultats jugés état-de-l'art. Dans cet article, nous explorons l'utilisation de la génération de texte pour étendre automatiquement les requêtes. Nous nous appuyons sur un modèle génératif neuronal bien connu, GPT-2, pour lequel il existe des modèles pré-entraînés pour l'anglais, mais qui peut également être...

Exploring use of transformer based models on incident reports in aviation

Samuel Kierszbaum, Laurent Lapasset & Thierry Klein
Recently, transformer-based models have beaten humans in Natural Language Understanding (NLU) tasks such as text classification, and have been used in specialized fields such as healthcare. In this context, our general aim is to explore how such models could help support analysts working in safety in aviation, in particular when they are used on incident reports. In this article, we work with the Aviation Safety Reporting System (ASRS) data set. It is made up of...

Addressing Different Evaluation Environments for Information Retrieval through Pivot Systems

Gabriela Nicole González Sáez, Lorraine Goeuriot & Philippe Mulhem
Classical evaluations of Information Retrieval systems, under the Cranfield Paradigm, compare several systems in one evaluation environment composed by its settings as the corpus, topics, assessments and evaluation measures. This paper proposes a framework able to handle the comparison of systems across several evaluation environments. To achieve this goal, we use pivot systems, that allow an indirect comparison of systems across evaluation environments by computing Result Deltas, i.e. the differences, between their evaluation measures values....

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Emanuela Boros, Ahmed Hamdi, Elvys Linhares Pontes, Luis Adrián Cabrera-Diego, Jose G Moreno, Nicolas Sidère & Antoine Doucet
Cet article aborde la reconnaissance d'entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d'images numériques de journaux à l'aide de techniques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d'orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un...

Détection de scènes remarquables dans un contexte des séries TV

Aman Berhe, Camille Guinaudeau & Claude Barras
Pour faciliter l'accès à une large quantité de données multimédia, il est souvent utile d'en extraire un résumé ou l'élément le plus saillant. Dans le cadre des séries télévisées, une manière d'extraire le résumé d'un épisode consiste à detecter les scènes les plus remarquables, c'est-à-dire celles qui apportent un changement radical au récit d'un épisode, avant de les combiner pour produire un résumé de l'épisode, de la saison ou de la série entière. L'aspect remarquable...

On the detection of fake news and conspiracy theories

Paolo Rosso

Study on news trading

Aron Vizkeleti & Elöd Egyed-Zsigmond
Stock market prediction using text mining and machine learning methods has received scientific attention in the last years. The success of these methods hinges on the efficient-market hypothesis and the precision of relevant information retrieval. This paper provides and compares methods to evaluate the relevance of retrieved information used to predict stock price changes, based on informational entropy and statistical methods. Our proposed prediction method compares textual information from a test period with previously retrieved...

Apprentissage non supervisé de représentations de mots à l'aide de réseaux de convolution bilinéaires sur des caractères

Thomas Luka, Laure Soulier & David Picard
Dans cet article, nous proposons une nouvelle méthode non-supervisée pour apprendre des représentations de mots avec des convolutions directement sur des caractères. Nous évitons ainsi les problèmes inhérents à l'utilisation d'un dictionnaire. Pour y parvenir, nous avons traduit l'hypothèse de distribution par une fonction de coût d'apprentissage de métrique. Cela permet d'avoir un unique encodeur au lieu des architectures comportant un encodeur et un décodeur. Enfin, nous proposons d'utiliser un réseau convolutif comportant des connections...

Passage retrieval in context: Experiments on Patents

Lucas Albarede, Philippe Mulhem, Lorraine Goeuriot, Claude Le Pape-Gardeux, Sylvain Marie & Trinidad Chardin-Segui
Focused retrieval retrieves and ranks sub-parts of documents according to their estimated relevance to a query. Many approaches akin to XML retrieval and Structured Document retrieval exploit documents structure to effectively retrieve logic elements (titles, sections, etc...). Other approaches like Passage Retrieval aim at retrieving arbitrary length text unit (passages), considering the document as a unstructured flat text. In this work, we use the best of the two worlds. We want to (1) retrieve passages...

Extraction des tâches de recherche dans des journaux de requêtes à l'aide d'une architecture de regroupement profond récurrent

Luis Lugo, Jose G Moreno & Gilles Hubert
L'extraction des tâches de recherche est cruciale pour les applications prenant en charge de multiples utilisateurs, comme la recommandation de requêtes, la prédiction de termes de recherche et le classement des résultats en fonction des tâches de recherche. La plupart des méthodes d'extraction de tâches de recherche existantes utilisent des modèles graphiques ou non paramétriques, qui ont un coût computationnel croissant à mesure que la taille du journal des requêtes augmente. Les méthodes de regroupement...

État de l'art du changement sémantique à partir de plongements contextualisés

Syrielle Montariol, Alexandre Allauzen & Antoine Doucet
Les changements lexico-sémantiques --- des variations temporelles dans l'usage et la signification des mots --- reflètent l'évolution de divers aspects de la société tels que l'environnement technologique et culturel. Détecter et comprendre ces changements est utile, par exemple, en lexicographie et en sociolinguistique. Ce domaine détude a rapidement évolué avec l'essor de la sémantique distributionnelle et a connu un élan dintérêt au cours des dernières années, avec lusage des plongements neuronaux. Plus récemment, les modèles...

État de l'art des approches de modélisation et de simulation utilisateur pour la recherche d'information conversationnelle

Pierre Erbacher and Laure Soulier
La recherche d'information conversationnelle (RIC) est un domaine à la croisée de la RI interactive et des systèmes de dialogue pour des besoins en information sur des domaines ouverts. Afin d'optimiser les interactions entre système et utilisateur et améliorer au mieux l'expérience utilisateur, il est nécessaire d'améliorer les modèles d'interactions en RI par la prise en compte séquentielle des actions hétérogènes. L'apprentissage par renforcement s'est imposé comme un paradigme particulièrement adapté pour optimiser les prises...

Vers un système de recommandation de profils experts dans l'industrie des procédés

Yann Duperis, Adrian-Gabriel Chifu, Bernard Espinasse, Sébastien Fournier & Arthur Kuehn
La dématérialisation des processus de recrutement na pas fait disparaître toutes les frictions inhérentes à cette activité. La recherche automatisée dun candidat idéal se heurte toujours à la difficulté à modéliser correctement les besoins exprimés en langage naturel dans une offre d'emploi. Le recrutement d'experts, notamment, est particulièrement difficile. En effet, ces profils concernent une proportion réduite des recrutements et leur prise en charge informatisée nécessite une connaissance précise du secteur d'activité concerné. Dans cet...

Modelling document-query interaction in a hierarchical neural model for IR

Johan Chagnon, Diana Popa, Yagmur Gizem Cinar & Eric Gaussier
Recent deep approaches to information retrieval are either representation-oriented or interaction-oriented, depending on how they view the modelling of document and query representations and their interactions. We explore a hierarchical approach to document encoding that enables modelling the query-document interaction at different levels of granularity. The proposed model splits the input documents into blocks that are individually matched to a given query through a series of self-attention modules, along with pooling and projection layers. We...

RFreeStem un raciniseur pour le Malgache

Andonirina Andriamihasinoro, Oihana Coustie, Josiane Mothe & Olivier Teste
La racinisation est une étape dans le pré-traitement des textes qui regroupe des mots qui sont morphologiquement différents mais sémantiquement similaires, et qui donc, utilisés dans une requête, devraient correspondre à des résultats d'un moteur de recherche similaires voire identiques. Pour de nombreuses langues, les raciniseurs sont à base de règles. Pour des langues non outillées, le problème de racinisation demeure non résolu. C'est le cas du malgache. Cet article analyse l'efficacité d'un raciniseur, RFeeStem,...

Analyse de sentiments dans les textes économiques : un exemple d'application chez ReportLinker

Marilyne Latour
Cet article présente un retour dexpérience mené dans un cadre industriel sur de l'analyse de sentiments. Lexpérience consiste à traiter des données non structurées à partir de dépêches d'actualité en économie afin d'extraire la tonalité des phrases (positives et négatives principalement). Nous présentons ici la méthode utilisée au sein de notre moteur de recherche, ReportLinker. Il s'agit d'une méthode hybride ; basée sur de la linguistique (Lexicons) et de la statistique (modèle de régression logistique)....

Extraction des liens d'articles à partir de la une des journaux en ligne

Romain Perrone, Cédric Boscher, Nada Lasri & Elöd Egyed-Zsigmond
La détection automatisée des liens d'articles dans la une des journaux en ligne est un sujet très peu étudié, bien qu'il s'agisse d'une étape clé pour extraire des informations à partir d'un journal. Dans cette étude, nous présentons une nouvelle approche permettant de détecter efficacement les liens des articles présents sur un large éventail de pages web de journaux. Notre méthode détecte les liens présents sur une page web et élimine les liens non pertinents...

Registration Year

  • 2021
    20
  • 2017
    1

Resource Types

  • Conference Paper
    21