598 Works

Utilisation du Web pour la reconnaissance de mots manuscrits hors vocabulaire.

Cristina Oprean, Laurence Likforman-Sulem, & Chafic Mokbel
RÉSUMÉ. Les systèmes de reconnaissance de l'écriture manuscrite s'appuient sur des diction- naires prédéfinis obtenus à partir de corpus d'entraînement. La taille de ces dictionnaires ré- sulte d'un compromis entre le taux de reconnaissance des mots du vocabulaire (DV) et la cou- verture du dictionnaire. Si la taille est limitée, beaucoup de mots hors vocabulaire (HV) restent non reconnus. Pour améliorer la reconnaissance des mots HV, sans augmenter le dictionnaire, nous introduisons une étape supplémentaire...

Détection de tableaux dans des documents complexes.

Thotreingam Kasar, Philippine Barlas, Sébastien Adam, Clément Chatelain & Thierry Paquet
RÉSUMÉ. Dans cet article, nous présentons les résultats obtenus par un détecteur de tableau dans le cadre des campagnes MAURDOR, pour lesquelles le corpus présente la particularité de contenir des document fortement hétérogènes dans leur mise en page, leurs scripts et les langues utilisées.

\"Étude comparative de trois ensembles de descripteurs de texture pour la segmentation de documents anciens\".

Maroua Mehri, Mohamed Mhiri, Pierre Héroux, Petra Gomez-Krämer, Mohamed Ali Mahjoub & Rémy Mullot
RÉSUMÉ. Récemment, des approches basées sur l'analyse des descripteurs de texture ont été largement explorées pour la segmentation d'images de documents anciens numérisés. Il a été prouvé que ces méthodes fonctionnent efficacement en n'ayant pas de connaissances préalables. En outre, il a été démontré qu'elles sont robustes lorsqu'elles sont appliquées sur des documents dégradés ou bruités. Dans cet article, une approche d'évaluation de trois différents ensembles de descripteurs texturaux est présentée pour la segmentation de...

Classification avec style : Une application aux discours gouvernementaux.

Jacques Savoy
RESUME. Cet article présente une analyse lexicale d'un corpus composé des discours sur l'état de l'Union de 1790 à 2013 pour un total de 223 allocutions écrites par 41 présidents des Etats-Unis. Une classification automatique basée sur la fréquence d'occurrences de tous les lemmes indique que la chronologie correspond à un facteur important dans le regroupement des présidents, plus que les affinités de parti. Une attribution d'auteur indique que, pour 96% des discours, on détecte...

Annotation de vidéos par paires rares de concepts.

Abdelkader Hamadi, Philippe Mulhem & Georges Quénot
RESUME. La détection d’un concept visuel dans les videos est une tâche difficile, spécialement pour les concepts rares ou pour ceux dont il est compliqué de décrire visuellement. Cette question devient encore plus difficile quand on veut détecter une paire de concepts au lieu d’un seul. En effet, plus le nombre de concepts présents dans une scène vidéo est grand, plus cette dernière est complexe visuellement, et donc la difficulté de lui trouver une description...

Apprentissage de classification des requêtes basée sur la confiance et la couverture.

Hajer Ayadi, Mouna Torjmen Khemakhem, Mariam Daoud, Jimmy Xiangji Huang & Maher Ben Jemaa
RÉSUMÉ. Les requêtes médicales sont souvent étiquetées par le type du modèle de recherche estimé donnant les meilleures performances selon des experts du domaine. Dans un travail pré- cédent, nous avons proposé d'automatiser cette tâche d'étiquetage (de classification) manuelle. Dans ce papier, nous proposons une nouvelle approche de classification qui apprend automati- quement à associer à chaque requête l'étiquette du modèle de recherche le plus adéquat. Plus précisément, nous générons un ensemble de règles d'association...

Techniques d'apprentissage supervisé pour l'extraction d'événements TimeML en anglais et français.

Béatrice Arnulphy, Vincent Claveau, Xavier Tannier & Anne Vilnat
RÉSUMÉ. L'identification des événements au sein de textes est une tâche d'extraction d'informations importante et préalable à de nombreuses applications. Au travers des spécifications TimeML et des campagnes TempEval, cette tâche a reçu une attention particulière ces der- nières années, mais aucun résultat de référence n'est disponible pour le français. Dans cet article nous tentons de répondre à ce problème en proposant plusieurs systèmes d'extraction, en faisant notamment collaborer champs aléatoires conditionnels, modèles de langues...

Réseaux Bayésiens et quelques applications en traitement d’images.

Abdessalem Bouzaieni
RÉSUMÉ. Les réseaux Bayésiens sont actuellement une des techniques les plus intéressantes de l’intelligence artificielle car ils allient la lisibilité d’une représentation de la connaissance par un graphe causal intuitif à l’efficacité d’une représentation « distribuée » des données qui tient compte de l’incertitude dans le raisonnement. Ils sont utilisés dans nombre d’applications. Cet article présente quelques notions sur le concept des réseaux Bayésiens. Nous présentons également quelques applications dans le domaine du traitement d’images.

Représentations Gaussiennes pour le Filtrage Collaboratif

Hadrien Titeux, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. La plupart des systèmes de filtrage collaboratifs, comme par exemple la factorisation matricielle, utilisent des représentations vectorielles pour les articles et les utilisateurs. Ces représentations sont déterministes, et ne permettent pas de modéliser l'incertitude des représentations apprises, ce qui peut être utile quand un utilisateur a évalué un petit nombre d'articles (problème du démarrage à froid), ou quand le modèle est confronté à des informations contradictoires concernant le comportement d'un utilisateur ou les évaluations...

Approche lexicale de la simplification automatique de textes médicaux

Rémi Cardon
RÉSUMÉ Notre travail traite de la simplification automatique de textes. Ce type d'application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d'un lexique existant et d'une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L'alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d'analyser...

Détection d’influenceurs dans des médias sociaux

Kévin Deturck
RÉSUMÉ Les influenceurs ont la capacité d'avoir un impact sur d'autres individus lorsqu'ils interagissent avec eux. Détecter les influenceurs permet d'identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d'analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d'abord une évaluation de différentes mesures de centralité sur la structure...

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

Catégorisation libre d’extraits musicaux et analyse automatique

Nicolas Dauban, Paul Albenge, Ludovic Florin, Julien Pinquier, Christine Sénac, Pascal Gaillard & Patrice Guyot
RÉSUMÉ. Cet article décrit le protocole expérimental et les résultats obtenus lors d'une expérience de catégorisation. Cette expérience s'inscrit dans le cadre de travaux de recherche sur la recommandation musicale personnalisée et basée sur le contenu. Durant cette expérience, les volontaires ont dû catégoriser librement des extraits musicaux sélectionnés selon des critères musicologiques. Cette catégorisation est analysée via un dendrogramme représentant la u classification moyenne des participants ». Une analyse automatique des résultats menée a...

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Maëlle Brassier & Alexis Puret
RÉSUMÉ Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d'un modèle de résolution des coréférences en français à l'aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s'inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en...

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans cet article, nous étudions l'appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l'aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l'appariement exact entre les mots, le processus d'appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les...

Detecting new word meanings: a comparison of word embedding models in Spanish

Andrés Torres Rivera & Juan-Manuel Torres-Moreno
RÉSUMÉ. Les néologismes sémantiques (NS) sont définis comme des mots qui acquièrent une nou- velle signification tout en maintenant leur forme. Compte tenu de la nature de ce type de néolo- gisme, la tâche d'identifier ces nouveaux sens des mots est actuellement effectuée manuellement par des spécialistes des observatoires de néologie. Pour détecter les NS de manière semi- automatique, nous avons développé un système mettant en uvre une combinaison des stratégies suivantes: modélisation de sujets,...

CLEF MC2 Lab: Évaluation, Résultats, et Perspectives

Malek Hajjem, Jean Valère Cossu, Chiraz Latiri & Eric SanJuan
RÉSUMÉ. Le Lab MC21 2018 est une tâche de recherche d’information (RI) au sein de la campagne d’évaluation CLEF. L’objectif de cette tâche est de développer des méthodes et ressources textuelles pour l’analyse des médias sociaux autour d’évènements culturels. Cet atelier de recherche se focalise sur le corpus de microblogs "GAFES"2 comme principale ressource. En exploitant ces données pendant trois ans, les organisateurs ont pu proposer au fil de temps des sous-tâches aux perspectives diverses....

Expansion de requêtes à base de motifs et de Word Embeddings pour améliorer la recherche de microblogs

Meryem Bendella & Mohamed Quafafou
RÉSUMÉ. Les services sociaux de microblogging jouent un rôle important dans notre société. Twitter est l'une des plateformes de microblogging les plus populaires, utilisées par les in- ternautes pour trouver des informations pertinentes (sujets d'actualité, tendances populaires, informations sur certains internautes, etc.). Dans ce contexte, la recherche d'information pro- venant de telles données a récemment gagné un intérêt majeur et ouvert de nouveaux défis. Cependant, la taille de ces données ainsi que des requêtes est...

Influence des lexiques d’émotions et de sentiments sur l’analyse des sentiments

Soëlie Lerch, Patrice Bellot, Elisabeth Murisasco & Emmanuel Bruno
RÉSUMÉ. Les consommateurs ont l'habitude de consulter les critiques postées sur internet avant d'acheter un produit. Mais, il est difficile pour le consommateur de connaître l'opinion globale du produit vu le nombre important de ces critiques. L'analyse des sentiments permet de détecter la polarité (positive, négative ou neutre) sur une opinion exprimée et donc de classer ces critiques. Notre but est de déterminer l'influence de l'expression des émotions sur l'analyse de la polarité des critiques...

Exploitation de syntagmes dans la découverte de thèmes

Amaury Delamaire, Michel Beigbeder & Mihaela Juganaru-Mathieu
RÉSUMÉ. Le but de cet article est d'étudier l'apport des syntagmes nominaux, verbaux et ad- jectivaux pour la découverte de thèmes ( topic modeling). Nous testons l'hypothèse qu'ajouter des syntagmes à la représentation des documents-- pour lesquels ne sont traditionnellement considérés que les mots simples-- permettrait d'améliorer la qualité d'un modèle de thèmes, en l'occurrence LDA. Des différences significatives sont attendues notamment lorsque plusieurs thèmes partagent le même vocabulaire. Nous présentons des résultats sur un...

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Thomas Scialom, Benjamin Piwowarski & Jacopo Staiano
RÉSUMÉ. Les architectures neuronales basées sur l'attention, telles que le Transformer, ont ré- cemment suscité l'intérêt de la communauté scientifique et ont permis d'obtenir des progrès im- portants par rapport à l'état de l'art dans plusieurs domaines. L'adaptation des Transformers à la tâche de la génération de questions n'est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l'effet des...

Exploration de l'apport de l'analyse des perceptions oculaires : étude préliminaire pour le bouclage de pertinence

Lucas Albarede, Francis Jambon & Philippe Mulhem
RÉSUMÉ. Nos travaux visent à évaluer l’impact potentiel de l’utilisation des perceptions oculaires vis-à-vis du mécanisme de bouclage de pertinence d’un moteur de recherche d’information. Nous nous sommes intéressés aux situations écologiques où l’utilisateur évalue la pertinence des résultats d’une requête via les snippets affichées sur la page des résultats. Notre hypothèse est que la connaissance des termes lus par un utilisateur sur cette page de résultats peut être utilisée pour améliorer le mécanisme de...

Registration Year

  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    598