598 Works

Classification automatique de textes basée sur une ontologie normée. Application du Extensible Business Reporting Language (XBRL) au Reuters Corpus Volume 1 (RCV1).

Stephane Gagnon, Sadia Messaoudi & Alain Charbonneau
RÉSUMÉ . Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en...

Interprétation linguistique de requêtes pour un moteur de questions réponses grand public.

Michel Plu & Johannes Heinecke
RÉSUMÉ. Cet article décrit l'utilisation d'une plateforme de traitement automatique des langues naturelles pour le développement d'une fonction de réponses à des questions dans un moteur de recherche. Cette plateforme est utilisée pour faire une interprétation linguistique des re- quêtes. L'intérêt de cette approche est triple. Premièrement elle permet d'identifier uniquement les requêtes qui correspondent à des questions factuelles pour lesquelles le moteur a une ré- ponse précise. Deuxièmement, elle reconnait ces questions quelque soit...

Différentes interprétations d'un modèle de RI à base d'inclusion graduelle.

Laurent Ughetto, Vincent Claveau & Rima Harastani
RÉSUMÉ. Récemment, un modèle théorique de RI à base d’inclusion graduelle a été proposé (Bosc et al., 2008b). Dans ce modèle, dérivé de la division de relations floues, l’inclusion graduelle d’une requête dans un document est modélisée par une implication floue. Dans des travaux précédents, nous avons montré que ce modèle pouvait être interprété comme un modèle vectoriel sous certaines conditions. Dans cet article, nous proposons d’explorer d’autres interprétations possibles offertes par la modélisation à...

Exploitation des contributions des usagers liées au social bookmarking pour améliorer la Recherche d'Information.

Madalina Mitran
RÉSUMÉ. Les moteurs de recherche communs exploitent le contenu des documents qu'ils indexent. Or, les internautes créent également des données explicites (tags, annotations, commentaires, notes, données de géoréférencement, etc.) et implicites (clics, logs, etc.) qu'il semble utile de prendre en compte pour améliorer l'indexation. Nos travaux concernent actuellement deux problématiques. Premièrement, comment analyser les bookmarks sociaux pour en extraire les centres d'intérêts des individus et leurs tendances tout en prenant en compte la dimension temporelle?...

Speaker diarization de fichiers vidéos hétérogènes issus du web.

Pierre Clément
RÉSUMÉ. Ces dix dernières années, internet a significativement changé. Le principal change- ment est certainement le contenu proposé, que ce soit dans sa quantité, sa diversité ou encore le média utilisé pour le présenter. Concernant le média audio/video, l'évolution la plus im- pressionnante est le succès continuellement grandissant des sites de partage de vidéos. Mais ce succès entraîne des diffcultés à indexer efficacement le contenu de ces documents. La segmenta- tion et le regroupement en...

Aggregated search: From information nuggets to aggregated documents.

Arlind Kopliku
RÉSUMÉ. Le but de la recherche agregée est de rassembler des informations provenant de plu- sieurs sources en une seule interface. Elle doit ainsi gérer des problématiques liées aux dif- férents types de contenu (texte, vidéo, image, etc) ainsi qu'à la granularité des résultats. La formation d'un contenu agrégé à partir de différents types de contenus retrouvés contraste avec l'approche commune en RI consistant à renvoyer à l'utilisateur une liste ordonnée de résultats. Si nous...

Utilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents.

Véronique Moriceau, Xavier Tannier & Brigitte Grau
RÉSUMÉ. Cet article présente FIDJI, un système de questions-réponses pour le français, com- binant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi que des techniques spécifiques permettant de répondre à différents types de questions (comme les questions attendant des réponses multiples...

Vers un modèle de langue mixte concepts-mots pour la recherche d'information.

Lynda Said L'Hadj, Mohand Boughanem & Karima Amrouche
RÉSUMÉ. La majorité des modèles de langue appliqués à la recherche d'information repose sur l'hypothèse d'indépendance des mots apparaissant dans les documents et les requêtes. Plus précisément, ces modèles sont estimés à partir des mots simples sans considérer les éventuelles relations sémantiques et conceptuelles. Pour pallier ce problème, deux grandes approches ont été explorées : la première intègre des dépendances d'ordre surfacique entre les mots (bi-grammes, bi-termes), et la seconde repose sur l'utilisation des ressources...

Apprentissage de représentations probabilistes pour la prédiction de diffusions d'informations sur les réseaux sociaux.

Simon Bourigault, Sylvain Lamprier & Patrick Gallinari
RÉSUMÉ. La problématique du clustering non supervisé et semi-supervisé est très étudiée dans le domaine de l'apprentissage automatique. En vue d'impliquer l'utilisateur dans le clustering d'images, (Lai et al., 2014) a proposé un nouveau modèle de clustering semi-supervisé inter- actif traduisant les retours de l'utilisateur (exprimés au niveau des images) en contraintes par paires (must-link et cannot-link) entre groupes d'images constitués à l'aide d'une solution de clustering hiérarchique et de ces retours. Ces dernières années,...

Métriques statistiques pour l’évaluation de performance en présence de vérité terrain imprécise.

Bart Lamiroy & Pascal Pierrot
RÉSUMÉ. Ce papier aborde l’évaluation de performances en présence de vérité terrain imprécise. En effet, lors de procédures de benchmarking il est généralement supposé que les données de référence sont parfaites. Nous avons démontré précédemment que cette hypothèse de travail n’est généralement pas satisfaite dans le contexte de problèmes d’interprétation perceptuelle, sauf dans les cas les plus triviaux. Nous présentons ici un approche et test statistiques qui permettent de mesurer la confiance que l’on peut...

Nouveau modèle pour la datation automatique de photographies à partir de caractéristiques visuelles.

Paul MARTIN, Antoine DOUCET & Frédéric JURIE
RÉSUMÉ. Nous présentons, dans cet article, une méthode de datation de photographies par l’usage du contenu visuel de celles-ci. Nous nous sommes inspirés de travaux récents de la vision par ordinateur. Nous avons amélioré la méthode de classification utilisée dans ces travaux en dépassant une limite intrinsèque de leur approche. En effet, ils considèrent la datation d’images comme un problème de classification multi-classes, pour lequel une classe représente un ensemble d’années, mais ignorant l’ordre relatif...

Annotation de vidéos par paires rares de concepts.

Abdelkader Hamadi, Philippe Mulhem & Georges Quénot
RESUME. La détection d’un concept visuel dans les videos est une tâche difficile, spécialement pour les concepts rares ou pour ceux dont il est compliqué de décrire visuellement. Cette question devient encore plus difficile quand on veut détecter une paire de concepts au lieu d’un seul. En effet, plus le nombre de concepts présents dans une scène vidéo est grand, plus cette dernière est complexe visuellement, et donc la difficulté de lui trouver une description...

Apprentissage de classification des requêtes basée sur la confiance et la couverture.

Hajer Ayadi, Mouna Torjmen Khemakhem, Mariam Daoud, Jimmy Xiangji Huang & Maher Ben Jemaa
RÉSUMÉ. Les requêtes médicales sont souvent étiquetées par le type du modèle de recherche estimé donnant les meilleures performances selon des experts du domaine. Dans un travail pré- cédent, nous avons proposé d'automatiser cette tâche d'étiquetage (de classification) manuelle. Dans ce papier, nous proposons une nouvelle approche de classification qui apprend automati- quement à associer à chaque requête l'étiquette du modèle de recherche le plus adéquat. Plus précisément, nous générons un ensemble de règles d'association...

Impact de la présence/absence des termes de la requête dans le document sur le processus d’appariement document-requête en utilisant Word2Vec

Thiziri Belkacem, Taoufiq Dkaki, José G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans cet article, nous étudions l'appariement document-requête basé sur des similarités sémantiques entre les termes de la requête et ceux du document, à l'aide du plongement lexical des mots (word embedding). Contrairement aux approches traditionnelles qui sont basées sur les représentations dites sac de mots et qui reposent sur l'appariement exact entre les mots, le processus d'appariement pourrait être amélioré en tenant compte de tous les mots du document et en traitant différemment les...

Catégorisation libre d’extraits musicaux et analyse automatique

Nicolas Dauban, Paul Albenge, Ludovic Florin, Julien Pinquier, Christine Sénac, Pascal Gaillard & Patrice Guyot
RÉSUMÉ. Cet article décrit le protocole expérimental et les résultats obtenus lors d'une expérience de catégorisation. Cette expérience s'inscrit dans le cadre de travaux de recherche sur la recommandation musicale personnalisée et basée sur le contenu. Durant cette expérience, les volontaires ont dû catégoriser librement des extraits musicaux sélectionnés selon des critères musicologiques. Cette catégorisation est analysée via un dendrogramme représentant la u classification moyenne des participants ». Une analyse automatique des résultats menée a...

Étude préliminaire à la recherche de photographies muséales en mobilité.

Maxime Portaz, Philippe Mulhem & Jean-Pierre Chevallet
RÉSUMÉ. Cet article étudie la problématique de l’indexation et de la recherche d’image dans le cadre de visites de musée. Nous nous intéressons en particulier au cas d’utilisation d’outils mobiles "hors ligne" (c’est-à-dire sans connexion à un serveur distant), du point de vue qualité intrinsèque et du point de vue application mobile. Nous décrivons trois approches de référence, et nous étudions leur comportement qualitatif sur une collection de photographies de peintures, prises par des outils...

Représentations Gaussiennes pour le Filtrage Collaboratif

Hadrien Titeux, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. La plupart des systèmes de filtrage collaboratifs, comme par exemple la factorisation matricielle, utilisent des représentations vectorielles pour les articles et les utilisateurs. Ces représentations sont déterministes, et ne permettent pas de modéliser l'incertitude des représentations apprises, ce qui peut être utile quand un utilisateur a évalué un petit nombre d'articles (problème du démarrage à froid), ou quand le modèle est confronté à des informations contradictoires concernant le comportement d'un utilisateur ou les évaluations...

Apprentissage d'inférences par édition d'arbres pour répondre à des questions.

Martin Gleize & Brigitte Grau
RÉSUMÉ. La sélection de réponse en recherche d'information précise met nécessairement en oeuvre un appariement de passages avec la question. Nous proposons un algorithme qui consiste à engendrer et apprendre les inférences utiles pour rapprocher les passages de texte à des couples (questions, réponse candidate). Ceux-ci sont sélectionnés au moyen d'une ex- pansion lexicale utilisant WordNet et des vecteurs de mots. Ils sont représentés par leur arbre de dépendances syntaxique, enrichi au moyen de plusieurs...

Recommandation et analyse de sentiments dans un espace latent textuel

Charles-Emmanuel Dias, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Les systèmes de recommandation permettent d’aider les utilisateurs à identifier les contenus qu’ils seraient susceptibles d’apprécier dans des catalogues en expansion constante. Les méthodes traditionnelles de filtrage collaboratif se focalisent majoritairement sur les notes que les gens laissent en ligne pour établir leurs profils et ignorent les commentaires textuels éventuellement joints. Nous prenons le parti d’exploiter les avis textuels comme source principale d’information et proposons, en plus de prédire les notes, de prédire les...

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Maëlle Brassier & Alexis Puret
RÉSUMÉ Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d'un modèle de résolution des coréférences en français à l'aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s'inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en...

Approche lexicale de la simplification automatique de textes médicaux

Rémi Cardon
RÉSUMÉ Notre travail traite de la simplification automatique de textes. Ce type d'application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d'un lexique existant et d'une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L'alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d'analyser...

Détection d’influenceurs dans des médias sociaux

Kévin Deturck
RÉSUMÉ Les influenceurs ont la capacité d'avoir un impact sur d'autres individus lorsqu'ils interagissent avec eux. Détecter les influenceurs permet d'identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d'analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d'abord une évaluation de différentes mesures de centralité sur la structure...

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

Techniques d'apprentissage supervisé pour l'extraction d'événements TimeML en anglais et français.

Béatrice Arnulphy, Vincent Claveau, Xavier Tannier & Anne Vilnat
RÉSUMÉ. L'identification des événements au sein de textes est une tâche d'extraction d'informations importante et préalable à de nombreuses applications. Au travers des spécifications TimeML et des campagnes TempEval, cette tâche a reçu une attention particulière ces der- nières années, mais aucun résultat de référence n'est disponible pour le français. Dans cet article nous tentons de répondre à ce problème en proposant plusieurs systèmes d'extraction, en faisant notamment collaborer champs aléatoires conditionnels, modèles de langues...

Réseaux Bayésiens et quelques applications en traitement d’images.

Abdessalem Bouzaieni
RÉSUMÉ. Les réseaux Bayésiens sont actuellement une des techniques les plus intéressantes de l’intelligence artificielle car ils allient la lisibilité d’une représentation de la connaissance par un graphe causal intuitif à l’efficacité d’une représentation « distribuée » des données qui tient compte de l’incertitude dans le raisonnement. Ils sont utilisés dans nombre d’applications. Cet article présente quelques notions sur le concept des réseaux Bayésiens. Nous présentons également quelques applications dans le domaine du traitement d’images.

Registration Year

  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    598