619 Works

Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français.

Rahma Sellami, Fatiha Sadat & Lamia Hadrich Belguith
RÉSUMÉ. Dans cet article, nous nous intéressons à l'exploitation de corpus comparables pour la Traduction Automatique Statistique (TAS). Dans ce contexte, nous proposons deux approches. En premier lieu, une approche hybride basée sur des techniques statistiques et linguistiques est proposée afin d'extraire un lexique de terminologie bilingue à partir de Wikipédia. En second lieu, une approche hybride basée sur la longueur des phrases et un dictionnaire est proposée pour l'alignement du corpus des Nations Unies...

Utilité et perception de la diversité dans les systèmes de recommandation.

Sylvain Castagnos, Armelle Brun & Anne Boyer
RÉSUMÉ. De récentes études ont montré que la diversité dans les systèmes de recommandation est positivement corrélée à la satisfaction des utilisateurs et renforce/facilite leur choix d'un item (Castagnos et al., 2010). Si l'impact de cette nouvelle dimension a été mesuré, les raisons d'un tel succès restent cependant encore inexpliquées. Forts de ce constat, notre objectif est d'analyser plus finement l'utilité réelle et perçue de la diversité dans les systèmes de recomman- dation. Dans cette...

Recherche d'images en mobilité : le système IOTA-EyeSnap.

Philippe Mulhem, Jean-Pierre Chevallet & Nicolas Cubaud
RÉSUMÉ. Cet article décrit le système IOTA-EyeSnap, un système de recherche d'images mobile appliqué à la recherche de photographies de peintures dans le cadre du projet CLICIDE. Ce système repose sur un enchaînement d'approches probabilistes : la première à base de modèle de langue sur des graphes représentant les images, et la seconde à base de modèles bayésiens. Nous détaillons les contraintes et les choix réalisés. Ils sont adaptés à la mobilité dans un cadre...

Clustering optimal de gènes fondé sur une mesure de similarité sémantique.

Rachid Hafiane, Malika Smaïl-Tabbone, Marie-Dominique Devignes & Salvatore Tabbone
RÉSUMÉ. Dans de nombreux domaines d'application de l'analyse de données ou de la recherche d'information, il est utile de grouper de façon non supervisée des objets par similarité sans qu'il soit aisé de les représenter par des vecteurs de propriétés numériques. En biologie moléculaire, la similarité permet de capturer soit la structure complexe des objets (cas des molécules ou des séquences) soit la sémantique de leur description (cas des maladies ou des gènes). De nombreuses...

Apport du Web et du Web de Données pour la recherche d'attributs.

Rafik Abbes, Arlind Kopliku, Karen Pinel-Sauvagnat, Nathalie Hernandez & Mohand Boughanem
RÉSUMÉ. Nous nous intéressons dans cet article aux requêtes de type entité pour lesquelles on souhaite renvoyer un ensemble d'attributs (propriétés). Ces attributs peuvent être collectés à partir de plusieurs sources et agrégés dans un seul document. Par exemple, l'entité 'France' peut avoir les attributs 'Langue officielle: Français', 'Villes:Paris, Toulouse, Lyon, ...' et 'Population: 65350000 (en 2012)'. Un attribut peut être monovalué ou multivalué, et peut éven- tuellement dépendre d'autres dimensions. Pour chercher les attributs...

An Integrated Approach for Context-Aware Query Recommendation in Folksonomies.

Chiraz Trabelsi & Sadok Ben Yahia
RÉSUMÉ. L'essor des sites collaboratifs sur Internet a permis la naissance de nouvelles formes d'indexations des contenus du Web, créées librement par les usagers et partagées au sein de réseaux sociaux, baptisées sous le nom de folksonomie. Considérées comme source de don- nées, ces dernières s'avèrent d'un grand intérêt pour la Recherche d'Information. Cependant, la démarche de recherche dans les folksonomies diffère des stratégies de recherche de la traditionnelle médiation des moteurs de recherche dans...

Bagging de caractéristiques pour l'authentification d'auteur.

François-Marie Giraud & Thierry Artières
RÉSUMÉ. Les travaux en authentification d'auteur ont montré la difficulté de dépasser une stratégie simple telle qu'un classifieur linéaire opérant sur des représentations de type sac de caractéristiques des documents. Nous proposons pour surmonter cette difficulté d'utiliser les techniques de bagging de caractéristiques qui reposent sur l'apprentissage d'un ensemble de classifieurs appris sur des sous-ensembles aléatoires de caractéristiques, puis sur le vote de ces classifieurs en test.

RI dans les microblogs : que manque-t-il aux approches classiques ?

Firas Damak
RÉSUMÉ. Nous nous intéressons dans cet article à la recherche d'information dans les microblogs. Les modèles de RI classiques, conçus pour des textes plus longs que les 140 caractères d'un microblog, ne sont pas forcément adaptés pour ces derniers. Une analyse de leurs résultats nous a permis d'identifier la différence de vocabulaire entre les microblogs et la requête comme étant la raison principale de leur manque de performance. Pour améliorer la qualité de la recherche,...

Productions d'annotations par plan pour l'indexation des vidéos.

Nadia Derbas
RÉSUMÉ. La qualité des annotations dans les vidéos d'entraînement joue un rôle très important dans la qualité des systèmes de détection automatique d'événements dans les vidéos. Dans cet article, nous proposons une méthode pour la génération d'annotations au niveau des plans à partir d'annotations au niveau des vidéos complètes. Cette méthode utilise des techniques de filtrage en fonction du contenu visuel des vidéos et elle est basée sur l'idée que les plans conte- nant un...

Adaptation du modèle de langue pour le tri des réponses dans les BD.

Abdelhamid Chellal, Mohand Boughanem & Karima Amrouche
RÉSUMÉ . L'information sur le web est de plus en plus extraite depuis des bases de données (BD) où les langages d'interrogation sont basés sur une recherche exacte. L'utilisateur se trouve confronté au problème de réponses nombreuses lorsque sa requête est peu sélective. Pour remédier à ce problème, plusieurs approches ont été proposées, à l'instar de celles utilisant les techniques de relaxation des requêtes. D'autres travaux proposent de classifier les résultats. Une autre classe d'approches,...

Dynamiques des popularités dans YouTube.

Cédric Richier, Georges Linarès, Rachid El Azouzi, Tania Jiménez, Eitan Altman & Yonathan Portilla
RÉSUMÉ. Cet article est une étude de l’évolution du nombre de vues des contenus dans You- Tube. Nous proposons dans un premier temps plusieurs modèles inspirés de l’économie et de la biologie pour caractériser les courbes d’évolution des nombres de vues des vidéos. Dans un deuxième temps, nous proposons une méthode automatique de classification de ces courbes en les associant à l’un des différents modèles suggérés. Nous montrons, sur un large ensemble de données, que...

Polarité des jugements et des interactions pour le filtrage collaboratif et la prédiction de liens sociaux.

Luc-Aurélien Gauthier, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons à l'étude des similarités entre utilisateurs dans des systèmes de filtrage collaboratif, et en particulier à l'exploitation de la polarité (note positive ou négative) des jugements. Nous proposons une mesure qui prend en compte les biais liés à la popularité de l'item et à la propension de l'utilisateur à noter de manière positive ou négative. La validité de cette mesure de similarité est évaluée par le biais de deux tâches (recommendation...

Étude des mesures de similarité sémantique basées sur les arcs.

Aly Ngoné Ngom
RESUME. Les mesures de similarité sémantique sont des fonctions très utilisées dans plusieurs domaines de l’informatique parmi lesquels nous pouvons citer le Traitement Automatique du Langage Naturel (TALN), la Bioinformatique, la Recherche d’Information... Elles permettent de déterminer la similarité entre des termes ou concepts qui n’ont aucune ressemblance syntaxique. L’objectif de ce papier est de faire une étude d’une classe particulière de mesures de similarité sémantique : les mesures basées sur les arcs. Nous ferons,...

Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié.

Mohamed Amine Boukhaled
RÉSUMÉ . Dans cet article, nous présentons une première étude sur l'utilisation d'une méthode de détection des cas aberrants à base de distance pour la tâche de vérification de l'auteur. Nous avons considéré une méthode non supervisée basée sur un modèle gaussien multivarié. Pour évaluer l'efficacité de la méthode proposée, nous avons mené une expérimentation sur un corpus de textes littéraires français classiques. Nos résultats préliminaires montrent que la méthode proposée peut réaliser une haute...

Mise en œuvre d’une base de données graphe pour l’analyse des logs de requêtes en recherche d’information.

Josiane Mothe & Sagun Pai
RÉSUMÉ. Les travaux présentés dans cet article concernent la mise en oeuvre d'une base de données orientée graphe pour l'étude des reformulations de requêtes réalisées par les utilisa- teurs d'un moteur de recherche. Notre objectif est de rechercher des patrons de reformulation à des fins d'analyse linguistique. Nous nous sommes appuyés sur un log de connexion issu d'un moteur de recherche associé à la librairie digitale Revue.org. Après avoir extrait les sessions de recherche, nous...

Les Signaux Sociaux Émotionnels : Quel impact sur la recherche d’information ?

Ismail Badache & Mohand Boughanem
RÉSUMÉ. Une grande partie des traces des utilisateurs exprimées par des signaux sociaux (ex. j'aime, +1, rating) sont attribuées aux ressources web. Ces signaux sont souvent exploités par les systèmes de RI comme des sources d'évidence additionnelles pour trier les résultats de recherche. Notre objectif dans cet article est d'étudier l'impact des nouveaux signaux sociaux, appelés Facebook reactions (j'adore, haha, grrr, wouah, triste) sur le tri de ces résultats. Ces réactions permettent aux utilisateurs d'exprimer...

Modèles de Document Parcimonieux basés sur les annotations et les word embeddings – Application à la personnalisation.

Nawal Ould Amer, Philippe Mulhem & Mathias Géry
RÉSUMÉ. Nous présentons dans cet article des modèles de langues parcimonieux sociaux de documents qui permettent de détecter les termes les plus importants du document et d'éliminer les termes communs ou non significatifs. La détection de ces termes est guidée et renforcée par les liens entre les termes du document et ses annotations sociales (tags). En prenant le contre- pied des approches classiques de personnalisation qui généralement s'intéressent en priorité aux profils utilisateurs ou à...

Prédiction automatique d’emojis sentimentaux.

Gaël Guibon, Magalie Ochs & Patrice Bellot
RÉSUMÉ. Dans les messageries sociales les emojis sont parmi les principaux vecteurs d'émo- tions et de sentiments des individus. Aujourd'hui, les utilisateurs naviguent dans des biblio- thèques contenant souvent des milliers d'emojis pour sélectionner celui correspondant à ce qu'ils souhaitent transmettre. Nos travaux visent à développer un système de recommandation automatique d'emoji permettant à l'utilisateur d'identifier un panel réduit d'emojis pertinents étant donnée sa conversation en évitant le parcours de bibliothèques conséquentes d'emojis. Cette recommandation...

Détection de communautés multi-relationnelles dans les réseaux sociaux.

Guesmi Soumaya, Chiraz Trabelsi, Catherine Berrut & Chiraz Latiri
RÉSUMÉ. L'explosion des réseaux sociaux a rendu indispensable leur analyse et leur exploration, notamment pour la détection des communautés. Plusieurs méthodes ont été proposées afin de détecter des composantes possédant des propriétés structurelles spécifiques en termes de graphe au détriment de l'aspect sémantique régissant les différents liens entres les entités du réseau. Dans cet article, nous présentons une nouvelle approche pour la détection de com- munautés dans les réseaux sociaux dont la principale originalité est...

Graphe de communauté pour la validation de relations dans le cadre de la population de bases de connaissances.

Rashedur Rahman, Brigitte Grau & Sophie Rosset
RÉSUMÉ. L'extraction de relations entre entités à partir de textes est une étape importante pour des tâches d'extraction d'information ou de découverte de connaissances. Les systèmes pro- duisent de nombreux candidats et la tâche de validation de relation consiste à décider si une relation candidate est correcte ou non en fonction des informations fournies par les systèmes. Dans cet article, nous proposons un nouvel ensemble de traits fondés sur l'analyse des graphes engendrés par les...

Construction et évaluation d’un corpus pour la recherche d’instances d’images muséales.

Maxime Portaz, Johann Poignant, Mateusz Budnik, Philippe Mulhem, Jean-Pierre Chevallet & Lorraine Goeuriot
RÉSUMÉ. Cet article présente la construction et l'évaluation deux collections d'images et de vidéos d'oeuvres. Ces données proviennent de deux musées : le musée de Grenoble (majoritai- rement des peintures) et le Musée de Lyon-Fourvière (des objets pré-romains et romains). Ces collections contiennent au total 4674 images annotées, correspondant à 784 objets, et 3 heures 7 minutes de vidéos de visites annotées prises à la première personne par 5 visiteurs. Ces collections sont accessibles pour...

Regrouper des résultats SPARQL par comparaison de leurs contenus tels qu’ils sont agencés dans la base RDF interrogée.

Sonia Djebali & Thomas Raimbault
RÉSUMÉ. Cet article présente une nouvelle approche permettant de regrouper les résultats d'une requête SPARQL selon leurs similitudes. Afin de comparer les résultats, l'originalité de notre approche est de considérer pour chaque résultat les données constituant ce résultat telles qu'elles sont présentes et agencées dans la base RDF interrogée. Nous ne nous limitons donc pas à comparer les résultats entre eux, mais nous les re-contextualisons dans la base où ils ont été sélectionnés afin de...

Représentations Gaussiennes pour le Filtrage Collaboratif

Hadrien Titeux, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. La plupart des systèmes de filtrage collaboratifs, comme par exemple la factorisation matricielle, utilisent des représentations vectorielles pour les articles et les utilisateurs. Ces représentations sont déterministes, et ne permettent pas de modéliser l'incertitude des représentations apprises, ce qui peut être utile quand un utilisateur a évalué un petit nombre d'articles (problème du démarrage à froid), ou quand le modèle est confronté à des informations contradictoires concernant le comportement d'un utilisateur ou les évaluations...

Classification par paires de mention pour la résolution des coréférences en français parlé interactif

Maëlle Brassier & Alexis Puret
RÉSUMÉ Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d'un modèle de résolution des coréférences en français à l'aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s'inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en...

Approche lexicale de la simplification automatique de textes médicaux

Rémi Cardon
RÉSUMÉ Notre travail traite de la simplification automatique de textes. Ce type d'application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d'un lexique existant et d'une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L'alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d'analyser...

Registration Year

  • 2021
    21
  • 2019
    23
  • 2018
    31
  • 2017
    544

Resource Types

  • Text
    597
  • Conference Paper
    21
  • Conference Proceeding
    1