598 Works

Recommandation par combinaison de filtrage collaboratif et d'analyse de sentiments.

Mickaël Poussevin, Élie Guàrdia-Sebaoun, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Les domaines de la recommandation et de la classification de sentiments sont restés complètement disjoints jusqu'ici: d'un coté, la recommandation exploite les matrices d'inter- action entre les utilisateurs et les produits, sous la forme de notes en faisant l'impasse sur les données textuelles, de l'autre, la fouille d'opinion exploite les revues/notes de consomma- teurs pour construire des modèles d'analyse de documents. Nous proposons dans cet article un modèle exploitant aussi des données d'interaction textuelles...

Apprentissage d'ordonnancement et influence de l'ambiguïté pour la prédiction d'activité sur les réseaux sociaux.

François Kawala, Éric Gaussier, Ahlame Douzal & Eustache Diemert
RÉSUMÉ. Nous proposons dans cet article d'apprendre à classer les mots-clés selon leur activité à venir, et comparons deux approches : point-wise et pair-wise. Pour chacune d'elle nous étu- dions l'influence de l'ambiguïté et de la popularité des mots-clés sur ses capacités prédictives. A notre connaissance, c'est la première fois que ces facteurs sont étudiés dans ce contexte. Pour valider nos résultats nous fournissons un jeu d'apprentissage comprenant l'activité de1 497 mots-clés observée sur Twitter...

Plongement incrémental dans un contexte de dissimilarité.

Rachid Hafiane, Luc Brun & Salvatore Tabbone
RÉSUMÉ. Le domaine de la reconnaissance statistique de formes est basé sur la représentation numérique des objets et peut donc être facilement combiné avec des méthodes d’apprentissage automatique. D’autre part, la reconnaissance structurelle de formes utilise un ensemble limité de méthodes d’apprentissage automatique mais encode une riche description des objets via les chaînes de caractères ou les graphes. Cette dernière décennie a vu l’émergence de deux tendances étroitement liées, visant à combler l’écart entre ces...

Séparation imprimé-manuscrit par étude de la linéarité et de la régularité du texte.

Sameh Hamrouni, Florence Cloppet & Nicole Vincent
RÉSUMÉ. Le but de cet article est de proposer une méthode pour la séparation entre manuscrit et imprimé dans des documents. La méthode proposée repose sur des descripteurs originaux appartenant à deux catégories différentes, la linéarité et la régularité, invariants à la translation et à l’échelle. Plus précisément, nous dérivons une mesure de linéarité à partir de l’histogramme des longueurs des segments. Le cadre résultant est indépendant de la forme du document et du type...

Réseaux de neurones de quaternions pour le traitement du langage.

Titouan Parcollet, Mohamed Morchid & Georges Linarès
RÉSUMÉ. Les algorithmes d'apprentissage automatique, comme les réseaux de neurones (NN), ont permis d'atteindre des performances notables dans de nombreuses tâches liées au traite- ment automatique du langage (TAL). En TAL les contenus sont généralement représentés dans des espaces lexicaux ou thématiques. Les méthodes de traitement des contenus- y compris celles basées sur des NN- opèrent donc dans des espaces où les relations statistiques entre les élé- ments du document sont faiblement considérées. Nous proposons...

Dynamiques des popularités dans YouTube.

Cédric Richier, Georges Linarès, Rachid El Azouzi, Tania Jiménez, Eitan Altman & Yonathan Portilla
RÉSUMÉ. Cet article est une étude de l’évolution du nombre de vues des contenus dans You- Tube. Nous proposons dans un premier temps plusieurs modèles inspirés de l’économie et de la biologie pour caractériser les courbes d’évolution des nombres de vues des vidéos. Dans un deuxième temps, nous proposons une méthode automatique de classification de ces courbes en les associant à l’un des différents modèles suggérés. Nous montrons, sur un large ensemble de données, que...

À la recherche des paramètres des modèles de RI.

Parantapa Goswami, Massih-Reza Amini & Éric Gaussier
RÉSUMÉ. Nous abordons ici le problème de l'estimation des paramètres des modèles standard de la recherche d'information sur de nouvelles collections pour lesquelles aucun jugement de pertinence n'est disponible. Pour cela, nous nous reposons sur des collections passées pour lesquelles des jugements de pertinence sont disponibles et introduisons une nouvelle représen- tation des requêtes indépendante de la collection considérée. À partir de cette représentation et des collections passées, nous apprenons une fonction de régression capable...

Vectorisation du modèle d'appariement pour la recherche d'images par le contenu.

Hanen Karamti
RÉSUMÉ. Le développement rapide des techniques de numérisation et de stockage a engendré une croissance accrue du volume des documents électroniques (textes, images, sons et vidéos). Pour faire face à cette grande masse d'informations, en particulier les images, il est nécessaire de développer des outils qui permettent d'optimiser l'accès à de telles sources de données. Le problème qui se pose est la représentation du contenu d'images, puisque les techniques actuelles ne permettent pas de décrire...

Bagging de caractéristiques pour l'authentification d'auteur.

François-Marie Giraud & Thierry Artières
RÉSUMÉ. Les travaux en authentification d'auteur ont montré la difficulté de dépasser une stratégie simple telle qu'un classifieur linéaire opérant sur des représentations de type sac de caractéristiques des documents. Nous proposons pour surmonter cette difficulté d'utiliser les techniques de bagging de caractéristiques qui reposent sur l'apprentissage d'un ensemble de classifieurs appris sur des sous-ensembles aléatoires de caractéristiques, puis sur le vote de ces classifieurs en test.

Estimation du paramètre de collection des modèles d'information pour la RI.

Parantapa Goswami & Éric Gaussier
RÉSUMÉ. Nous explorons dans cet article plusieurs méthodes permettant, a priori, d'estimer le paramètre de collection des modèles d'information. Jusqu'à présent, ce paramètre a était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d'estimation de ce paramètre et montrons qu'il est possible d'améliorer les performances du système de recherche d'information lorsque ce paramètre est estimé de façon adéquate.

Vers une détection en temps réel de documents Web centrés sur une entité donnée.

Ludovic Bonnefoy, Vincent Bouvier, Romain Deveaud & Patrice Bellot
RÉSUMÉ. La tâche de désambiguïsation des entités nommées consiste à lier une mention ambiguë d'une entité dans un document à l'entité correspondante dans une base de connaissances. Dans ce travail, nous nous plaçons dans un cadre applicatif 'inverse' et nous ajoutons une contrainte temporelle : nous souhaitons surveiller un flux de nouveaux documents Web et déterminer quels sont ceux mentionnant une entité donnée tout en mesurant l'importance de l'information conte- nue. Une telle approche peut...

Aide à la gestion des processus de numérisation en vue de l'OCRisation des ouvrages.

Ahmed Ben Salah
RÉSUMÉ. Dans cet article, nous étudions deux pistes afin d'améliorer le processus de numérisa- tion des documents de la Bibliothèque nationale de France en vue de leur OCRisation. Dans la première partie, nous étudions les corrélations qui existent entre les données bibliographiques du document et les décisions de sélection des documents. Dans la deuxième partie, nous pré- sentons une méthode basée sur la précision et le rappel qui va nous servir à estimer le taux...

Classification de documents combinant la structure et le contenu.

Samaneh Chagheri, Catherine Roussey, Sylvie Calabretto & Cyril Dumoulin
RÉSUMÉ . La démocratisation et l'évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s'organise autours de balises. Toutefois, la classification traditionnelle de documents n'utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise....

Semantic Clustering using Bag-of-Bag-of-Features.

Ali Reza Ebadat, Vincent Claveau & Pascale Sébillot
RÉSUMÉ. Le calcul de distances entre représentations textuelles est au coeur de nombreuses ap- plications du Traitement Automatique des Langues. Les approches standard initiallement déve- loppées pour la recherche d'information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d'attributs) avec des pondérations de type TF-IDF ou des variantes, une représentation vectorielle et des fonctions classiques de similarité comme le cosinus. Dans ce papier, nous...

Impact des Réseaux Sociaux sur le Processus de Recherche d'Information.

Chahrazed Bouhini
RÉSUMÉ. L'explosion du Web 2.0 (blogs, wikis, sites de partage, réseaux sociaux, etc.) ouvre des perspectives inédites de partage et de gestion de l'information, en permettant la construction collaborative de contenus et le développement de réseaux sociaux ouverts. Notre travail s'articule autour des problématiques d'accès à l'information dans ce contexte où l'utilisateur est à la fois producteur et consommateur de contenus dans une structure qui représente les relations sociales sous forme de graphes. Nous présentons...

Un modèle Bayésien pour l'Agrégation des documents XML.

Najeh Naffakhi, Mohand Boughanem & Rim Faiz
RÉSUMÉ. Dans cet article, nous nous intéressons à la recherche agrégée dans des documents structurés XML. Pour cela, nous proposons un modèle de recherche d'information structurée basé sur les réseaux bayésiens. Les relations de dépendances entre requête-termes d'indexa- tion et termes d'indexation-éléments sont quantifiées par des mesures de probabilité. Dans ce modèle, la requête de l'utilisateur déclenche un processus de propagation pour trouver des éléments. Ainsi, au lieu de récupérer une liste d'éléments potentiellement (ou...

Recherche d'information dans un corpus bruité (OCR).

Nada Naji, Jacques Savoy & Ljiljana Dolamic
RÉSUMÉ .Cet article désire mesurer la perte de performance lors de la recherche d'information dans une collection de documents scannés. Disposant d'un corpus sans erreur et de deux versions renfermant 5 % et 20 % d'erreurs en reconnaissance, nous avons évalué six modèles de recherche d'information basés sur trois représentations des documents (sac de mots, n-grammes, ou trunc-n) et trois enracineurs. Basé sur l'inverse du rang du premier document pertinent dépisté, nous démontrons que la...

Différentes interprétations d'un modèle de RI à base d'inclusion graduelle.

Laurent Ughetto, Vincent Claveau & Rima Harastani
RÉSUMÉ. Récemment, un modèle théorique de RI à base d’inclusion graduelle a été proposé (Bosc et al., 2008b). Dans ce modèle, dérivé de la division de relations floues, l’inclusion graduelle d’une requête dans un document est modélisée par une implication floue. Dans des travaux précédents, nous avons montré que ce modèle pouvait être interprété comme un modèle vectoriel sous certaines conditions. Dans cet article, nous proposons d’explorer d’autres interprétations possibles offertes par la modélisation à...

Segmentation thématique : apport de la vectorisation.

Vincent Claveau & Sébastien Lefèvre
RÉSUMÉ. Dans cet article, nous nous intéressons à la segmentation thématique d'émissions télé- visées à partir de la transcription automatique de leur bande-son. La segmentation thématique de textes a fait l'objet de travaux depuis de nombreuses années, et les techniques mises en oeuvre reposent souvent sur des descriptions de contenu et des calculs de similarité utilisés en recherche d'information. Dans cet article, nous proposons une technique s'inspirant des tra- vaux de morphologie mathématique utilisés en...

Modélisation de l'extraction des descripteurs visuels - Intégration de relations topologiques.

Rami Albatal, Philippe Mulhem & Yves Chiaramella
Malgré son rôle majeur dans l'annotation automatique, le processus d'extraction des descripteurs visuels n'est pas encore explicitement modélisé, et la contribution de chacune de ces étapes sur la qualité de l'annotation n'est pas suffisamment étudiée. Dans cet article, nous proposons un modèle (appelé phrasage) pour l'extraction des descripteurs visuels. Afin de construire des descripteurs plus riches, nous définissons, à partir de ce modèle, la prise en compte de relations topologiques entre régions d'intérêt via une...

Classification automatique de textes basée sur une ontologie normée. Application du Extensible Business Reporting Language (XBRL) au Reuters Corpus Volume 1 (RCV1).

Stephane Gagnon, Sadia Messaoudi & Alain Charbonneau
RÉSUMÉ . Nous démontrons que l'utilisation d'une ontologie normée selon le domaine d'application permet d'améliorer significativement la Classification automatique de textes (CAT). Nous utilisons le Extensible Business Reporting Language (XBRL) pour définir une ontologie normée et comparons la performance d'un engin de CAT (IBM Classification Module v.8.6) face à 2 autres listes de concepts, soient simple et hiérarchique. Notre échantillon de nouvelles financières est tiré du Reuters Corpus Volume 1 (RCV1), où 2 experts en...

Évaluation de modèles de classification automatique appliqués à la détection d'opinions.

Olena Zubaryeva & Jacques Savoy
RÉSUMÉ . Cet article présente et évalue différentes stratégies de classification automatique d'opinions. Ces dernières sont exprimées dans des phrases que le système doit classifier comme renfermant ou non une opinion. Dans ce but, nous avons retenu une classification basée sur le modèle Naïve Bayes et une autre basée sur des séparateurs à vaste marge (SVM). Comme alternative, nous suggérons un modèle basé sur le vocabulaire spécifique et le calcul d'un score normalisé (score Z)....

Enrichissement d'ontologie par une base générique minimale de règles associatives - application aux maladies neurologies : les dystonies.

Lamia Ben Ghezaiel, Cherif Chiraz Latiri, Mohamed Ben Ahmed & Neziha Gouider-Khouja
RÉSUMÉ. Dans cet article, nous proposons d'utiliser une base générique minimale de règles as- sociatives entre termes (RA), afin d'enrichir automatiquement une ontologie de domaine exis- tante. Initialement, des RA non redondantes entre termes sont extraites à partir d'un corpus du domaine. Ensuite, le rapprochement des termes candidats est effectué grâce à la mise en cor- respondance entre les concepts de l'ontologie initiale et les prémisses des RA, moyennant trois mesures de distance que nous...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598