598 Works

Identification of Arabic/French Handwritten/Printed Words using GMM-Based System.

Anis Mezghani, Fouad Slimane, Slim Kanoun & Volker Märgner
RÉSUMÉ . La discrimination entre les langues est l'une des premières étapes dans le problème de reconnaissance automatique des documents de textes. Dans de nombreux documents, tels que les chèques bancaires et les formulaires, les textes imprimés et manuscrits sont mélangés. Dans cet article, nous proposons un système d'identification automatique des mots arabes et français dans les deux formes: manuscrite et imprimée. Ce système est basé sur les modèles de mélanges gaussiens (GMMs). Pour l'extraction...

Extraction et interprétation d'information géographique dans des données non structurées.

Julien Lesbegueries & Pierre Loustau
RÉSUMÉ. Cet article présente le projet "Pyrénées Itinéraires Virtuels". Ce projet consiste à va- loriser un fonds documentaire patrimonial localisé dans le territoire pyrénéen. Dans ce cadre, nous proposons des modèles unifiés pour la définition formelle d'entités spatiales. Ces modèles permettent de mettre en place un système de recherche d'information basé sur le contenu sé- mantique de documents multi-formats. L'objectif de ce projet est d'étendre les fonctionnalités de systèmes de gestion de base documentaire classiques...

Approche hybride de segmentation de page à base d'un descripteur de traits.

Mehdi Felhi, Salvatore Tabbone & Maria V. Ortiz Segovia
RÉSUMÉ. Dans cet article, nous présentons une nouvelle approche hybride pour la segmenta- tion de pages basée sur les composantes connexes et sur l'analyse de régions. Nous décrivons d'abord notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l'image du document binarisée. Ensuite, un modèle de contours actifs est appliqué pour segmenter le reste de l'image en photos et arrière plan. Cette classification est vérifiée...

Construction d’un corpus multilingue annoté en relations de traduction

Yuming Zhai
RÉSUMÉ Les relations de traduction, qui distinguent la traduction littérale d'autres procédés, constituent un sujet d'étude important pour les traducteurs humains (Chuquet Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu'à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un...

Apprentissage de représentations probabilistes pour la prédiction de diffusions d'informations sur les réseaux sociaux.

Simon Bourigault, Sylvain Lamprier & Patrick Gallinari
RÉSUMÉ. La problématique du clustering non supervisé et semi-supervisé est très étudiée dans le domaine de l'apprentissage automatique. En vue d'impliquer l'utilisateur dans le clustering d'images, (Lai et al., 2014) a proposé un nouveau modèle de clustering semi-supervisé inter- actif traduisant les retours de l'utilisateur (exprimés au niveau des images) en contraintes par paires (must-link et cannot-link) entre groupes d'images constitués à l'aide d'une solution de clustering hiérarchique et de ces retours. Ces dernières années,...

Stratégies de supervision pour l'apprentissage en-ligne d'un classifieur évolutif de commandes gestuelles.

Manuel Bouillon & Éric Anquetil
RÉSUMÉ. Les interfaces homme-machine tactiles permettent de nouveaux modes d'interaction comme l'utilisation de commandes gestuelles. Afin de mémoriser facilement plus d'une dou- zaine de commandes, il est important de pouvoir les personnaliser. Le classifieur utilisé pour reconnaitre les symboles dessinés doit donc être personnalisable, pouvoir s'initialiser à partir de très peu de données, et évolutif, pouvoir s'améliorer pendant son utilisation. Ces travaux étudient l'importance et les différentes stratégies d'étiquetage du flux de données d'utilisation pour...

Filtrage collaboratif et intégration de la polarité des jugements.

Luc-Aurélien Gauthier, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. Nous nous intéressons à la recommandation par des systèmes de filtrage collaboratif. Nous proposons de combiner une approche globale basée sur une factorisation matricielle et une approche locale basée sur l'exploitation directe d'un voisinage de l'utilisateur. L'hypothèse explorée dans l'article est que les jugements utilisateurs ont une sémantique et donc une utilité différente suivant qu'ils sont positifs ou négatifs. Nous proposons un modèle qui exploite cette polarité et apprend à pondérer l'influence de ses...

Mesure de la netteté sur une image seule dans des documents anciens.

Émile Vinsonneau, Jean-Philippe Domenger & Anne Cherif
RÉSUMÉ. Cet article présente différentes méthodes permettant d'analyser le flou de focus dans le contexte de numérisation. Nous allons définir des méthodes pour mesurer cette information. Ensuite, nous estimerons la pertinence de ces mesures en faisant varier le flou. Puis enfin, nous associerons ces informations en utilisant un modèle d'apprentissage supervisé afin d'évaluer le gain possible de cette mesure.

Cascade de CRFs et SVM pour la détection de références bibliographiques diffuses dans les articles scientifiques

Anaïs Ollagnier, Sébastien Fournier & Patrice Bellot
RÉSUMÉ. Dans le contexte d’une bibliothèque d’articles scientifiques, les références bibliographiques sont une source majeure de liens. Parmi elles, certaines sont explicites comme les références que nous pouvons retrouver à la fin des articles ou des livres. Tandis que d’autres sont dispersées selon un degré de diffusion plus ou moins fort dans le corps du texte. Nous proposons de nous focaliser sur la détection de ce type de références que nous nommons références bibliographiques diffuses...

Regrouper des résultats SPARQL par comparaison de leurs contenus tels qu’ils sont agencés dans la base RDF interrogée.

Sonia Djebali & Thomas Raimbault
RÉSUMÉ. Cet article présente une nouvelle approche permettant de regrouper les résultats d'une requête SPARQL selon leurs similitudes. Afin de comparer les résultats, l'originalité de notre approche est de considérer pour chaque résultat les données constituant ce résultat telles qu'elles sont présentes et agencées dans la base RDF interrogée. Nous ne nous limitons donc pas à comparer les résultats entre eux, mais nous les re-contextualisons dans la base où ils ont été sélectionnés afin de...

Génération automatique d'une ontologie dans le domaine des ressources humaines.

Rémy Kessler, Eric Tondo & Guy Lapalme
RÉSUMÉ. Notre époque est de plus en plus influencée par la prééminence des données intelligentes et du web sémantique. Les processus de recrutement n'en sont pas toujours facilités en particulier en matière de recherche de profils et de talents. La plupart des systèmes d'apparie- ment entre une offre d'emploi et un profil s'appuient sur une ou plusieurs ressources linguis- tiques, mais se heurtent à la difficulté de développer et à entretenir des ressources spécifiques à...

Annotation de vidéos par paires rares de concepts.

Abdelkader Hamadi, Philippe Mulhem & Georges Quénot
RESUME. La détection d’un concept visuel dans les videos est une tâche difficile, spécialement pour les concepts rares ou pour ceux dont il est compliqué de décrire visuellement. Cette question devient encore plus difficile quand on veut détecter une paire de concepts au lieu d’un seul. En effet, plus le nombre de concepts présents dans une scène vidéo est grand, plus cette dernière est complexe visuellement, et donc la difficulté de lui trouver une description...

Recherche de la pertinence et de la nouveauté dans les textes.

Josiane Mothe & Taoufiq Dkaki
RÉSUMÉ. Les systèmes de recherche d'information s'intéressent à retrouver les documents pertinents par rapport à un besoin défini par un utilisateur. Certains systèmes se sont intéressés à mieux répondre au besoin de l'utilisateur en considérant un niveau de granularité plus petit que le document. Dans ces systèmes, les informations restituées à l'utilisateur ne correspondent pas aux documents mais aux passages susceptibles de correspondre au besoin exprimé. Cet article répond à la double tâche proposée dans...

Réseaux de neurones convolutifs de quaternions pour l'identification de thèmes de conversations téléphoniques

Titouan Parcollet, Mohamed Morchid & Georges Linarès
RÉSUMÉ. Les réseaux de neurones convolutifs de quaternions (QCNN) forment un ensemble d’algorithmes particulièrement efficaces pour l’apprentissage et la modélisation des relations internes et externes existantes entre les caractéristiques d’un vecteur de données. Ce travail propose d’évaluer l’efficacité des QCNNs à travers une tâche réaliste d’identification automatique de thèmes contenus dans des conversations téléphoniques, impliquant des agents et des usagers du centre d’appel du service de transport de la ville de Paris (RATP). Il est...

Utilisation du Web pour la reconnaissance de mots manuscrits hors vocabulaire.

Cristina Oprean, Laurence Likforman-Sulem, Popescu 001, Adrian & Chafic Mokbel
RÉSUMÉ. Les systèmes de reconnaissance de l'écriture manuscrite s'appuient sur des diction- naires prédéfinis obtenus à partir de corpus d'entraînement. La taille de ces dictionnaires ré- sulte d'un compromis entre le taux de reconnaissance des mots du vocabulaire (DV) et la cou- verture du dictionnaire. Si la taille est limitée, beaucoup de mots hors vocabulaire (HV) restent non reconnus. Pour améliorer la reconnaissance des mots HV, sans augmenter le dictionnaire, nous introduisons une étape supplémentaire...

Architecture Asymétrique pour les Modèles Neuronaux d'Appariement de Textes

Thiziri Belkacem, Taofiq Dkaki, Jose G. Moreno & Mohand Boughanem
RÉSUMÉ. Dans les modèles neuronaux d'appariement de textes, les entrées subissent les mêmes transformations pour construire les représentations correspondantes. La nature de la tâche d'appariement est défini à partir du type des entrées du modèle et de la relation entre elles. Nous distinguons deux types d'appariement : (1) l'appariement symétrique fait référence aux tâches d'appariement à des entrées de même nature, telles que l'identification des paraphrases et la classification de documents. (2) l'appariement asymétrique concerne...

Approche lexicale de la simplification automatique de textes médicaux

Rémi Cardon
RÉSUMÉ Notre travail traite de la simplification automatique de textes. Ce type d'application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d'un lexique existant et d'une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L'alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d'analyser...

Analyse des noms agentifs dans les espaces vectoriels distributionnels

Marine Wauquier
RÉSUMÉ Notre étude s'inscrit dans le cadre d'une thèse ayant pour but d'exploiter les modèles distributionnels pour décrire sémantiquement des classes de mots définies selon des critères morphologiques. Nous utilisons des indices morphologiques et formels fournis par une base lexicale pour cibler les noms agentifs déverbaux construits par suffixation en-eur. Nous montrons qu'il est possible de constituer un représentant prototypique de la classe sémantique des noms agentifs en-eur dans les modèles distributionnels. L'étude de ce...

Processing Natural Language Queries to Disambiguate Named Entities and Extract Users' Goals : Application to e-Tourism.

Sanjay Kamath, Lorraine Goeuriot & Marie-Christine Fauvet
RÉSUMÉ. Cet article présente une étude qui s’inscrit dans le cadre d’un projet plus large qui porte sur la conception et la réalisation d’un système visant à fournir à des utilisateurs mobiles des services personnalisés, dépendant de leur contexte, et adaptés à leurs besoins. Par exemple, un utilisateur peut vouloir des informations sur la météo du lendemain, ou bien réserver des billets d’entrée à un musée voisin, ou encore réserver une table dans un restaurant...

Time-efficient Logo Spotting using Text/Non-text Separation as Preprocessing and Approximate Nearest Neighbor Search.

Viet Phuong Le, Nibal Nayef, Muriel Visani, Jean-Marc Ogier & Cao De Tran
RÉSUMÉ. Dans les systèmes de vision par ordinateur et plus particulièrement les systèmes de recherche de documents, la recherche des similarités entre les vecteurs de descripteurs de grande dimension est la partie la plus coûteuse en termes de temps de calcul. Dans cet article, nous proposons un système de recherche de documents basé sur la détection de logos. Ce système est efficace en termes de temps de calcul. En effet, notre approche de détection consiste...

Bandit Contextuel pour la Capture de Données Temps Réel sur les Médias Sociaux

Thibault Gisselbrecht, Sylvain Lamprier & Patrick Gallinari
RÉSUMÉ. La plupart des médias sociaux offrent un accès aux flux de données produites par leurs utilisateurs. L’utilisation des API fournies pour collecter ces données, relativement à un besoin spécifique, peut se révéler être une tâche complexe car elle nécessite une sélection soigneuse des sources. Cela représente un problème particulièrement difficile dans les réseaux sociaux de grandes tailles étant donné le nombre important d’utilisateurs potentiellement intéressants, la non-stationnarité intrinsèque de leur comportement, et les restrictions...

Réédition de documents numériques guidée par un modèle utilisateur.

Fady Farah
RESUME. Notre travail se situe dans un contexte où une requête documentaire dans une base de documents XML d'un domaine spécifique fournit une masse de documents inexploitable par un humain. Un post-traitement que nous appelons réédition est alors indispensable: il consiste à utiliser des unités d'information qui sont les éléments XML provenant des documents résultats de la requête pour composer de nouveaux documents. Une balise XML n'ayant pas de signification intrinsèque mais une interprétation donnée...

Modèles de langue appliqués à la recherche d'information contextuelle.

Hugues Bouchard & Jian-Yun Nie
RÉSUMÉ . Il est reconnu que le contexte joue un rôle important en recherche d'information (RI). Or, très peu de systèmes opérationnels le considèrent. Dans cet article, nous considérons un des aspects du contexte u le domaine d'intérêt de l'usager. Nous caractérisons un domaine d'intérêt par un ensemble de documents. Nous utilisons une approche de modélisation de langue statistique pour établir un modèle de langue du domaine. Ce modèle est utilisé de trois façons :...

Annotation semi-automatique de grandes BD images : Approche par graphes de voisinage.

Hakim Hacid
RÉSUMÉ. L'annotation d'images constitue l'outil principal pour l'association d'une sémantique à une image. Dans cet article nous nous intéressons à l'annotation semi-automatique d'images. En effet, avec la grande masse de données gérées à travers le monde et surtout avec l'avènement du web, l'annotation manuelle de ces images est pratiquement impossible. Cet article présente un travail préliminaire sur une démarche basée sur les graphes de voisinage. La démarche que nous proposons offre, comme montré dans la...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598