598 Works

Une étude de l'impact de la structure sur la recherche multimédia.

Mouna Torjmen & Karen Pinel-Sauvagnat
RÉSUMÉ. Cet article s'inscrit dans le cadre de la recherche XML multimedia, dont l'objectif est de trouver des fragments multimedia pertinents (c'est à dire des fragments XML contenant au moins un autre media que le texte). Dans des travaux précédents, nous avons proposé un modèle pour la recherche de fragments multimedia appliqué au media 'image'. Ce modèle consiste tout d'abord à trouver les images pertinentes et ensuite, à définir les fragments multimedia pertinents à partir...

Adaptation du modèle de langue pour le tri des réponses dans les BD.

Abdelhamid Chellal, Mohand Boughanem & Karima Amrouche
RÉSUMÉ . L'information sur le web est de plus en plus extraite depuis des bases de données (BD) où les langages d'interrogation sont basés sur une recherche exacte. L'utilisateur se trouve confronté au problème de réponses nombreuses lorsque sa requête est peu sélective. Pour remédier à ce problème, plusieurs approches ont été proposées, à l'instar de celles utilisant les techniques de relaxation des requêtes. D'autres travaux proposent de classifier les résultats. Une autre classe d'approches,...

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML.

Guillaume Wisniewski, Ludovic Denoyer & Patrick Gallinari
RÉSUMÉ. Le domaine de la Recherche d'Information Structurée (RIS) est un domaine qui émerge avec l'arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l'initiative INEX, concerne principalement le développement de moteurs de recherche documen- taire. Aujourd'hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de...

Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats

Tsanta Randriatsitohaina
RÉSUMÉ Dans cet article, nous nous intéressons à l'extraction des interactions entre médicaments et aliments, une tâche qui s'apparente à l'extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l'apprentissage profond. A partir de cet état de l'art, nous présentons une méthode basée sur un apprentissage supervisé et...

XFIRM: un Modèle Flexible de Recherche d'Information pour le stockage et l'interrogation de documents XML.

Karen Sauvagnat
RESUME : Les utilisateurs recherchant une information précise ne souhaitent pas la voir noyée aux milieux d'autres sujets, comme cela peut être le cas dans de grands documents. Les documents XML, par leur structure même, permettent de traiter l'information qu'ils contiennent à un niveau de granularité autre que celui du document tout entier. Deux approches s'affrontent pour la recherche d'information (RI) dans des documents XML. La première est basée sur des méthodes issues de la...

Extraction des connaissances à partir du Web pour la recherche des images géoréférencées.

Houda Bouamor
RESUME. Les bases de données géoréférencées connaissent un rôle croissant dans une grande variété de domaines d'application. La création manuelle de ces bases de données est cependant une opération coûteuse. Cela a suscuté un intérêt pour l'automatisation de leur construction, par exemple, par l'exploitation des informations géographiques présentes sur le Web. Dans ce travail, nous présentons une nouvelle approche automatique pour la construction d'une base de données géoréférencées multilingues et à large échelle en se...

Extraction de propriétés de produits.

Patrick Marty, Tian Tian & Isabelle Tellier
RÉSUMÉ. Le travail présenté dans cet article vise à extraire automatiquement certaines carac- téristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d'un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l'aborder, nous avons testé deux approches : une méthode d'extraction fondée sur des dictionnaires et une méthode d'apprentissage automatique avec les CRF (Champs Aléatoires Conditionnels), pour...

Cascade de CRFs et SVM pour la détection de références bibliographiques diffuses dans les articles scientifiques

Anaïs Ollagnier, Sébastien Fournier & Patrice Bellot
RÉSUMÉ. Dans le contexte d’une bibliothèque d’articles scientifiques, les références bibliographiques sont une source majeure de liens. Parmi elles, certaines sont explicites comme les références que nous pouvons retrouver à la fin des articles ou des livres. Tandis que d’autres sont dispersées selon un degré de diffusion plus ou moins fort dans le corps du texte. Nous proposons de nous focaliser sur la détection de ce type de références que nous nommons références bibliographiques diffuses...

Classification Supervisée de Questions : Rôle de l'Expansion Sémantique.

Ali Harb, Jean-Jacques Girardot & Michel Beigbeder
RÉSUMÉ. Fournir de bonnes réponses à une question donnée en cherchant au sein d'un grand corpus de documents est une tâche difficile. Il est nécessaire de percevoir et de reconnaître la question à un niveau qui permet d'imposer des contraintes sur l'ensemble des réponses pos- sibles. Une contrainte fréquemment utilisée est la catégorie des questions qui permet de déduire le type de réponse attendue. L'objectif est de fournir des informations supplémentaires afin de réduire l'écart...

Prédire la difficulté des requêtes : la combinaison de mesures statistiques et sémantiques.

Adrian-Gabriel Chifu
RÉSUMÉ. La performance d'un Système de Recherche d'Information (SRI) est étroitement liée à la requête. Les requêtes pour lesquelles les SRI échouent sont appelées dans la littérature des u requêtes difficiles ». L'étude présentée dans cet article vise à ana- lyser, adapater et combiner plusieurs prédicteurs de difficulté de requêtes. Nous avons considéré trois prédicteurs: un lié à l'ambiguïté des termes, un basé sur la fréquence des termes et une mesure de répartition des résultats....

Regrouper des résultats SPARQL par comparaison de leurs contenus tels qu’ils sont agencés dans la base RDF interrogée.

Sonia Djebali & Thomas Raimbault
RÉSUMÉ. Cet article présente une nouvelle approche permettant de regrouper les résultats d'une requête SPARQL selon leurs similitudes. Afin de comparer les résultats, l'originalité de notre approche est de considérer pour chaque résultat les données constituant ce résultat telles qu'elles sont présentes et agencées dans la base RDF interrogée. Nous ne nous limitons donc pas à comparer les résultats entre eux, mais nous les re-contextualisons dans la base où ils ont été sélectionnés afin de...

ANASTASIA : recommandation de séquences d'activités spatiotemporelles.

Diana Nurbakova, Léa Laporte, Sylvie Calabretto & Jérôme Gensel
RÉSUMÉ. Avec l'augmentation du nombre et de la variété des activités accessibles par les utili- sateurs, la recommandation personnalisée de séquences d'activités devient un enjeu important. Or, la plupart des systèmes de recommandation ne tiennent pas compte des contraintes tem- porelles liées aux activités, ce qui rend la recommandation difficile à suivre par un utilisateur. Dans cet article, nous décrivons une nouvelle approche pour la recommandation de séquences d'activités limitées dans le temps et concurrentes....

Propositions pour la pondération des termes et l'évaluation de la pertinence des éléments en recherche d'information structurée.

Karen Sauvagnat & Mohand Boughanem
RÉSUMÉ. La recherche d'information dans des corpus de documents structurés doit faire face à de nombreuses problématiques. L'une d'elles concerne l'évaluation de la pertinence des élé- ments : le but est de renvoyer à l'utilisateur une liste triée de résultats. Cette évaluation repose sur la pondération des termes d'indexation utilisée ainsi que sur le modèle suivi pour la mise en correspondance de la requête et des éléments. Dans cet article, nous nous proposons d'explorer diverses...

Classification avec style : Une application aux discours gouvernementaux.

Jacques Savoy
RESUME. Cet article présente une analyse lexicale d'un corpus composé des discours sur l'état de l'Union de 1790 à 2013 pour un total de 223 allocutions écrites par 41 présidents des Etats-Unis. Une classification automatique basée sur la fréquence d'occurrences de tous les lemmes indique que la chronologie correspond à un facteur important dans le regroupement des présidents, plus que les affinités de parti. Une attribution d'auteur indique que, pour 96% des discours, on détecte...

Diversité hiérarchique et utilisation d'arbres de concepts pour la recherche d'images.

Christian Kuoman, Sabrina Tollari & Marcin Detyniecki
RÉSUMÉ. La recherche d'images est de plus en plus efficace, mais les résultats similaires ont tendance à se regrouper. Dans cet article, nous montrons comment améliorer la diversité des résultats en prenant en compte la nature intrinsèquement hiérarchique de la diversité. Afin d'ex- ploiter les différents niveaux de granularité de la diversité, nous utilisons une approche basée sur une classification ascendante hiérarchique (CAH). De plus, nous introduisons une nouvelle approche qui exploite une arborescence de...

Compression de structure XML pour la recherche d'information structurée.

Michel Beigbeder
RÉSUMÉ. La recherche d'informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adap- tée à la recherche d'information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les...

Recherche d'information XML utilisant un principe de vote.

Gilles Hubert, Josiane Mothe & Sandra Poulain
RÉSUMÉ . Cet article décrit une approche pour la recherche d'information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méthode proposée a été expérimentée et évaluée dans le cadre de la campagne INEX 2004.

Classification de Structures Arborescentes : Cas de Documents XML

Ali Aïtelhadj, Mohamed Mezghiche & Fatiha Souam
RÉSUMÉ . Cet article présente une méthode de classification structurelle de documents XML. Notre approche consiste d'abord à extraire automatiquement la structure arborescente de chaque document XML à classer, et ensuite à utiliser cette structure comme modèle de représentation pour la classification du document XML correspondant. L'appariement de ces structures est fondé sur un calcul de leurs similarités. Pour l'expérimentation nous avons utilisé un corpus INEX.

Indexation manuelle et automatique: une évaluation comparative basée sur un corpus en langue française.

Jacques Savoy
Cette communication évalue et compare l'efficacité du dépistage de l'information utilisant une indexation automatique ou manuelle, cette dernière s'appuyant sur un vocabulaire contrôlé. Le corpus d'évaluation interrogé par dix modèle de dépistage de l'information comprend des notices bibliographiques écrites en français et couvrant diverses disciplines. Finalement, nous analysons la performance obtenue en combinant les deux formes d'indexation.

Intégration de règles d'association pour améliorer la recherche d'informations XML.

Cheikh Talibouya Diop, Moussa Lo & Fatou Kamara-Sangaré
RÉSUMÉ . La reformulation de requêtes constitue un moyen d'améliorer la recherche d'informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règles d'association dans le système de recherche d'informations que nous avons développé pour les documents XML. Cela présente l'avantage de ne...

Utilisation de la couleur pour l’extraction de tableaux dans des images de documents.

Héloïse Alhéritière, Florence Cloppet, Camille Kurtz & Nicole Vincent
RÉSUMÉ. Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche.

Sélection adaptative de Services de Recherche d'Information web par l'analyse du besoin et du comportement de l'utilisateur.

Aurélien Saint-Réquier
RÉSUMÉ. Dans le cadre de travaux de recherche sur la modélisation du besoin et du comporte- ment de l'utilisateur, nous décrivons une approche de sélection de Services de Recherche d'In- formation (SRI) web adaptés au besoin de l'utilisateur. Un système expérimental intégrant une modélisation de l'utilisateur par un profil représentant ses centres d'intérêt, une modélisation du comportement par un mécanisme de récupération des interactions utilisateurs et une base de SRI généralistes et verticaux, est présenté....

AGATHE : une architecture générique à base d'agents et d'ontologies pour la collecte d'information sur domaines restreints du Web.

Bernard Espinasse, Sébastien Fournier & Frederico Luiz Gonçalves De Freitas
RÉSUMÉ . La collecte pertinente d'information sur le Web est une tâche très complexe et les moteurs de recherche actuels, reposant sur des méthodes d'indexation et de recherches basées sur des mots-clés, ont de très faibles taux de précision. Les recherches qu'ils réalisent sont essentiellement lexicales statistiques et ne prennent pas en compte leurs contextes sous- jacents. En se limitant à des domaines restreints, la prise en compte de ces contextes est possible et doit...

Nommage non-supervisé des personnes dans les émissions de télévision : une revue du potentiel de chaque modalité.

Johann Poignant, Laurent Besacier & Georges Quénot
RÉSUMÉ. L'identification de personnes dans les émissions de télévision est un outil précieux pour l'indexation de ce type de vidéos. Mais l'utilisation de modèles biométriques n'est pas une op- tion viable sans connaissance a priori des personnes présentes dans les vidéos. Les noms cités à l'oral ou écrits à l'écran peuvent nous fournir une liste de noms hypothèses. Nous proposons une comparaison du potentiel de ces deux modalités (noms cités ou écrits) afin d'extraire le...

Propositions pour la recherche contextuelle d'images dans des documents XML.

Mouna Torjmen
RÉSUMÉ. Cet article s'inscrit dans le cadre de la recherche d'images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations vi- suelles de l'image. Nous nous proposons ici d'explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu'une image peut être présentée par les autres éléments non images du document XML. Nous proposons d'une part une méthode pour choisir...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598