598 Works

Retweeter ou ne pas retweeter : Le dilemme des portails de diffusion d’information temps-réel.

Thomas Palmer, Gilles Hubert & Karen Pinel-Sauvagnat
RÉSUMÉ. L'étude des caractéristiques contextuelles a été largement traitée en Recherche d'Information (RI), mais les applications concrètes sur de vrais flux de données ne sont pas très répandues. Dans cet article, notre problématique concerne la décision automatique de retwee- ter un message. En considérant le centre d'intérêt d'un utilisateur, nous proposons un modèle pour effectuer un filtrage automatique en temps-réel du flux Twitter en utilisant de multiples caractéristiques contextuelles. Le modèle sépare l'aspect contextuel du...

Une méthode non supervisée pour la vérification d'auteur à base d'un modèle gaussien multivarié.

Mohamed Amine Boukhaled
RÉSUMÉ . Dans cet article, nous présentons une première étude sur l'utilisation d'une méthode de détection des cas aberrants à base de distance pour la tâche de vérification de l'auteur. Nous avons considéré une méthode non supervisée basée sur un modèle gaussien multivarié. Pour évaluer l'efficacité de la méthode proposée, nous avons mené une expérimentation sur un corpus de textes littéraires français classiques. Nos résultats préliminaires montrent que la méthode proposée peut réaliser une haute...

BicMIN : Développement et validation d’une nouvelle méthode de classification croisée des séquences de protéines

Ghada Bouali & Faouzi Mhamdi
Résumé. Les biologistes proposent des classifications de protéines, la classification non supervisée de séquences de protéines en groupes fonctionnels appelés aussi familles permettent de valider ces classifications. Ce problème est très important en bioinformatique, particulièrement depuis l'avènement des méthodes à grande échelle qui produisent une énorme quantité de séquences à analyser. Nous avons conçu, implémenté et validé une nouvelle méthode de bi-regroupement basée sur la présence de courts motifs conservés dans les séquences biologiques. Cette...

Apprendre à ordonner la frontière de crawl pour le crawling orienté.

Clément De Groc & Xavier Tannier
RÉSUMÉ. Le crawling orienté consiste à parcourir le Web au travers des hyperliens en orientant son parcours en direction des pages pertinentes. Pour cela, ces crawlers ordonnent leurs téléchargements suivant une stratégie d'ordonnancement. Dans cet article, nous proposons d'ap- prendre cette fonction d'ordonnancement à partir de données annotées. Une telle approche nous permet notamment d'intégrer un grand nombre de traits hétérogènes et de les combiner. Nous décrivons une méthode permettant d'apprendre une fonction d'ordonnancement indépen-...

Intérêt des ressources morphologiques pour la recherche d'information précise.

Anne-Laure Ligozat, Delphine Tribout & Brigitte Grau
RÉSUMÉ. Cet article présente la construction automatique, le filtrage et la validation d'une ressource morphologique concernant les noms d'agents déverbaux. Cette validation utilise dif- férentes ressources et corpus pour tester l'appartenance des verbes et noms à la même famille morphologique, ainsi que leur lien, méthode qui peut se généraliser à d'autres ressources du même type. Hormis une méthode de construction et d'aide à la validation d'une ressource, nous montrerons l'intérêt de disposer de ressources morphologiques...

Analyse et transformation des questions médicales en requêtes SPARQL.

Asma Ben Abacha & Pierre Zweigenbaum
RÉSUMÉ. La conception des systèmes de questions-réponses nécessite une analyse profonde des questions posées. Cette tâche primordiale requiert d'être étudiée et évaluée séparément. Dans cet article, nous nous intéressons à l'analyse de questions en domaine médical. Plus pré- cisément, nous étudions la transformation de questions posées en langage naturel en requêtes basées sur un langage formel. Cette étude examine trois points clés : (i) Quelles sont les car- actéristiques d'une question médicale, (ii) Quelles sont...

Recherche d'Information efficace utilisant la sémantique: le focus.

Anthony Ventresque
RÉSUMÉ. L'indexation sémantique de documents à partir d'ontologies est un domaine qui prend de l'essor, malgré les difficultés d'une indexation automatique ou même semi-automatique, sans parler d'indexation manuelle. Il est possible désormais d'avoir des caractérisations séman- tiques de documents textuels ou non textuels basées sur des ontologies. Partant de ce fait, nous avons mis en place un objet, le focus, qui représente un document ou une requête en pondé- rant les concepts d'une ontologie de...

Détection de tableaux dans des documents complexes.

Thotreingam Kasar, Philippine Barlas, Sébastien Adam, Clément Chatelain & Thierry Paquet
RÉSUMÉ. Dans cet article, nous présentons les résultats obtenus par un détecteur de tableau dans le cadre des campagnes MAURDOR, pour lesquelles le corpus présente la particularité de contenir des document fortement hétérogènes dans leur mise en page, leurs scripts et les langues utilisées.

Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques

Aurélien Lamercerie
RÉSUMÉ Cet article explore la construction de représentations formelles d'énoncés en langue naturelle. Le passage d'un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l'analyse syntaxique de l'énoncé à une représentation sémantique. Nous ciblons l'aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c'est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l'enjeu serait d'apporter une aide au concepteur....

Utilisation de concepts visuels et de la diversité visuelle pour améliorer la recherche d'images.

Sabrina Tollari, Marcin Detyniecki, Ali Fakeri-Tabrizi, Christophe Marsala, Massih-Reza Amini & Patrick Gallinari
RÉSUMÉ. Dans cet article, nous étudions (i) comment extraire et exploiter des concepts visuels pour améliorer la recherche d'images basée sur le texte, et (ii) comment diversifier les résul- tats pertinents obtenus. Nous utilisons d'abord des forêts d'arbre de décisions flous (FFDTs) pour détecter les concepts dans les images, puis nous découvrons à l'aide de l'analyse des cooccurrences des relations d'exclusion mutuelle et d'implication entre les concepts. Ensuite, nous utilisons ces concepts pour améliorer la...

D'une compacité positionnelle à une compacité probabiliste pour un système de Questions / Réponses.

Laurent Gillard, Patrice Bellot & Marc El-Bèze
RÉSUMÉ . Dans cet article, nous présentons une discussion sur la définition d'un score de compacité pour permettre l'extraction d'une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être succinctement décrit comme une fonction liée a la densité des termes de la question dans le voisinage d'une réponse candidate, est présenté en détail. Ensuite, une discussion nous amène à envisager une extension de ce score, initialement défini d'un point de vue...

Une métrique pondérée pour la recherche textuelle d'images dans des documents semi-structurés.

Mouna Torjmen, Karen Pinel-Sauvagnat & Mohand Boughanem
RÉSUMÉ. La naissance du standard XML et l'utilisation de plus en plus fréquente des images dans les documents électroniques ont soulevé une nouvelle problématique en recherche d'infor- mation: la recherche d'images dans des documents semi-structurés. Cet article s'inscrit dans ce contexte et présente une méthode permettant de calculer une re- présentation sémantique de l'image en utilisant le texte et la structure des documents. Plus précisément, nous proposons une mesure pour calculer la participation de chaque...

AXON : Un Système de RI Personnalisée dans des Textes Arabes basée sur le profil utilisateur et l'expansion de requêtes.

Houssem Safi
RÉSUMÉ. Les travaux présentés dans cet article visent à développer un système de recherche d'information qui présente la particularité d'être adapté pour la langue arabe et de fournir des résultats personnalisés en fonction des préférences/centres d'intérêt de l'utilisateur. Pour cela, nous avons proposé une méthode d'expansion de requêtes basée à la fois sur des connaissances sémantiques issues d'ontologies existantes pour la langue arabe et sur des informations provenant de profils d'utilisateurs. La méthode d'expansion exploite...

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Patrick Bordes, Eloi Zablocki, Laure Soulier, Benjamin Piwowarski & Patrick Gallinari
RÉSUMÉ. L'ancrage visuel est un domaine de recherche actif dont le but est d'enrichir les repré- sentations vectorielles textuelles à l'aide d'informations visuelles. La plupart des travaux du domaine s'appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s'avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d'apprentissage de re- présentation de phrases qui transfère la structure...

Structuration sémantique des documents XML : Expérimentations et évaluation.

Salma Ben Meftah, Kaïs Khrouf, Jamel Feki & Chantal Soulé-Dupuy
RÉSUMÉ . La norme XML permet la représentation d'un document selon un découpage logique qui ne reflète généralement pas la sémantique de son contenu. Il serait donc intéressant de compléter la structure logique des documents XML par une structure sémantique. L'objet de cet article est alors d'évaluer l'approche d'extraction de structures sémantiques pour les documents XML que nous effectuons sur un échantillon de documents issus de la collection ImageClef 2010 tout en utilisant le thésaurus...

Extraction d'un vocabulaire de surprise par mélange de filtrage collaboratif et d'analyse de sentiments.

Mickaël Poussevin, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. L'informatique subit actuellement une mutation profonde: les améliorations maté- rielles et les grandes quantités de données disponibles fournissent un terrain fertile à la re- cherche en apprentissage automatique. Dans ce contexte, le principal défi est de tenir compte des préférences des utilisateurs pour proposer un accès personnalisé à l'information. Les sys- tèmes de recommandation créent des profils utilisateurs et objets en utilisant les revues utilisa- teurs, et ces profils reflètent les préférences des utilisateurs...

Une approche multi-vue pour l'extraction terminologique bilingue.

Raphaël Rubino & Georges Linarès
RÉSUMÉ. Ce papier présente une approche multi-vue pour la traduction de termes de spécial- ité, basée sur un lexique bilingue et un corpus comparable. Nous proposons d'étudier dif- férents niveaux de représentation pour un terme : le contexte, le thème et la graphie. Ces trois approches sont tout d'abord étudiées individuellement, puis combinées afin de sélection- ner les meilleures traductions. Des expériences menées sur la traduction de termes médicaux du français vers l'anglais montrent une...

Influence de mesures de densité pour la recherche de passages et l'extraction de réponses dans un système de questions-réponses.

Laurent Gillard, Patrice Bellot & Marc El-Bèze
RÉSUMÉ . Dans cet article, nous comparons différentes méthodes de filtrage et d'extraction d'une réponse candidate dans le cadre d'un système de questions-réponses. Ces expériences sont effectuées sur un sous-ensemble du corpus de la campagne Technolangue-EQueR, première campagne francophone de questions-réponses utilisant des questions et un corpus en français. Nous évaluons la méthode que nous avions retenue lors de notre participation à cette campagne. Celle-ci est basée sur une densité et une compacité des mots...

Mesurer la proximité entre corpus par de nouveaux méta-descripteurs.

Flavien Bouillot, Pascal Poncelet & Mathieu Roche
RÉSUMÉ. Devant le nombre d'algorithmes de classification existants, trouver l'algorithme qui sera le plus adapté pour classer un corpus de documents est une tâche difficile. La méta- classification apparaît aujourd'hui très utile pour aider à déterminer, en fonction des expé- riences passées, quel devrait être l'algorithme le plus pertinent par rapport à notre corpus. L'idée sous jacente est que "si un algorithme s'est montré particulièrement adapté pour un cor- pus, il devrait avoir le même...

Suggestion contextuelle composite.

Thibaut Thonet, Romain Deveaud, Iadh Ounis & Craig Macdonald
RÉSUMÉ. La suggestion contextuelle consiste à recommander à un utilisateur un ensemble de lieux d'activités adaptés à ses préférences et à son contexte. La plupart des approches existantes considèrent uniquement ces deux caractéristiques pour constituer leur liste de suggestions. Ce- pendant, les recherches en systèmes de recommandation ont récemment souligné l'importance de la diversité des suggestions. Cet article présente un modèle novateur de suggestion contex- tuelle inspiré de la recherche composite qui consiste à regrouper...

Normalisation et validation d'images de documents capturées en mobilité.

Marçal Rusiñol, Joseph Chazalon & Jean-Marc Ogier
RÉSUMÉ. La numérisation de documents à l'aide des smartphones introduit un nombre impor- tant de dégradations qui doivent être corrigées ou détectées sur le mobile, avant l'envoi de données sur un réseau payant ou la perte de disponibilité du document. Dans cet article, nous proposons un système permettant de corriger les problèmes de perspective et d'illumination avant d'estimer la netteté de l'image pour un traitement OCR. L'étape corrective repose sur une détection des contours, suivie...

Une approche non supervisée pour le typage et la validation d'une réponse à une question en langage naturel : application à la tâche Entity de TREC 2010.

Ludovic Bonnefoy, Patrice Bellot & Michel Benoit
RÉSUMÉ. La recherche d'entités nommées a été le sujet de nombreux travaux en recherche d'in- formation. Dans ce papier, nous cherchons à déterminer si une entité est d'un type donné, et ce de manière non-supervisée et quel que soit son type. Nous proposons pour cela une approche basée sur l'utilisation de modèles de langage estimés à partir du web. De plus, nous souhaitons déterminer si cette nouvelle information peut être utilisée efficacement pour améliorer le...

A la Recherche de noeuds informatifs dans des corpus de documents XML.

Karen Sauvagnat & Mohand Boughanem
Un des principaux challenge de la Recherche d'Information dans des documents XML est le traitement des requêtes composées de simples mots-clés. L'utilisateur exprimant de telles requêtes ne donne en effet aucune indication au système sur la granularité de l'information qu'il désire. De quel type doit-être cette information ? Les documents XML pouvant être considérés comme des arbres, chercher les parties de documents pertinentes à une requête revient à chercher des sous-arbres pertinents. Ceci soulève les...

Recherche d'information flexible basée CP-nets.

Fatiha Boubekeur & Lynda Tamine-Lechani
RÉSUMÉ . Ce papier décrit une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Le raisonnement et l'inférence sur les préférences qualitatives n'étant pas aisés, nous devons quantifier les préférences. Nous proposons alors une approche de pondération automatique des requêtes...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598