544 Works

Kodex ou comment organiser les résultats d'une recherche d'information par détection de communautés sur un graphe biparti?

Emmanuel Navarro, Yannick Chudy, Bruno Gaume, Guillaume Cabanac & Karen Pinel-Sauvagnat
RÉSUMÉ. Les Systèmes de Recherche d'Information structurent en général leurs résultats sous la forme d'une liste de documents. Nous pensons qu'il existe une structure plus riche dans ces résultats. En effet, la plupart des graphes obtenus à partir de données réelles (entre autre, les graphes de documents) partagent certaines propriétés structurelles, en particulier une organisation en communautés que nous proposons d'exploiter afin de mieux organiser l'ensemble des documents restitués pour une requête. Pour ce faire,...

Sélection de Caractéristiques pour le Filtrage de Spams.

Kamilia Menghour & Labiba Souici-Meslati
RÉSUMÉ . La sélection des caractéristiques est une étape importante dans les systèmes de classification. Elle vise la réduction du nombre de caractéristiques tout en essayant de préserver ou d'améliorer la performance du classifieur utilisé. Dans cet article, nous proposons une démarche de sélection de caractéristiques, basée sur l'apprentissage automatique, dans le contexte du filtrage de spams qui est considéré comme une tâche de catégorisation de textes. Notre approche consiste à évaluer individuellement chacun des...

Utilisation de la couleur pour l’extraction de tableaux dans des images de documents.

Héloïse Alhéritière, Florence Cloppet, Camille Kurtz & Nicole Vincent
RÉSUMÉ. Les tableaux sont des éléments complexes qui peuvent perturber l’analyse automatique de la structure d’une image de document. Dans cet article, nous présentons une méthode fondée sur l’alternance de couleurs de lignes pour extraire des tableaux colorés à bordures non matérialisées. Les résultats expérimentaux obtenus à partir d’une base d’images de documents à mise en page variée, permettent de valider l’intérêt de cette approche.

Analyse de la robustesse des algorithmes de méta-recherche discriminante.

Huyen-Trang Vu & Patrick Gallinari
RÉSUMÉ. Cet article examine la sensibilité de quatre moteurs de méta-recherche à différents facteurs et contextes d'utilisation. L'accent de l'étude est mis sur les méta-moteurs capables d'apprendre à partir d'exemples. L'apport original de notre travail consiste en une explora- tion systématique sur des corpus de grande taille des performances et du comportement des méthodes d'apprentissage pour la méta-recherche. D'abord, nous nous intéressons au choix de la représentation des attributs (les scores renvoyés par les moteurs...

Une étude de l'impact de la structure sur la recherche multimédia.

Mouna Torjmen & Karen Pinel-Sauvagnat
RÉSUMÉ. Cet article s'inscrit dans le cadre de la recherche XML multimedia, dont l'objectif est de trouver des fragments multimedia pertinents (c'est à dire des fragments XML contenant au moins un autre media que le texte). Dans des travaux précédents, nous avons proposé un modèle pour la recherche de fragments multimedia appliqué au media 'image'. Ce modèle consiste tout d'abord à trouver les images pertinentes et ensuite, à définir les fragments multimedia pertinents à partir...

Représentations et régularisations pour la classification de sentiments.

Abdelhalim Rafrafi, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d'un nouveau genre présentant de forts enjeux économiques et scienti- fiques. L'exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d'opinion est également d'affiner les profils d'uti- lisateurs et d'utiliser les sources ouvertes du web pour effectuer des sondages. Les algorithmes...

Techniques d'apprentissage supervisé pour l'extraction d'événements TimeML en anglais et français.

Béatrice Arnulphy, Vincent Claveau, Xavier Tannier & Anne Vilnat
RÉSUMÉ. L'identification des événements au sein de textes est une tâche d'extraction d'informations importante et préalable à de nombreuses applications. Au travers des spécifications TimeML et des campagnes TempEval, cette tâche a reçu une attention particulière ces der- nières années, mais aucun résultat de référence n'est disponible pour le français. Dans cet article nous tentons de répondre à ce problème en proposant plusieurs systèmes d'extraction, en faisant notamment collaborer champs aléatoires conditionnels, modèles de langues...

La visualisation de données relationnelles au service de la recherche d'informations.

Eloïse Loubier & Wahiba Bahsoun
RÉSUMÉ .Dans le cadre de la recherche d'informations, la restitution des documents s'effectue selon leur score de pertinence calculé, correspondant à une requête précise. Cependant des questions se posent quant à la représentation des documents et des requêtes ainsi que leur mise en correspondance. Le graphe est utilisé comme moyen de représentation et de visualisation de données, sans nécessiter de pré requis mathématique particulier. Cet article présente les apports de la visualisation d'information à la...

Analyse morphologique fine pour la recherche d'information biomédicale.

Vincent Claveau & Ewa Kijak
RÉSUMÉ. Dans le domaine biomédical, l'emploi de termes spécialisés est la clef de l'accès à l'in- formation. Mais dans la plupart des langues indo-européennes, ces termes sont des construc- tions morphologiques complexes. Dans cet article, nous cherchons à identifier les différents éléments de sens composant ces termes et utilisons ces analyses pour améliorer la recherche d'information biomédicale. Nous présentons en particulier une approche automatique combi- nant alignement avec une langue pivot et apprentissage analogique permettant...

Utilisation de la théorie des graphes et de la distance d'édition pour la recherche d'information sur documents XML.

Cyril Laitang & Karen Pinel-Sauvagnat
RESUME. La recherche d'information sur documents semi-structurés de type XML (RIS) permet de renvoyer à l'utilisateur des granules documentaires se focalisant sur les besoins exprimés. La requête et les documents structurés pouvant être vus comme des hiérarchies d'éléments imbriqués, nous considérons que leur proximité structurelle peut être évaluée au travers de la similarité entre leurs arborescences respectives. Dans ce cadre, nous proposons un modèle de RIS combinant au calcul de score sur le contenu une...

Classification active de flux de documents avec identification des nouvelles classes.

Mohamed-Rafik Bouguelia, Yolande Belaïd & Abdel Belaïd
RÉSUMÉ. Dans cet article, on propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Cet algorithme, basé sur une méthode adaptative d'apprentis- sage non supervisé, permet de repérer les documents les plus informatifs à l'aide d'une mesure d'incertitude pour demander leur étiquette à un opérateur. Il construit et maintient un modèle sous forme d'un graphe à topologie dynamique dont les noeuds sont des représentants de docu- ments étiquetés, formant ce qu'on...

Apprentissage par renforcement dans un système de filtrage adaptatif.

Mohand Boughanem, Hamid Tebri & Mohamed Tmar
RÉSUMÉ. Cet article présente une méthode incrémentale d'apprentissage des profils dans les systèmes de filtrage d'information. Cette méthode est basée sur le principe de renforcement. L'idée de base consiste à construire, à chaque arrivée d'un document pertinent, un profil ' provisoire ' permettant de sélectionner le document en question avec un score ' fort ', puis intégrer ce profil, grâce à une descente de gradient, dans le profil global. Cette méthode est comparée à une...

Exploitation des signaux sociaux pour estimer la pertinence a priori d'une ressource.

Ismail Badache & Mohand Boughanem
RÉSUMÉ. Dans cet article nous proposons une approche de recherche d'information (RI) qui prend en compte le contenu social associé à une ressource pour mesurer sa pertinence a priori vis-à-vis d'une requête. Nous démontrons comment ces caractéristiques, qui sont sous forme d'actions relevant d'activités sociales (signaux sociaux) tels que le nombre de "j'aime" et de 'partage', peuvent être combinées pour quantifier des propriétés sociales telles que la popularité et la réputation. Nous proposons de modéliser...

Semantic Clustering using Bag-of-Bag-of-Features.

Ali Reza Ebadat, Vincent Claveau & Pascale Sébillot
RÉSUMÉ. Le calcul de distances entre représentations textuelles est au coeur de nombreuses ap- plications du Traitement Automatique des Langues. Les approches standard initiallement déve- loppées pour la recherche d'information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d'attributs) avec des pondérations de type TF-IDF ou des variantes, une représentation vectorielle et des fonctions classiques de similarité comme le cosinus. Dans ce papier, nous...

Learning to Extract Answers in Question Answering: Experimental Studies.

Florent Jousse, Isabelle Tellier, Marc Tommasi & Patrick Marty
RÉSUMÉ. Les systèmes Question/Réponse sont des programmes complexes capables de répondre à une question en langage naturel, en utilisant comme source d'information soit un corpus donné, soit, comme c'est le cas ici, le Web. Pour cela, ces systèmes réalisent différentes sous- tâches parmi lesquelles la dernière, appelée extraction de la réponse, est très similaire à une tâche d'Extraction d'Information. L'objectif de cet article est d'adapter les techniques d'ap- prentissage automatique utilisées en Extraction d'Information à...

Indexation multi-critères et différentes approches de combinaison.

Damien Palacio
RÉSUMÉ. Ce papier s'inscrit dans la continuité de travaux sur l'indexation et la recherche d'in- formation menés au LIUPPA sur des critères géographiques. L'information géographique a trois composantes : le spatial, le temporel et le thématique. Notre équipe a déjà travaillé sur le spatial et le temporel de façon indépendante. Aujourd'hui nous cherchons à combiner ces différentes composantes. Pour cela nous proposons d'utiliser une approche statistique, réser- vée habituellement à l'analyse plein-texte d'un document, pour...

Nommage non-supervisé des personnes dans les émissions de télévision : une revue du potentiel de chaque modalité.

Johann Poignant, Laurent Besacier & Georges Quénot
RÉSUMÉ. L'identification de personnes dans les émissions de télévision est un outil précieux pour l'indexation de ce type de vidéos. Mais l'utilisation de modèles biométriques n'est pas une op- tion viable sans connaissance a priori des personnes présentes dans les vidéos. Les noms cités à l'oral ou écrits à l'écran peuvent nous fournir une liste de noms hypothèses. Nous proposons une comparaison du potentiel de ces deux modalités (noms cités ou écrits) afin d'extraire le...

Métriques statistiques pour l’évaluation de performance en présence de vérité terrain imprécise.

Bart Lamiroy & Pascal Pierrot
RÉSUMÉ. Ce papier aborde l’évaluation de performances en présence de vérité terrain imprécise. En effet, lors de procédures de benchmarking il est généralement supposé que les données de référence sont parfaites. Nous avons démontré précédemment que cette hypothèse de travail n’est généralement pas satisfaite dans le contexte de problèmes d’interprétation perceptuelle, sauf dans les cas les plus triviaux. Nous présentons ici un approche et test statistiques qui permettent de mesurer la confiance que l’on peut...

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML.

Ounas Asfari
RÉSUMÉ . Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de noeuds pertinents à une requête orientée contenu 'Content Only' composée de simples mots clés dans un corpus de documents XML en prenant en compte...

Détection de communautés multi-relationnelles dans les réseaux sociaux.

Guesmi Soumaya, Chiraz Trabelsi, Catherine Berrut & Chiraz Latiri
RÉSUMÉ. L'explosion des réseaux sociaux a rendu indispensable leur analyse et leur exploration, notamment pour la détection des communautés. Plusieurs méthodes ont été proposées afin de détecter des composantes possédant des propriétés structurelles spécifiques en termes de graphe au détriment de l'aspect sémantique régissant les différents liens entres les entités du réseau. Dans cet article, nous présentons une nouvelle approche pour la détection de com- munautés dans les réseaux sociaux dont la principale originalité est...

Modèle Neuronal de Recherche d’Information Augmenté par une Ressource Sémantique.

Gia-Hung Nguyen, Lynda Tamine, Laure Soulier & Nathalie Bricon-Souf
RÉSUMÉ. De nombreux travaux en recherche d'information (RI) ont montré l'apport de la sémantique des mots pour améliorer l'appariement de document-requête. D'une part, la sémantique symbolique dérivée de ressources externes permet de représenter des entités et leurs relations explicites. D'autre part, la sémantique distributionnelle inférée des corpus permet de représenter les relations sémantiques implicites d'un corpus. Dans cet article, nous proposons de combiner ces deux types de représentations sémantiques. Ainsi, nous présentons un modèle neuronal...

Evaluation des performances d'un système de recherche d'information utilisant un algorithme de segmentation thématique de pages Web.

Idir Chibane & Bich-Liên Doan
RÉSUMÉ . Dans cet article, nous proposons une méthode de segmentation thématique de pages Web qui utilise à la fois des critères visuels et de format (balises HR, H1, couleur, ...) afin d'extraire des segments thématiques. Nous utilisons la segmentation pour améliorer les performances d'un système de recherche d'information. Nous proposons de modéliser une fonction de correspondance qui tienne compte à la fois du contenu d'une page Web et du voisinage de cette page définis...

Vers des méta-règles de contexte appréciées par la IIE pour la RI.

Belhaj Rhouma Sourour, Cherif Chiraz Latiri & Yahya Slimani
RÉSUMÉ. Le processus de Fouille de Textes (FT), basé sur l'extraction des règles d'association en utilisant un algorithme, génère une quantité importante de règles d'association. Dans cet article, ce sont des règles d'association non redondantes résultantes d'un processus d'extrac- tion à partir d'un corpus de textes. Nous proposons tout d'abord de montrer l'intérêt et l'utilité de règles d'association filtrées par une mesure de qualité autre que la confiance, en particulier l'Intensité d'Implication Entropique (IIE). D'autre...

On the use of tolerant graded inclusions in information retrieval.

Patrick Bosc & Olivier Pivert
RÉSUMÉ . Dans cet article, un modèle de recherche d'information fondé sur la théorie des ensembles flous est considéré. Tout d'abord, nous montrons que le mécanisme de recherche dans un tel modèle peut être défini en termes d'inclusion graduelle. Cette approche est fortement liée à la notion de division dans un contexte de bases de données relationnelles. Dans un deuxième temps, nous mettons en évidence plusieurs axes d'extension de l'inclusion graduelle, l'objectif étant de rendre...

Apprentissage d'inférences par édition d'arbres pour répondre à des questions.

Martin Gleize & Brigitte Grau
RÉSUMÉ. La sélection de réponse en recherche d'information précise met nécessairement en oeuvre un appariement de passages avec la question. Nous proposons un algorithme qui consiste à engendrer et apprendre les inférences utiles pour rapprocher les passages de texte à des couples (questions, réponse candidate). Ceux-ci sont sélectionnés au moyen d'une ex- pansion lexicale utilisant WordNet et des vecteurs de mots. Ils sont représentés par leur arbre de dépendances syntaxique, enrichi au moyen de plusieurs...

Registration Year

  • 2017
    544

Resource Types

  • Text
    544