598 Works

Apprentissage de représentation pour la détection de source dans les réseaux sociaux.

Simon Bourigault, Sylvain Lamprier & Patrick Gallinari
RÉSUMÉ. Récemment, divers travaux se sont interessés à la détection de source de diffusion dans les réseaux sociaux : il s'agit de déterminer l'utilisateur à partir duquel une information propagée a initiallement été émise. Dans cet article, nous proposons une nouvelle méthode pour la détection de source de diffusion, basée sur des techniques d'apprentissage de représentation. Plutôt que de s'appuyer sur un modèle de diffusion appris a priori pour estimer la source des diffusions observées,...

Segmentation de flux de documents. Application aux documents administratifs.

Haner Daher, Abdel Belaïd & Vincent Poulain D'Andecy
RÉSUMÉ . Cet article propose une approche de segmentation supervisée de flux de documents. L'approche traite le flux de documents comme une suite de paires de pages et étudie la relation qui existe entre elles pour déceler une continuité de documents ou une rupture. Dans un premier temps, des descripteurs sont extraits des pages et une approche est proposée pour fusionner ces descripteurs en un seul vecteur qui modélise la relation entre les paires de...

Vers un modèle de langue mixte concepts-mots pour la recherche d'information.

Lynda Said L'Hadj, Mohand Boughanem & Karima Amrouche
RÉSUMÉ. La majorité des modèles de langue appliqués à la recherche d'information repose sur l'hypothèse d'indépendance des mots apparaissant dans les documents et les requêtes. Plus précisément, ces modèles sont estimés à partir des mots simples sans considérer les éventuelles relations sémantiques et conceptuelles. Pour pallier ce problème, deux grandes approches ont été explorées : la première intègre des dépendances d'ordre surfacique entre les mots (bi-grammes, bi-termes), et la seconde repose sur l'utilisation des ressources...

RI dans les microblogs : que manque-t-il aux approches classiques ?

Firas Damak
RÉSUMÉ. Nous nous intéressons dans cet article à la recherche d'information dans les microblogs. Les modèles de RI classiques, conçus pour des textes plus longs que les 140 caractères d'un microblog, ne sont pas forcément adaptés pour ces derniers. Une analyse de leurs résultats nous a permis d'identifier la différence de vocabulaire entre les microblogs et la requête comme étant la raison principale de leur manque de performance. Pour améliorer la qualité de la recherche,...

Reclassement sémantique pour l'indexation de documents multimédia.

Abdelkader Hamadi
RÉSUMÉ. Cet article décrit une nouvelle approche pour indexer des documents multimédia (vidéo avec son) par des concepts visuels. En plus des informations relatives au concept cible, l'idée développée propose d'intégrer la détection d'un ensemble d'autres concepts. L'avantage escompté par une telle combinaison est d'améliorer la performance d'un système d'indexa- tion profitant des relations entre les concepts. Des expérimentations sur le corpus TRECVID 2012 sont présentées et commentées. Notre méthode a permis d'améliorer significativement les...

Annotation collective dans le contexte RI : définition d'une plate-forme pour expérimenter la validation sociale.

Guillaume Cabanac
RÉSUMÉ. Avec l'avènement du Web participatif, les lecteurs de documents électroniques sont de plus en plus actifs. En particulier, des systèmes d'annotation leur permettent de commen- ter, de reformuler, de critiquer, etc. des passages de documents. Les approches de RI qui ne considéraient jusqu'alors que le contenu des documents tendent actuellement à exploiter cette dimension participative du Web. L'activité des lecteurs (annotations et débats suscités) peut par exemple améliorer rappel et précision des résultats de...

Apprentissage de représentations probabilistes pour la prédiction de diffusions d'informations sur les réseaux sociaux.

Simon Bourigault, Sylvain Lamprier & Patrick Gallinari
RÉSUMÉ. La problématique du clustering non supervisé et semi-supervisé est très étudiée dans le domaine de l'apprentissage automatique. En vue d'impliquer l'utilisateur dans le clustering d'images, (Lai et al., 2014) a proposé un nouveau modèle de clustering semi-supervisé inter- actif traduisant les retours de l'utilisateur (exprimés au niveau des images) en contraintes par paires (must-link et cannot-link) entre groupes d'images constitués à l'aide d'une solution de clustering hiérarchique et de ces retours. Ces dernières années,...

Recherche d'information et analyse bibliographique appliquées à la mise à jour automatique de Swiss-Prot.

Imad Tbahriti, Anne-Lise Veuthey, Patrick Ruch & Julien Gobeill
RÉSUMÉ .But : Le but de cette étude est de découvrir de nouveaux articles scientifiques utiles pour la mise à jour de l'information dans la base de données de biologie moléculaire UniProtKB/Swiss-Prot. Notre hypothèse de base est qu'un article qui cite un autre article déjà référencé dans une entrée Swiss-Prot pour une protéine donnée est un bon candidat pour mettre à jour l'information de l'entrée de cette protéine dans la base. Méthodes : La procédure...

Using Association Rules between Terms and Nominal Syntagms for Tweet Contextualization.

Meriem Amina Zingla
RÉSUMÉ. Le but de la tâche de contextualisation des tweets organisée par INEX est de fournir, automatiquement, un résumé qui explique un tweet donné. Cet article présente une nouvelle approche de contextualisation des tweets basée sur les règles d'association entre syntagmes, et entre termes. Cette approche permet d'enrichir le vocabulaire de tweets par un ensemble de mots thématiquement proches. L'approche proposée est validée par une étude expérimentale sur la collection INEX 2013.

Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres.

François Paradis & Jian-Yun Nie
RÉSUMÉ : Dans cet article nous évaluons diverses approches pour filtrer le contenu u procédural » d'un document, et mesurons leur impact sur la classification d'une collection d'appels d'offres. Deux types d'approches sont testées : la sélection de termes à partir d'un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la...

Combining Subword information and Language model for Information Retrieval

Jibril Frej, Philippe Mulhem, Didier Schwab & Jean-Pierre Chevallet
RÉSUMÉ. En recherche d'information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l'on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récemment, elles ont été utilisées pour calculer les probabilités...

Extraction des connaissances à partir du Web pour la recherche des images géoréférencées.

Houda Bouamor
RESUME. Les bases de données géoréférencées connaissent un rôle croissant dans une grande variété de domaines d'application. La création manuelle de ces bases de données est cependant une opération coûteuse. Cela a suscuté un intérêt pour l'automatisation de leur construction, par exemple, par l'exploitation des informations géographiques présentes sur le Web. Dans ce travail, nous présentons une nouvelle approche automatique pour la construction d'une base de données géoréférencées multilingues et à large échelle en se...

Définition d'un profil multidimensionnel de l'utilisateur : Vers une technique basée sur l'interaction entre dimensions.

Lynda Tamine-Lechani & Wahiba Bahsoun
RÉSUMÉ. La personnalisation d'un processus d'accès à l'information a pour objectif de délivrer à l'utilisateur une information appropriée à ses préférences, ses centres d'intérêts ou plus globalement son profil. Ce papier présente une technique de construction du profil de l'uti- lisateur qui s'inscrit dans une approche statistique utilisant le comportement de l'utilisateur comme source permettant de prédire implicitement son modèle. Cette technique s'articule plus particulièrement sur l'interaction entre dimensions du profil représentées par l'historique des...

Classification de Sentiments Multi-Domaines et Passage à l'Echelle.

Abdelhalim Rafrafi, Vincent Guigue & Patrick Gallinari
RÉSUMÉ. La classification de sentiments multi-domaines est un problème complexe: en effet, les distributions de caractéristiques sont alors différentes dans les ensembles d'apprentissage et de test. Différentes propositions permettent de limiter la baisse de performance inhérente à ce cadre. Cependant, la classification de sentiments est une tâche particulière car le web participatif nous donne accès à une quasi-infinité de données étiquetées. Cela soulève de nou- velles questions: à partir de quel volume de données les...

SnapToTell Accès ubiquitaire à de l'information multimédia à partir d'un téléphone portable.

Jean-Pierre Chevallet & Joo-Hwee Lim
RÉSUMÉ. Avec la prolifération des téléphones portables munis d'appareils photo, beaucoup de nouvelles applications et services vont émerger : nous présentons le système SnapToTell, qui permet de fournir de l'information à partir de requêtes images prises d'un téléphone portable. Nous présentons également des résultats expérimentaux sur l'identification de scènes, basés sur une collection test d'images originales et réalistes de scènes à Singapour.

« Hé Manu, tu descends ? » : identification nommée du locuteur dans les dialogues

Léo Galmant, Hervé Bredin, Camille Guinaudeau & Anne-Laure Ligozat
RÉSUMÉ. L'identification du locuteur est la tâche qui consiste à associer un locuteur à chaque tour de parole d'un dialogue, utilisée notamment pour enrichir les corpus de transcriptions automatiques.Le traitement de la tâche peut totalement différer selon le média : vidéo (films, séries, etc.), audio (séries, radio, etc.) ou textuel (scripts, transcriptions, etc.). Dans cet article, nous proposons une méthode d'identification du locuteur à partir des scripts et transcriptions de séries. Dans un dialogue de...

Une méthode contextuelle d'extension de requête avec des groupements de mots pour le résumé automatique.

Jean-François Pessiot, Young-Min Kim, Massih-Reza Amini, Nicolas Usunier & Patrick Gallinari
RÉSUMÉ. Dans cet article nous décrivons les différentes étapes de construction du système de résumé extractif du LIP6 utilisé lors de la compétition Document Understanding Conferences (DUC2007). Ce système repose sur un module d’extension des mots de la question et du titre de chacun des sujets par des concepts de mots trouvés automatiquement avec un algorithme d’apprentissage non-supervisé. Cet algorithme est une version classifiante de l’algorithme EM. Chaque phrase des documents de la collection est...

Propositions pour la pondération des termes et l'évaluation de la pertinence des éléments en recherche d'information structurée.

Karen Sauvagnat & Mohand Boughanem
RÉSUMÉ. La recherche d'information dans des corpus de documents structurés doit faire face à de nombreuses problématiques. L'une d'elles concerne l'évaluation de la pertinence des élé- ments : le but est de renvoyer à l'utilisateur une liste triée de résultats. Cette évaluation repose sur la pondération des termes d'indexation utilisée ainsi que sur le modèle suivi pour la mise en correspondance de la requête et des éléments. Dans cet article, nous nous proposons d'explorer diverses...

Personnalisation de l'information: aperçu de l'état de l'art et définition d'un modèle flexible de profils.

Mokrane Bouzeghoub & Dimitre Kostadinov
Le but de la personnalisation est de faciliter l'expression du besoin de l'utilisateur et de lui permettre d'obtenir des informations pertinentes lors de ses accès à un système d'information. La pertinence de l'information se définit par un ensemble de critères et de préférences personnalisables spécifiques à chaque utilisateur ou communauté d'utilisateurs. Les données décrivant les utilisateurs sont souvent regroupées sous forme de profils. Le contenu du profil d'un utilisateur varie selon les approches et les...

Similarité textuelle pour l’association de documents journalistiques

Delphine Charlet & Géraldine Damnati
RÉSUMÉ. Cet article étudie l'association de documents journalistiques issus de la presse en ligne et de journaux télévisés, en utilisant des similarités sémantiques textuelles. Les associations de documents sont étudiées dans des configurations intramedia et intermedia. Les expériences menées montrent que les métriques de similarité sémantique qui s'avéraient efficaces dans le contexte de similarité entre questions posées sur un forum sont également efficaces pour l'association de documents, quelle que soit la configuration d'association média. L'influence...

Un modèle de RI basé sur des critères d'obligation et de certitude.

Leïla Kefi, Catherine Berrut & Éric Gaussier
RÉSUMÉ Il existe un grand nombre de modèles de recherche d'information chacun ayant pour but de répondre au mieux aux attentes des utilisateurs. Le modèle que nous proposons se base sur une formulation précise de la requête reflétant le besoin de l'utilisateur : Chaque terme de la requête est augmenté par deux critères, l'un exprimant l'obligation ou non de l'apparition du terme dans les documents et l'autre exprimant la certitude de l'utilisateur quand au terme...

Suggestion contextuelle composite.

Thibaut Thonet, Romain Deveaud, Iadh Ounis & Craig Macdonald
RÉSUMÉ. La suggestion contextuelle consiste à recommander à un utilisateur un ensemble de lieux d'activités adaptés à ses préférences et à son contexte. La plupart des approches existantes considèrent uniquement ces deux caractéristiques pour constituer leur liste de suggestions. Ce- pendant, les recherches en systèmes de recommandation ont récemment souligné l'importance de la diversité des suggestions. Cet article présente un modèle novateur de suggestion contex- tuelle inspiré de la recherche composite qui consiste à regrouper...

Registration Year

  • 2017
    544
  • 2018
    31
  • 2019
    23

Resource Types

  • Text
    598