Mise en correspondance de données textuelles hétérogènes à partir d'informations sémantiques

Dans cet article, nous présentons une approche pour mesurer la similarité sémantique entre des textes hétérogènes et de qualité différente provenant de différentes sources Web. Notre approche commence par extraire le contenu des textes par deux méthodes : (i) utilisation d'un système d'extraction que nous avons implanté et qui identifie tous les mots contenus dans un texte donné, (ii) utilisation d'un thésaurus multilingue (AGROVOC). Ensuite, nous combinons les résultats des deux approches afin de mesurer la similarité entre les représentations textuelles des documents. Afin d'évaluer les résultats, nous nous appuyons sur deux ensembles de données hétérogènes issus du Web (tweets et articles scientifiques).

Saved in:
Bibliographic Details
Main Authors: Yahi, Nourelhouda, Belhadef, Hacene, Roche, Mathieu
Format: conference_item biblioteca
Language:fre
Published: Université de Reims Champagne-Ardenne
Subjects:C30 - Documentation et information, U10 - Informatique, mathématiques et statistiques, U30 - Méthodes de recherche,
Online Access:http://agritrop.cirad.fr/579656/
http://agritrop.cirad.fr/579656/1/article_QLOD_workshopEGC16.pdf
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Dans cet article, nous présentons une approche pour mesurer la similarité sémantique entre des textes hétérogènes et de qualité différente provenant de différentes sources Web. Notre approche commence par extraire le contenu des textes par deux méthodes : (i) utilisation d'un système d'extraction que nous avons implanté et qui identifie tous les mots contenus dans un texte donné, (ii) utilisation d'un thésaurus multilingue (AGROVOC). Ensuite, nous combinons les résultats des deux approches afin de mesurer la similarité entre les représentations textuelles des documents. Afin d'évaluer les résultats, nous nous appuyons sur deux ensembles de données hétérogènes issus du Web (tweets et articles scientifiques).