Mise en correspondance de données textuelles hétérogènes à partir d'informations sémantiques
Dans cet article, nous présentons une approche pour mesurer la similarité sémantique entre des textes hétérogènes et de qualité différente provenant de différentes sources Web. Notre approche commence par extraire le contenu des textes par deux méthodes : (i) utilisation d'un système d'extraction que nous avons implanté et qui identifie tous les mots contenus dans un texte donné, (ii) utilisation d'un thésaurus multilingue (AGROVOC). Ensuite, nous combinons les résultats des deux approches afin de mesurer la similarité entre les représentations textuelles des documents. Afin d'évaluer les résultats, nous nous appuyons sur deux ensembles de données hétérogènes issus du Web (tweets et articles scientifiques).
Main Authors: | , , |
---|---|
Format: | conference_item biblioteca |
Language: | fre |
Published: |
Université de Reims Champagne-Ardenne
|
Subjects: | C30 - Documentation et information, U10 - Informatique, mathématiques et statistiques, U30 - Méthodes de recherche, |
Online Access: | http://agritrop.cirad.fr/579656/ http://agritrop.cirad.fr/579656/1/article_QLOD_workshopEGC16.pdf |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Dans cet article, nous présentons une approche pour mesurer la similarité sémantique entre des textes hétérogènes et de qualité différente provenant de différentes sources Web. Notre approche commence par extraire le contenu des textes par deux méthodes : (i) utilisation d'un système d'extraction que nous avons implanté et qui identifie tous les mots contenus dans un texte donné, (ii) utilisation d'un thésaurus multilingue (AGROVOC). Ensuite, nous combinons les résultats des deux approches afin de mesurer la similarité entre les représentations textuelles des documents. Afin d'évaluer les résultats, nous nous appuyons sur deux ensembles de données hétérogènes issus du Web (tweets et articles scientifiques). |
---|