Identification des unités de mesure dans les textes scientifiques
Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.
Main Authors: | Berrahou, Soumia Lilia, Buche, Patrice, Dibie-Barthélemy, Juliette, Roche, Mathieu |
---|---|
Format: | conference_item biblioteca |
Language: | eng |
Published: |
2015
|
Subjects: | C30 - Documentation et information, U30 - Méthodes de recherche, 000 - Autres thèmes, |
Online Access: | http://agritrop.cirad.fr/576980/ http://agritrop.cirad.fr/576980/1/taln-2015-court-014.pdf |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Similar Items
-
Xart system: discovering and extracting correlated arguments of n-ary relations from text
by: Berrahou, Soumia Lilia, et al. -
Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine
by: Berrahou, Soumia Lilia -
How to combine text-mining methods to validate induced verb-object relations
by: Béchet, Nicolas, et al. -
Traitement automatique des données hétérogènes liées à l'aménagement des territoires
by: Roche, Mathieu, et al. -
La néographie dans un grand corpus de SMS français : 88milSMS
by: Roche, Mathieu, et al.