Instanciation de relations n-Aires dans des articles scientifiques guidée par une Ressource Termino-Ontologique de domaine

Cette thèse s'inscrit dans le domaine de recherche des smart data, où nous recherchons des informations spécifiques au sein de documents textuels. Elle consiste à proposer de nouvelles méthodes de représentation et d'extraction de données expérimentales à partir d'articles scientifiques. Ces méthodes ont été évaluées sur un corpus d'articles dans le domaine des emballages alimentaires. Les données expérimentales peuvent être représentées sous forme de relations n-Aires composées d'arguments symboliques et quantitatifs. Ces derniers sont constitués d'une valeur numérique et d'une unité de mesure. L'objectif de cette thèse est de peupler une base de connaissances d'instances de relations N-Aires extraites de documents scientifiques textuels. L'approche proposée s'appuie sur une Ressource Termino-Ontologique (RTO) et se décompose en deux Phases : (1) la reconnaissance et l'extraction des instances d'arguments d'intérêt et (2) la mise en relation de ces instances dans des relations n-Aires. La Phase (1) propose une représentation originale des instances d'arguments extraites, appelée SciPuRe (Scientifique Publication Representation). Celle-ci intègre des descripteurs ontologiques, lexicaux et structurels qui décrivent le contexte d'apparition des instances d'arguments et permet de les trier selon leurs pertinences. La Phase (2) s'appuie sur les informations présentes dans les tableaux des documents, extraits automatiquement, pour guider l'extraction des relations n-Aires à partir de relations partielles, les tableaux contenant une part importante des données expérimentales dans les articles scientifiques. Ces relations partielles sont ensuite complétées par les instances d'arguments reconnues lors de la Phase (1). Trois approches sont proposées et évaluées afin d'identifier les instances d'arguments qui doivent compléter les relations : l'utilisation de la structure des documents, l'analyse des cooccurrences entre les instances d'arguments dans les textes, et enfin l'utilisation de modèles de word-embedding permettant de mesurer les similarités entre les instances d'arguments candidates et les arguments déjà renseignés dans les relations partielles. Nos résultats montrent l'importance du tri des instances pertinentes à l'issue de la reconnaissance des arguments lors de la Phase (1) en s'appuyant sur les descripteurs SciPuRe. Nos expérimentations montrent que les deux critères les plus importants pour déterminer la pertinence d'une instance d'argument symbolique sont la spécificité du concept associé à l'argument dans la RTO et sa fréquence dans le document. Pour les arguments quantitatifs, c'est l'appartenance de l'instance d'argument à des sections des documents qui permet de déterminer sa pertinence. Nos expérimentations sur la Phase (2) confirment l'utilité des scores de pertinence calculés lors de la Phase (1) pour discriminer les instances. L'analyse des résultats avec différents filtrages des instances d'arguments candidates selon leurs pertinences montre un net effet positif lors du filtrage de 20% des instances avec les pertinences les plus faibles. Nous avons également expérimenté la possibilité de sélectionner plusieurs candidats pour chaque instance d'argument manquante dans une relation partielle, dans une approche d'assistance aux experts du domaine qui peuvent ensuite déterminer l'instance valide. Lors de la sélection d'un seul candidat, l'approche fondée sur les analyses des cooccurrences donne les meilleurs résultats pour détecter l'instance d'argument candidate valide. Avec une sélection plus importante, de trois ou cinq candidats, l'analyse des similarités sémantiques permise par des modèles BERT de plongement lexicaux fournit de bons résultats pour la détection d'associations entre les instances d'arguments présentes dans les relations partielles et les instances d'argument candidates à la complétion des relations. Enfin, lors de la sélection de dix candidats, les expérimentations montrent que l'approche fondée sur la structure des documents est efficace pour compléter les relations n-Aires.

Saved in:
Bibliographic Details
Main Author: Lentschat, Martin
Format: thesis biblioteca
Language:fre
Published: Université de Montpellier
Subjects:C30 - Documentation et information, U10 - Informatique, mathématiques et statistiques, données expérimentales, terminologie, ontologie de domaine, fouille de textes, fouille de données, système de relations, http://aims.fao.org/aos/agrovoc/c_da96111c, http://aims.fao.org/aos/agrovoc/c_24907, http://aims.fao.org/aos/agrovoc/c_49849, http://aims.fao.org/aos/agrovoc/c_dca12b72, http://aims.fao.org/aos/agrovoc/c_eb9cea5d, http://aims.fao.org/aos/agrovoc/c_49840,
Online Access:http://agritrop.cirad.fr/600682/
http://agritrop.cirad.fr/600682/1/ID600682.pdf
Tags: Add Tag
No Tags, Be the first to tag this record!