Adaptation et combinaison d'approches bio-inspirées et de fouille de textes pour la sélection de descripteurs textuels

La similarité textuelle sémantique est considérée comme la pierre angulaire de la compréhension des textes et un élément important pour de nombreuses tâches de traitement du langage naturel. Son principe sur un ensemble de données textuelles est d'identifier l'existence d'une similarité sémantique ou d'évaluer le degré de similarité entre eux, ces données textuelles générées à partir de différentes sources sont des exemples de données non structurées. Les données non structurées ne s'intègrent pas parfaitement dans la structure traditionnelle des bases de données relationnelles, elles sont compliquées et difficiles à manipuler et nécessitent une étape de préparation, cette préparation permet de générer des meilleurs descripteurs textuels, qu'ils nous conduisent à un traitement efficace. L'objectif de cette thèse est de présenter un état de l'art sur les méthodes des trois phases de préparation des données : Le pré-traitement, la représentation vectorielle et la sélection des caractéristiques, en analysant leur impact sur la tâche de l'évaluation de similarité sémantiques entre entités textuelles, dans le même but, des approches bio-inspirées efficaces, simples et robustes ont été proposé. Dans le cadre de cette thèse, nous proposons différentes contributions. La première contribution est une approche fondée sur l'extraction de descripteurs linguistiques issus d'un texte et des termes propres à un thésaurus en appliquant une pondération sémantique spécifique. La deuxième contribution est une approche non-supervisée basée sur une combinaison d'approches bio-inspirées et de fouille de textes pour une recherche efficace des sous-ensembles optimales des caractéristiques des documents texte, la contribution de cette approche se réside dans l'adaptation d'un algorithme génétique inspiré du quantique. La troisième contribution représente une version supervisée de l'approche bio-inspirée déjà proposée, tout en examinant l'impact des techniques de pré-traitement largement utilisées sur la tâche de similarité sémantique. On termine par l'intégration des techniques de plongement de documents comme méthodes de représentation des données, tout en évaluant l'impact de pré-traitement sur ces méthodes. Une comparaison empirique est réalisée, en prenant la similarité sémantique comme étude de cas. Ces propositions ont été expérimentées sur des données constituées des sources différentes et des datasets standards. Les résultats obtenus ont prouvé l'efficacité des méthodes proposées.

Saved in:
Bibliographic Details
Main Author: Yahi, Nourelhouda
Format: thesis biblioteca
Language:fre
Published: Université Abdelhamid Mehri Constantine 2
Subjects:C30 - Documentation et information, fouille de textes, analyse de données, traitement de l'information, classification (information), indexation d'information, taxonomie (gestion de l'information), http://aims.fao.org/aos/agrovoc/c_dca12b72, http://aims.fao.org/aos/agrovoc/c_15962, http://aims.fao.org/aos/agrovoc/c_3862, http://aims.fao.org/aos/agrovoc/c_11767, http://aims.fao.org/aos/agrovoc/c_11729, http://aims.fao.org/aos/agrovoc/c_49906,
Online Access:http://agritrop.cirad.fr/599515/
http://agritrop.cirad.fr/599515/1/Yahi_final_submitted_thesis.pdf
Tags: Add Tag
No Tags, Be the first to tag this record!