Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale

Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale.

Saved in:
Bibliographic Details
Main Author: Fize, Jacques
Format: thesis biblioteca
Language:fre
Published: Université de Montpellier
Subjects:U10 - Informatique, mathématiques et statistiques, C30 - Documentation et information, fouille de données, analyse de données, traitement des données, fouille de textes, http://aims.fao.org/aos/agrovoc/c_eb9cea5d, http://aims.fao.org/aos/agrovoc/c_15962, http://aims.fao.org/aos/agrovoc/c_10289, http://aims.fao.org/aos/agrovoc/c_dca12b72,
Online Access:http://agritrop.cirad.fr/595219/
http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf
Tags: Add Tag
No Tags, Be the first to tag this record!
id dig-cirad-fr-595219
record_format koha
institution CIRAD FR
collection DSpace
country Francia
countrycode FR
component Bibliográfico
access En linea
databasecode dig-cirad-fr
tag biblioteca
region Europa del Oeste
libraryname Biblioteca del CIRAD Francia
language fre
topic U10 - Informatique, mathématiques et statistiques
C30 - Documentation et information
fouille de données
analyse de données
traitement des données
fouille de textes
http://aims.fao.org/aos/agrovoc/c_eb9cea5d
http://aims.fao.org/aos/agrovoc/c_15962
http://aims.fao.org/aos/agrovoc/c_10289
http://aims.fao.org/aos/agrovoc/c_dca12b72
U10 - Informatique, mathématiques et statistiques
C30 - Documentation et information
fouille de données
analyse de données
traitement des données
fouille de textes
http://aims.fao.org/aos/agrovoc/c_eb9cea5d
http://aims.fao.org/aos/agrovoc/c_15962
http://aims.fao.org/aos/agrovoc/c_10289
http://aims.fao.org/aos/agrovoc/c_dca12b72
spellingShingle U10 - Informatique, mathématiques et statistiques
C30 - Documentation et information
fouille de données
analyse de données
traitement des données
fouille de textes
http://aims.fao.org/aos/agrovoc/c_eb9cea5d
http://aims.fao.org/aos/agrovoc/c_15962
http://aims.fao.org/aos/agrovoc/c_10289
http://aims.fao.org/aos/agrovoc/c_dca12b72
U10 - Informatique, mathématiques et statistiques
C30 - Documentation et information
fouille de données
analyse de données
traitement des données
fouille de textes
http://aims.fao.org/aos/agrovoc/c_eb9cea5d
http://aims.fao.org/aos/agrovoc/c_15962
http://aims.fao.org/aos/agrovoc/c_10289
http://aims.fao.org/aos/agrovoc/c_dca12b72
Fize, Jacques
Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
description Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale.
format thesis
topic_facet U10 - Informatique, mathématiques et statistiques
C30 - Documentation et information
fouille de données
analyse de données
traitement des données
fouille de textes
http://aims.fao.org/aos/agrovoc/c_eb9cea5d
http://aims.fao.org/aos/agrovoc/c_15962
http://aims.fao.org/aos/agrovoc/c_10289
http://aims.fao.org/aos/agrovoc/c_dca12b72
author Fize, Jacques
author_facet Fize, Jacques
author_sort Fize, Jacques
title Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_short Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_full Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_fullStr Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_full_unstemmed Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_sort mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
publisher Université de Montpellier
url http://agritrop.cirad.fr/595219/
http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf
work_keys_str_mv AT fizejacques miseencorrespondancededonneestextuellesheterogenesfondeesurladimensionspatiale
_version_ 1792499917642530816
spelling dig-cirad-fr-5952192024-01-29T02:39:10Z http://agritrop.cirad.fr/595219/ http://agritrop.cirad.fr/595219/ Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale. Fize Jacques. 2019. Montpellier : Université de Montpellier, 195 p. Thèse de doctorat : Informatique : Université de Montpellier Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale Fize, Jacques fre 2019 Université de Montpellier U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72 Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale. thesis info:eu-repo/semantics/doctoralThesis Thesis info:eu-repo/semantics/publishedVersion http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf text Cirad license info:eu-repo/semantics/restrictedAccess https://agritrop.cirad.fr/mention_legale.html info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/KH7YTO info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/JLXBLA info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/MWQQOQ info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/8LIG1D