Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale

Fize, Jacques

Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale

Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale.

Saved in:

Bibliographic Details
Main Author:	Fize, Jacques
Format:	thesis biblioteca
Language:	fre
Published:	Université de Montpellier
Subjects:	U10 - Informatique, mathématiques et statistiques, C30 - Documentation et information, fouille de données, analyse de données, traitement des données, fouille de textes, http://aims.fao.org/aos/agrovoc/c_eb9cea5d, http://aims.fao.org/aos/agrovoc/c_15962, http://aims.fao.org/aos/agrovoc/c_10289, http://aims.fao.org/aos/agrovoc/c_dca12b72,
Online Access:	http://agritrop.cirad.fr/595219/ http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf
Tags:	Add Tag No Tags, Be the first to tag this record!

id	dig-cirad-fr-595219
record_format	koha
institution	CIRAD FR
collection	DSpace
country	Francia
countrycode	FR
component	Bibliográfico
access	En linea
databasecode	dig-cirad-fr
tag	biblioteca
region	Europa del Oeste
libraryname	Biblioteca del CIRAD Francia
language	fre
topic	U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72 U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72
spellingShingle	U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72 U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72 Fize, Jacques Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
description	Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale.
format	thesis
topic_facet	U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72
author	Fize, Jacques
author_facet	Fize, Jacques
author_sort	Fize, Jacques
title	Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_short	Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_full	Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_fullStr	Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_full_unstemmed	Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
title_sort	mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale
publisher	Université de Montpellier
url	http://agritrop.cirad.fr/595219/ http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf
work_keys_str_mv	AT fizejacques miseencorrespondancededonneestextuellesheterogenesfondeesurladimensionspatiale
_version_	1792499917642530816
spelling	dig-cirad-fr-5952192024-01-29T02:39:10Z http://agritrop.cirad.fr/595219/ http://agritrop.cirad.fr/595219/ Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale. Fize Jacques. 2019. Montpellier : Université de Montpellier, 195 p. Thèse de doctorat : Informatique : Université de Montpellier Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale Fize, Jacques fre 2019 Université de Montpellier U10 - Informatique, mathématiques et statistiques C30 - Documentation et information fouille de données analyse de données traitement des données fouille de textes http://aims.fao.org/aos/agrovoc/c_eb9cea5d http://aims.fao.org/aos/agrovoc/c_15962 http://aims.fao.org/aos/agrovoc/c_10289 http://aims.fao.org/aos/agrovoc/c_dca12b72 Avec l'essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel " or noir ". Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimension spatiale. La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la georepresentation et le geomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le geomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents. La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale. thesis info:eu-repo/semantics/doctoralThesis Thesis info:eu-repo/semantics/publishedVersion http://agritrop.cirad.fr/595219/1/these_fize_2016_2019.pdf text Cirad license info:eu-repo/semantics/restrictedAccess https://agritrop.cirad.fr/mention_legale.html info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/KH7YTO info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/JLXBLA info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/MWQQOQ info:eu-repo/semantics/reference/purl/https://doi.org/10.18167/DVN1/8LIG1D

Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale

Similar Items

Resource Map