Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Zenasni, Sarah; Kergosien, Eric; Roche, Mathieu; Teisseire, Maguelonne

Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse de l'information spatiale s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d'abréviations, variation par rapport à l'écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.

Saved in:

Bibliographic Details
Main Authors:	Zenasni, Sarah, Kergosien, Eric, Roche, Mathieu, Teisseire, Maguelonne
Format:	conference_item biblioteca
Language:	fre
Published:	AFCP
Subjects:	C30 - Documentation et information, 000 - Autres thèmes, U10 - Informatique, mathématiques et statistiques, U30 - Méthodes de recherche,
Online Access:	http://agritrop.cirad.fr/581011/ http://agritrop.cirad.fr/581011/1/Zenasni_TALN2016.pdf
Tags:	Add Tag No Tags, Be the first to tag this record!

Description
Summary:	Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse de l'information spatiale s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d'abréviations, variation par rapport à l'écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.

Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS

Similar Items

Resource Map