Improving Corpus Annotation Quality Using Word Embedding Models

Novák,Attila

Improving Corpus Annotation Quality Using Word Embedding Models

Abstract Web-crawled corpora contain a significant amount of noise. Automatic corpus annotation tools introduce even more noise performing erroneous language identification or encoding detection, introducing tokenization and lemmatization errors and adding erroneous tags or analyses to the original words. Our goal with the methods presented in this article was to use word embedding models to reveal such errors and to provide correction procedures. The evaluation focuses on analyzing and validating noun compounds identifying bogus compound analyses, recognizing and concatenating fragmented words, detecting erroneously encoded text, restoring accents and handling the combination of these errors in a Hungarian web-crawled corpus.

Saved in:

Bibliographic Details
Main Author:	Novák,Attila
Format:	Digital revista
Language:	English
Published:	Instituto Politécnico Nacional, Centro de Innovación y Desarrollo Tecnológico en Cómputo 2016
Online Access:	http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1870-90442016000100049
Tags:	Add Tag No Tags, Be the first to tag this record!

Internet

http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1870-90442016000100049

Improving Corpus Annotation Quality Using Word Embedding Models

Internet

Similar Items

Resource Map