Normalización de texto en español de Argentina

Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.

Saved in:
Bibliographic Details
Main Author: Bracco, Alan Gabriel
Other Authors: Luque, Franco Martín, dir.
Format: bachelorThesis biblioteca
Language:spa
Published: 2018
Subjects:Procesamiento de lenguaje natural, Inteligencia artificial, Natural language processing, Artificial intelligence, Machine translation, Normalización de texto, Recursos lingüísticos, Redes sociales, Texto ruidoso, Twitter, Text normalization, Linguistic resources, Argentine spanish, Noisy text, Social networks,
Online Access:http://hdl.handle.net/11086/11707
Tags: Add Tag
No Tags, Be the first to tag this record!
id dig-unc-ar-11086-11707
record_format koha
spelling dig-unc-ar-11086-117072022-10-13T11:32:44Z Normalización de texto en español de Argentina Bracco, Alan Gabriel Luque, Franco Martín, dir. Procesamiento de lenguaje natural Inteligencia artificial Natural language processing Artificial intelligence Machine translation Normalización de texto Recursos lingüísticos Redes sociales Texto ruidoso Twitter Text normalization Linguistic resources Argentine spanish Noisy text Social networks Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018. En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son más, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en español de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores típicos de normalización. Luego, definimos criterios claros y explícitos de corrección y los utilizamos para proceder a la anotación manual del corpus. Además, presentamos un sistema de normalización de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos léxicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno. Nowadays, the amount of data consumed and generated by only one person is enormous. Data amount keeps growing because anyone can generate it. This brings along an increment of noisy data. That is why social network text is noisy, which is a problem when it is needed to work on it. Here, we built a corpus of tweets in argentinian spanish. We collected a big set of tweets and we selected them manually to obtain a representative sample of common normalization errors. Then, we defined explicit and clear correction criteria and we used it to continue with the manual corpus annotation. Besides, we present a text normalization system that works on tweets. Given a set of tweets as input, the system detects and corrects words that need to be standardized. To do that, it uses a group of components as lexical resources, rule-based systems and language models. Finally, we made some experiments with different corpus, among them, the one we built, and different system configurations to understand each one’s advantages and disadvantages. 2019-07-23T14:16:35Z 2019-07-23T14:16:35Z 2018 bachelorThesis http://hdl.handle.net/11086/11707 spa Atribución-NoComercial-CompartirIgual 4.0 Internacional http://creativecommons.org/licenses/by-nc-sa/4.0/
institution UNC AR
collection DSpace
country Argentina
countrycode AR
component Bibliográfico
access En linea
databasecode dig-unc-ar
tag biblioteca
region America del Sur
libraryname Biblioteca 'Ing. Agrónomo Moisés Farber' de la Facultad de Ciencias Agropecuarias
language spa
topic Procesamiento de lenguaje natural
Inteligencia artificial
Natural language processing
Artificial intelligence
Machine translation
Normalización de texto
Recursos lingüísticos
Redes sociales
Texto ruidoso
Twitter
Text normalization
Linguistic resources
Argentine spanish
Noisy text
Social networks
Procesamiento de lenguaje natural
Inteligencia artificial
Natural language processing
Artificial intelligence
Machine translation
Normalización de texto
Recursos lingüísticos
Redes sociales
Texto ruidoso
Twitter
Text normalization
Linguistic resources
Argentine spanish
Noisy text
Social networks
spellingShingle Procesamiento de lenguaje natural
Inteligencia artificial
Natural language processing
Artificial intelligence
Machine translation
Normalización de texto
Recursos lingüísticos
Redes sociales
Texto ruidoso
Twitter
Text normalization
Linguistic resources
Argentine spanish
Noisy text
Social networks
Procesamiento de lenguaje natural
Inteligencia artificial
Natural language processing
Artificial intelligence
Machine translation
Normalización de texto
Recursos lingüísticos
Redes sociales
Texto ruidoso
Twitter
Text normalization
Linguistic resources
Argentine spanish
Noisy text
Social networks
Bracco, Alan Gabriel
Normalización de texto en español de Argentina
description Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.
author2 Luque, Franco Martín, dir.
author_facet Luque, Franco Martín, dir.
Bracco, Alan Gabriel
format bachelorThesis
topic_facet Procesamiento de lenguaje natural
Inteligencia artificial
Natural language processing
Artificial intelligence
Machine translation
Normalización de texto
Recursos lingüísticos
Redes sociales
Texto ruidoso
Twitter
Text normalization
Linguistic resources
Argentine spanish
Noisy text
Social networks
author Bracco, Alan Gabriel
author_sort Bracco, Alan Gabriel
title Normalización de texto en español de Argentina
title_short Normalización de texto en español de Argentina
title_full Normalización de texto en español de Argentina
title_fullStr Normalización de texto en español de Argentina
title_full_unstemmed Normalización de texto en español de Argentina
title_sort normalización de texto en español de argentina
publishDate 2018
url http://hdl.handle.net/11086/11707
work_keys_str_mv AT braccoalangabriel normalizaciondetextoenespanoldeargentina
_version_ 1756009508270768128