Evaluación automática de la calidad del habla artificial

El español es la principal lengua del continente americano y la cuarta más hablada en el mundo, además de la segunda con más hablantes nativos. Aún así, existen pocos sistemas con voces artificiales que soportan variantes locales, con sus diferencias fonéticas y de entonación, entre otras, como el español de Argentina. El desarrollo de un sistema de conversión de texto a habla (TTS) necesita de buenas bases de datos, y que estén procesadas y etiquetadas adecuadamente, lo que requiere trabajo intensivo de recursos humanos, en muchos casos, con tareas manuales. Así, luego de que se completó el desarrollo de una voz artificial se tiene que probar que su calidad es adecuada para las necesidades de sus futuros usuarios. Normalmente, se siguen varias iteraciones de evaluación y mejora de un sistema, de acuerdo al tiempo y los recursos disponibles. Este proceso suele ser largo, entre otras cosas, por el tiempo que toma la realización de las evaluaciones perceptuales con humanos. En una evaluación subjetiva del habla una persona emite juicios sobre distintas elocuciones, tanto artificiales como naturales, y expresa directa o indirectamente, cuán aceptables y agradables le son, además de realizar otras evaluaciones sobre las mismas, como, por ejemplo, qué bien articuladas están o si tienen algún tipo de defecto sonoro. Uno de los objetivos de estas evaluaciones es determinar qué características del habla se asocian con buenos puntajes de los evaluadores, de forma de identificar atributos del habla que permitirían la evaluación automática de los sistemas, 'copiando' los criterios humanos. Las pruebas clásicas para la evaluación perceptual de voces artificiales no evalúan completamente la experiencia del usuario, ya que no consideran totalmente el contexto en el cual se realizan las pruebas, y sólo se analizan en un contexto de laboratorio. Esto se plantea como el dilema principal de la evaluación de la calidad del habla. Este trabajo buscó diseñar métodos de evaluación automática de la calidad del habla artificial generada a través de Sistemas TTS para el español de Buenos Aires. Los métodos incluyen nuevas métricas y otras ya existentes, y tienen como base las características de la percepción humana de la voz, así como el procesamiento automático de los parámetros acústicos de la señal de habla.

Saved in:
Bibliographic Details
Main Author: Cossio Mercado, Christian Gustavo
Other Authors: Gurlekian, Jorge Alberto
Format: info:eu-repo/semantics/doctoralThesis biblioteca
Language:spa
Published: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Subjects:VOCES ARTIFICIALES, PROCESAMIENTO AUTOMATICO DEL HABLA, SISTEMAS DE CONVERSION DE TEXTO A HABLA, EVALUACION DE CALIDAD DE LA VOZ, PERCEPCION DEL HABLA, ARTIFICIAL VOICES, AUTOMATIC SPEECH PROCESSING, TEXT-TO-SPEECH SYSTEMS, VOICE QUALITY EVALUATION, SPEECH PERCEPTION,
Online Access:https://hdl.handle.net/20.500.12110/tesis_n7361_CossioMercado
http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7361_CossioMercado_oai
Tags: Add Tag
No Tags, Be the first to tag this record!