Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom

Conocer la cantidad de habla que perciben bebés bilingües en cada idioma es fundamental para diseñar programas educativos que contemplen las características lingüísticas propias de este tipo de entornos y promover así mejores posibilidades de aprendizaje. Precisamente, en este trabajo obtengo una medición estimada de la cantidad de habla en qom y español en el entorno del hogar de 8 bebés que viven en contextos rurales indígenas qom a partir del desarrollo de un sistema de identificación de idioma (LID, spoken Language IDentification). Dicho sistema es entrenado con un conjunto de grabaciones en entornos naturales en comunidades rurales qom en Argentina. Este estudio se centra en tres ejes principales: el primero es la descripción de una heurística para codificar los datos de entrenamiento de manera eficiente, el segundo es una comparación de modelos usando técnicas de aprendizaje por transferencia (transfer learning) y el tercero es la cantidad de horas de habla en cada lengua para las 8 familias participantes en este experimento. La arquitectura estudiada es wav2vec 2.0 y se utilizan modelos pre-entrenados a los que se realiza ajuste fino (fine tuning). Los modelos son evaluados en su eficacia y capacidad de generalización. Para esto se presentan los resultados al evaluar los mismos con datos fuera de dominio y del mismo dominio. Para el primer caso se consiguió un EER de 0,37, un 21 % mejor que el modelo base. Para el segundo caso el EER es de 0,23, un 8 % mejor que el modelo base. La conclusión es que los modelos wav2vec 2.0 obtienen una eficacia superior y una muy marcada ventaja en capacidad de generalización pero no son tan robustos a la variabilidad de canal y necesitan ajuste fino. Por último, de las familias participantes se extrajeron 61 horas de habla de las cuales 46.57 (76 %) pudieron ser clasificadas con mayor certeza. El procedimiento revela que el entorno lingüístico de lxs niñxs participantes posee 55 % más habla en qom (28.34 horas) con respecto a español (18.22 horas). Estos resultados son un aporte fundamental a la psicolingüística en tanto que permiten el análisis de grandes corpus de datos de habla en contextos naturales de forma automática, análisis que resultaría muy costoso para ser realizado de forma manual.

Saved in:
Bibliographic Details
Main Author: Garber, Leandro Martín
Other Authors: Riera, Pablo Ernesto
Format: info:eu-repo/semantics/masterThesis biblioteca
Language:spa
Published: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Online Access:https://hdl.handle.net/20.500.12110/tesis_n7374_Garber
http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7374_Garber_oai
Tags: Add Tag
No Tags, Be the first to tag this record!