Investigadoras del Laboratorio de Inteligencia Artificial Aplicada del ICC están desarrollando un sistema de calificación automática de la pronunciación del idioma inglés para hablantes de Argentina, apoyado en técnicas de aprendizaje automático. El objetivo final es poder implementarlo como una herramienta de apoyo para el aprendizaje en las escuelas de nuestro país.
La pronunciación es una de las cosas en la que más nos equivocamos durante el aprendizaje del idioma inglés. Son muchos los factores que hacen que a los hablantes no nativos nos cueste pronunciar bien. Por empezar, el inglés escrito tiene poco que ver con la pronunciación, lo cual supone una traba sobre todo en los niveles iniciales. Además, una vez que mínimamente ya sabemos inglés surge otra dificultad adicional que es el hecho de que en inglés existen sonidos que en español no. Tal es así que la dedicación de un instructor para corregir estos errores resulta enorme y debe ser un trabajo personalizado que no se puede hacer sólo a partir de texto, como cuando uno estudia por su cuenta el vocabulario del idioma.
¿Cómo se puede mejorar la calidad de la pronunciación en inglés para hablantes de Argentina en nivel inicial y contar con un feedback permanente y personalizado que indique si se pronunció correctamente una palabra o una frase o qué errores se cometen?
Para intentar solucionar este problema, investigadoras del Laboratorio de Inteligencia Artificial Aplicada (LIAA) del ICC, están desarrollando un Tutor Virtual para Práctica de Pronunciación del Idioma Inglés. Se trata de un sistema de calificación automática de la pronunciación a nivel fono para niños argentinos en proceso de aprendizaje del idioma inglés -especialmente aquellos de 7 a 12 años- y también para adultos. El proyecto obtuvo el premio de investigación Google LARA en 2018 (ver nota anterior del ICC) y recientemente recibió el financiamiento PIP 2021-2023 de CONICET.
“Cuando aprendíamos inglés en el colegio, usualmente para practicar pronunciación nos hacían repetir a todos al mismo tiempo y entre tantos alumnos era más difícil que la profesora o profesor se dé cuenta de qué palabra o frase estábamos pronunciando mal. Se necesitaba un trabajo uno a uno y mucho tiempo y dedicación para corregirnos a cada uno”, puntualiza Luciana Ferrer, investigadora del LIAA en el ICC y Doctora en Ingeniería Electrónica. De acuerdo a la visión de la científica especializada en procesamiento del habla, “a partir de la idea de generar un método automático para corregir la pronunciación usando una aplicación que no se cansa, que tiene tiempo infinito, se puede usar en cualquier momento del día y en cualquier dispositivo, surgió nuestro proyecto de tutor virtual para detectar problemas de pronunciación en el aprendizaje de idioma inglés, adaptado para hablantes argentinos, usando un sistema de puntuación de la pronunciación (pronunciation scoring)”, destaca quien es autora del proyecto, junto a la lingüista e investigadora en formación Jazmín Vidal Domínguez.
Si bien la idea no es completamente nueva, los programas o aplicaciones que se utilizan actualmente para aprender idiomas (como por ej. Duolingo o Rosetta Stone) no tienen precisión suficiente en el aspecto de la pronunciación para poder determinar estos problemas, y no consideran el idioma nativo del hablante que está aprendiendo en ese momento. Es un punto que claramente no están considerando los desarrolladores de estos programas, porque para hacerlo deberían tener recolectados y anotados datos para cada población de no-nativos, lo cual resulta un proceso muy caro y costoso de lograr.
En este contexto, está comprobado que los sistemas adaptados a un tipo específico de pronunciación no-nativa funcionan mejor; motivo por el cual el proyecto liderado por Ferrer propone entrenar los modelos con datos de hablantes argentinos, con los problemas propios que tienen estos hablantes al pronunciar, sobre todo niños pequeños. “Lo más complejo de este trabajo es anotar los datos recolectados. Hasta el momento es un trabajo manual que requiere escuchar exhaustivamente cada una de las frases y marcar cada palabra que el hablante dijo bien o mal. Necesitamos tener cada vez más datos anotados y de diversos hablantes con heterogeneidad en la muestra. Podemos conseguir las grabaciones y tenemos voluntarios para leer más de 60 frases que requiere la prueba en nuestra Web App, pero analizar la pronunciación de cada hablante a nivel fono lleva un montón de tiempo y requiere que el investigador que haga la tarea tenga muy buen oído en inglés”, comenta. El grupo de investigación ya ha reunido y anotado datos de 50 hablantes adultos, a los que se les hizo leer las diferentes frases en inglés para construir el modelo de entrenamiento y aplicar técnicas de aprendizaje automático (machine learning) que puedan evaluar la calidad de la pronunciación de los sonidos del idioma (conocidos como “fonos”).
Al mismo tiempo, otro eje del proyecto es el uso de sistemas de transcripción de habla para determinar la probabilidad de cada uno de los sonidos del idioma. “Los sistemas actuales de transcripción de habla, utilizan redes neuronales y están entrenados con miles de horas de habla nativa, por lo que si bien pueden devolver correctamente (a través de los datos procesados de los sonidos pronunciados) cuán probable o no es que la persona haya dicho una determinada palabra, no saben nada sobre qué considera un humano que está bien o mal pronunciado, sólo fueron entrenados para reconocer qué se dijo”, explica Ferrer. Por este motivo, el equipo del LIAA tomó como base un modelo de reconocimiento y lo adaptó a la tarea de calificación de la pronunciación que se necesita resolver, incorporando los datos de hablantes argentinos y comparando su performance con el sistema básico. Algunos de estos resultados ya fueron publicados en un paper en el congreso Interspeech 2021
“Nuestro siguiente paso es recolectar datos de niños argentinos hablando inglés, en especial de 7 a 12 años. Ya tenemos contactos con colegios e institutos de inglés para obtener los datos. En algunos casos vamos a usar imágenes para que digan la palabra que están viendo, porque muchos niños recién están aprendiendo a leer en castellano. A su vez, el otro desafío es poder simplificar la tarea de anotación manual de los datos, tal vez una solución intermedia donde en vez de anotarlos fono por fono, anotarlos por frase y determinar qué frase pronunció bien o mal. Y con ello estimar las anotaciones a nivel fono para poder entrenar nuevos modelos”, complementa la investigadora.
Una aplicación novedosa y lúdica en las escuelas argentinas
El principal objetivo de desarrollo del Tutor Virtual es poder llevarlo a alumnos de escuelas donde la carga horaria de aprendizaje del idioma inglés es insuficiente para una práctica exhaustiva de la pronunciación y además que sirva como asistente a las maestras y maestros en el aula, para hacer mejor la tarea, (más allá de que el asistente también podrá ser usado por adultos). “Durante la Pandemia hemos visto que muchas de las tareas de lengua o matemática que le mandaban a nuestros hijos consistían en jugar un juego que estaba disponible gratuitamente en la web. Justamente en el ámbito de las escuelas nosotros pensamos el asistente como un juego, una aplicación entretenida y de uso libre, que pueda darles a los estudiantes premios como stickers virtuales o que vayan juntando puntos entre sus compañeros para aprender a pronunciar. A su vez, cuando le asignen tarea para la casa, el instructor se podría loguear en el programa y hacer un seguimiento de cada uno de sus alumnos y alumnas”, aclara Ferrer. Y reflexiona respecto a la positiva aceptación que ha tenido la idea entre la comunidad educativa, “ya hablamos con varios maestros e instructores de inglés y les pareció genial la idea. Mucho de este trabajo de interacción lo está haciendo Jazmín Vidal Domínguez. Cuando estemos en proceso de implementar la aplicación en las escuelas, vamos a necesitar asesoramiento de educadores para amoldar las estrategias pedagógicas de corrección del idioma, fundamentalmente cómo corregir la pronunciación para que le sirva al estudiante, que entienda la corrección, y también qué corregír. El proceso tiene que ser gradual porque a alguien que recién está empezando a aprender no se le puede corregir todo de entrada porque lo abrumás”, concluye la investigadora del LIAA.
Los resultados más recientes de la aplicación fueron publicados en el Paper «A transfer learning based approach for pronunciation scoring«.
Video de Entrevista a Luciana Ferrer en La Liga de la Ciencia-TV Pública