A precisão da transcrição é um desafio crítico que afeta significativamente a acessibilidade dos serviços de transcrição, especialmente para falantes não nativos de inglês que enfrentam uma taxa maior de erros. Este artigo aborda os problemas básicos das imprecisões de transcrição para falantes não nativos. Ao aproveitar técnicas linguísticas avançadas e modelos linguísticos avançados, nosso objetivo é melhorar a qualidade da transcrição, garantindo que as transcrições sejam precisas e acessíveis para todos os usuários. Este artigo mergulha nas metodologias e estratégias empregadas para resolver esse problema, tornando as transcrições mais confiáveis e universalmente benéficas.
O desafio da transcrição
Os erros de transcrição são um problema generalizado, especialmente para falantes não nativos de inglês, também conhecidos como falantes de L2. De acordo com a pesquisa de Peter Sullivan, Toshiko Shibano e Muhammad Abdul-Mageed, “Melhorando o reconhecimento automático de fala para inglês não nativo com transferência de aprendizado e decodificação de modelos de idioma” (2022), esses indivíduos enfrentam um aumento de 10% na taxa de erro de palavras (WER), levando a uma maior taxa de transcrições incorretas em comparação com falantes nativos (L1).
A raiz desse problema está nas diferenças fonológicas entre o inglês e outros idiomas. Por exemplo, muitos dialetos árabes não têm o fonema /p/ e o substituem pelo equivalente sonoro /b/. Consequentemente, palavras contendo /p/ geralmente são mal interpretadas, levando a imprecisões na comunicação. Dado que os falantes não nativos de inglês superam os falantes nativos em quase três para um, esse problema afeta significativamente uma grande parte da população global, tornando a transcrição menos acessível e eficaz para muitos.
Revertendo erros fonológicos
Nossa teoria era que muitos erros de transcrição para falantes não nativos de inglês ocorrem porque eles substituem os fonemas das palavras em inglês por fonemas mais familiares de sua língua nativa. Ao reverter essas substituições após a transcrição, acreditávamos que poderíamos melhorar muito a precisão.
No entanto, esse método enfrentou desafios, como descobrir a substituição correta do fonema com base no contexto das palavras ao redor, aplicar substituições de forma eficiente e converter palavras textuais em seus equivalentes fonéticos. Para lidar com essas complexidades, nossa solução envolveu o uso da combinação de um alfabeto fonético e modelos avançados de linguagem.
Construindo uma solução
Desenvolvendo a ferramenta Text-to-IPA
A primeira etapa desse processo foi desenvolver um tradutor de texto para IPA (Alfabeto Fonético Internacional). Depois de explorar várias opções, decidimos pela Dicionário CMU-IPA, o que permitiu a conversão de palavras em inglês em suas contrapartes fonéticas. Essa ferramenta fundamental foi essencial para aplicar substituições fonéticas com precisão. Criamos um script para converter palavras em seus equivalentes fonéticos, formando a base do nosso sistema de aprimoramento da transcrição.
Criando substituições fonéticas
Inicialmente, criamos uma função básica para aplicar substituições fonéticas, mas ela se mostrou limitada e complicada. Em seguida, descobrimos o Speech Accent Archive, um recurso abrangente que detalha as mudanças fonéticas em vários sotaques. Usando dados desse arquivo, construímos um sistema modular para gerar substituições fonéticas para diferentes sotaques. Para lidar com a ordem arbitrária das substituições, empregamos métodos de contagem binária para lidar com várias substituições de forma eficiente. Em vez de aplicar todas as substituições a cada palavra, aplicamos apenas substituições que envolviam fonemas realmente presentes na palavra.
Reavaliação contextual com IA
Para refinar a precisão das correções de transcrição, integramos a API OpenAI para reavaliar as opções fonéticas dentro do contexto. Essa etapa permitiu que o sistema determinasse a expressão falada mais provável considerando as palavras ao redor, aumentando significativamente a confiabilidade das transcrições. Durante os testes, o sistema apresentou melhorias substanciais, mesmo com exemplos sintéticos que o modelo de linguagem não havia encontrado anteriormente.
Resultados e aprendizados
Os resultados do projeto demonstraram a eficácia de nossa hipótese e vimos melhorias significativas na precisão da transcrição para falantes não nativos de inglês. Com as atualizações descritas, nosso sistema agora pode acomodar aproximadamente 148 sotaques, potencialmente beneficiando quase 1 bilhão de alto-falantes.
Melhorias futuras
Embora o sistema atual se concentre nas substituições de fonema a fonema, melhorias futuras podem incorporar contextos adicionais, como a posição na palavra e os sons circundantes, para rastrear melhor a assimilação de palavras cruzadas e outras mudanças fonológicas diferenciadas. A abordagem também pode ser expandida para considerar todas as generalizações de um determinado idioma em vez das generalizações de um único falante e ser aplicada aos impedimentos de fala, tornando a transcrição ainda mais acessível.