Melhorando a transcrição com linguística

Adicione como uma fonte preferencial no Google

A precisão da transcrição é um desafio crítico que impacta significativamente a acessibilidade dos serviços de transcrição, especialmente para pessoas que não têm o inglês como língua nativa e enfrentam uma taxa maior de erros. Este paper aborda os problemas centrais das imprecisões de transcrição para falantes não nativos. Ao usar técnicas linguísticas avançadas e advanced language models, buscamos melhorar a qualidade da transcrição, garantindo que as transcrições sejam precisas e acessíveis para todos os usuários. Este paper explora as metodologias e estratégias usadas para enfrentar esse problema, tornando as transcrições mais confiáveis e benéficas para todos.

‍

O Desafio da Transcrição

Erros de transcrição são um problema generalizado, especialmente para pessoas que não têm o inglês como língua nativa, também conhecidas como falantes L2. De acordo com a pesquisa de Peter Sullivan, Toshiko Shibano e Muhammad Abdul-Mageed, "Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding" (2022), essas pessoas enfrentam um aumento de 10% na taxa de erro por palavra (WER), o que leva a uma taxa maior de transcrições incorretas em comparação com falantes nativos (L1).

‍

A raiz desse problema está nas diferenças fonológicas entre o inglês e outros idiomas. Por exemplo, muitos dialetos árabes não têm o fonema /p/ e o substituem pelo equivalente sonoro /b/. Como consequência, palavras que contêm /p/ costumam ser interpretadas incorretamente, o que gera imprecisões na comunicação. Como pessoas que não têm o inglês como língua nativa superam os falantes nativos em quase três para um, esse problema impacta significativamente uma grande parte da população global, tornando a transcrição menos acessível e menos eficaz para muitas pessoas.

‍

Revertendo Erros Fonológicos

Nossa hipótese era que muitos erros de transcrição para falantes não nativos de inglês ocorrem porque eles substituem os fonemas de palavras em inglês por fonemas mais familiares de sua língua materna. Ao reverter essas substituições depois da transcrição, acreditávamos que poderíamos melhorar muito a precisão.

‍

No entanto, esse método enfrentou desafios, como descobrir a substituição correta de fonema com base no contexto das palavras ao redor, aplicar substituições de forma eficiente e converter palavras em texto para seus equivalentes fonéticos. Para lidar com essa complexidade, nossa solução envolveu usar a combinação de um alfabeto fonético e advanced language models.

‍

Construindo uma Solução

Desenvolvendo a ferramenta Text-to-IPA
O primeiro passo nesse processo foi desenvolver um tradutor text-to-IPA (International Phonetic Alphabet). Depois de explorar várias opções, escolhemos o CMU-IPA dictionary, que permitiu converter palavras em inglês em seus equivalentes fonéticos. Essa ferramenta fundamental foi essencial para aplicar substituições fonéticas com precisão. Criamos um script para converter palavras em seus equivalentes fonéticos, formando a base do nosso sistema de melhoria de transcrição.
‍

Criando Substituições Fonéticas
Inicialmente, criamos uma função básica para aplicar substituições fonéticas, mas ela se mostrou limitada e trabalhosa. Então descobrimos o Speech Accent Archive, um recurso abrangente que detalha mudanças fonéticas em vários sotaques. Usando dados desse archive, construímos um sistema modular para gerar substituições fonéticas para diferentes sotaques. Para lidar com a ordem arbitrária das substituições, usamos métodos de binary counting para tratar várias substituições com eficiência. Em vez de aplicar cada substituição a cada palavra, aplicamos apenas as substituições que envolviam fonemas realmente presentes na palavra.
‍

Reavaliação Contextual com AI
Para refinar a precisão das correções de transcrição, então integramos a OpenAI API para reavaliar opções fonéticas dentro do contexto. Essa etapa permitiu ao sistema determinar a fala mais provável ao considerar as palavras ao redor, aumentando significativamente a confiabilidade das transcrições. Durante os testes, o sistema mostrou melhora substancial, mesmo com exemplos sintéticos que o language model não havia encontrado antes.
‍

Resultados e Aprendizados

Os resultados do projeto demonstraram a eficácia de nossa hipótese, e observamos melhorias significativas na precisão da transcrição de fala em inglês de pessoas não nativas. Com as atualizações descritas, nosso sistema agora consegue acomodar aproximadamente 148 sotaques, o que pode beneficiar quase 1 bilhão de falantes.

‍
Melhorias Futuras‍

Embora o sistema atual foque em substituições de fonema para fonema, melhorias futuras poderiam incorporar contextos adicionais, como a posição na palavra e os sons ao redor, para acompanhar melhor a assimilação entre palavras e outras mudanças fonológicas mais sutis. A abordagem também poderia ser ampliada para considerar todas as generalizações de um determinado idioma, em vez das generalizações de um único falante, e aplicada a speech impediments, tornando a transcrição ainda mais acessível.

Índice

Índice

Melhorando a transcrição com linguística

Sarah Kiefer

Adicione como uma fonte preferencial no Google

Adicione como uma fonte preferencial no Google

O Desafio da Transcrição

Revertendo Erros Fonológicos

Construindo uma Solução

Resultados e Aprendizados

‍
Melhorias Futuras‍

Junte-se a mais de 700 mil organizações que utilizam o Supernormal

Junte-se a mais de 700 mil organizações que utilizam o Supernormal

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

Produto

Recursos

Empresa

Produto

Recursos

Empresa

Produto

Recursos

Empresa

Índice

Índice

Melhorando a transcrição com linguística

Sarah Kiefer

Adicione como uma fonte preferencial no Google

Adicione como uma fonte preferencial no Google

O Desafio da Transcrição

Revertendo Erros Fonológicos

Construindo uma Solução

Resultados e Aprendizados

‍Melhorias Futuras‍

Junte-se a mais de 700 mil organizações que utilizam o Supernormal

Junte-se a mais de 700 mil organizações que utilizam o Supernormal

Posts relacionados

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

Posts relacionados

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

Posts relacionados

O melhor software para transcrição de reuniões: Apresentando o Supernormal

Chega de "o que foi que combinamos mesmo?" - as melhores ferramentas para gravação de reuniões de 2026

Como a Supernormal fez parceria com a AssemblyAI para melhorar a precisão da transcrição

Produto

Recursos

Empresa

Produto

Recursos

Empresa

Produto

Recursos

Empresa

‍
Melhorias Futuras‍