Automatic Speech Recognition in Portuguese Applied to Radio Communication

Scart, Lucas Grigoleto

Automatic Speech Recognition in Portuguese Applied to Radio Communication

dc.contributor.advisor1	Vassallo, Raquel Frizera
dc.contributor.advisor1ID	https://orcid.org/0000-0002-4762-3219
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9572903915280374
dc.contributor.author	Scart, Lucas Grigoleto
dc.contributor.referee1	Samatelo, Jorge Leonid Aching
dc.contributor.referee2	Fernandes, Mariana Rampinelli
dc.contributor.referee3	Mutz, Filipe Wall
dc.date.accessioned	2024-06-20T12:01:13Z
dc.date.available	2024-06-20T12:01:13Z
dc.date.issued	2024-03-06
dc.description.abstract	Speech is the main form of communication used between humans, and as such understanding spoken language is one of the main goals of natural language processing. Automatic speech recognition, the focus of this work, is the ability of a machine to recognize the content of words and sentences in a spoken language and transform them into a textual format. Currently, methods based on deep neural networks have dominated the field of speech processing, presenting state-of-the-art results in multiple applications. As the field of speech recognition continues to evolve, several challenges arise when attempting to adapt models to new languages and datasets, particularly in the context of radio communication recordings, as presented in this study. Compared to English, Portuguese has less available annotated speech data, making it essential to explore methods for effectively utilizing unlabeled data during training. Additionally, radio communication recordings exhibit a substantial degree of variation in background noise and speaker characteristics compared to other audio datasets. This variability can affect the accuracy and robustness of the model. This study proposes utilizing out-of-domain annotated data through a data augmentation method to build baseline models. In addition, we explore the effective use of unlabeled in-domain data via self-training techniques by generating pseudo-labels. Finally, we present an efficient training recipe for scaling large model finetuning while minimizing computational costs. Those models were then deployed as part of a broader speech processing application that was developed to assist in the auditing process of recorded railway communications. When performing the training with the simulated data, it is was observed a relative reduction of 51.7% in the character error rate considering the most challenging noise level (SNR of 0 dB), with a similar decrease at all noise levels when compared with the vanilla model. With self-training using in-domain data, we observe a reduction of 63.8% in character error rate when compared to the baseline model. We hope that the methodology developed in this work may open space to develop more robust speech recognition models with future applications in radio communication.
dc.description.resumo	A fala é a principal forma de comunicação utilizada entre seres humanos, de forma que o seu entendimento é um dos principais alvos do processamento de linguagem natural. O reconhecimento automático da fala, foco deste trabalho, é a capacidade de uma máquina reconhecer o conteúdo das palavras e frases numa língua falada e transformá-las num formato textual. Atualmente, métodos baseados em redes neurais profundas tem dominado a área de processamento de fala, apresentando resultados de estado da arte em múltiplas aplicações. À medida que o campo do reconhecimento automático de fala continua a evoluir, surgem vários desafios quando se tenta adaptar modelos a novas línguas e conjuntos de dados, particularmente no contexto de gravações de comunicações via rádio, como é o caso deste estudo. Em comparação com o inglês, o português tem menos dados de fala anotados disponíveis, o que torna essencial explorar métodos para utilizar de forma eficaz dados não rotulados durante o treino. Além disso, as gravações de comunicações de rádio apresentam um grau substancial de variação no ruído de fundo e nas características do locutor, em comparação com outros conjuntos de dados de áudio. Esta variabilidade pode afetar a precisão e a robustez do modelo. Este estudo propõe a utilização de dados anotados fora do domínio através de um método de aumento de dados para construir modelos de base. Além disso, explora-se a utilização eficaz de dados não rotulados no domínio através de técnicas de auto-treino, gerando pseudo-rótulos. Por fim, é apresentada uma receita de treinamento eficiente para escalar o treinamento de grandes modelos, minimizando os custos computacionais. Estes modelos foram depois implementados como parte de uma aplicação de processamento de voz, desenvolvida para ajudar no processo de auditoria de comunicações ferroviárias gravadas. Ao efetuar o treino com os dados simulados, observou-se uma redução relativa de 51,7% na taxa de erro de caracteres considerando o nível de ruído mais desafiadora (SNR de 0 dB), com uma diminuição semelhante em todos os níveis de ruído quando comparado com o modelo original. Com o auto-treinamento usando dados no domínio, foi observada uma redução de 63,8% na taxa de erro de caracteres quando comparado com o modelo de base. Espera-se que a metodologia desenvolvida neste trabalho abra espaço para o desenvolvimento de modelos de reconhecimento de fala mais robustos com futuras aplicações em radiocomunicação.
dc.format	Text
dc.identifier.uri	http://repositorio.ufes.br/handle/10/17420
dc.language	por
dc.publisher	Universidade Federal do Espírito Santo
dc.publisher.country	BR
dc.publisher.course	Mestrado em Engenharia Elétrica
dc.publisher.department	Centro Tecnológico
dc.publisher.initials	UFES
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica
dc.rights	embargoed access
dc.subject	Reconhecimento de fala
dc.subject	redes neurais profundas
dc.subject.br-rjbn	subject.br-rjbn
dc.subject.cnpq	Área(s) do conhecimento do documento (Tabela CNPq)
dc.title	Automatic Speech Recognition in Portuguese Applied to Radio Communication
dc.title.alternative	title.alternative
dc.type	Animation

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: EMBARGADO-RESTRITO.pdf
Tamanho:: 268.92 KB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Engenharia Elétrica