Automatic speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing

Caon, Daniel Régis Sarmento

Automatic speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing

dc.contributor.advisor-co1	Andreão, Rodrigo Varejão
dc.contributor.advisor1	Rauber, Thomas Walter
dc.contributor.author	Caon, Daniel Régis Sarmento
dc.contributor.referee1	Varejão, Flávio Miguel
dc.contributor.referee2	Ynoguti, Carlos Alberto
dc.date.accessioned	2016-12-23T14:33:42Z
dc.date.available	2011-03-23
dc.date.available	2016-12-23T14:33:42Z
dc.date.issued	2010-08-27
dc.description.abstract	This work aims to provide automatic cognitive assistance via speech interface, to the elderly who live alone, at risk situation. Distress expressions and voice commands are part of the target vocabulary for speech recognition. Throughout the work, the large vocabulary continuous speech recognition system Julius is used in conjunction with the Hidden Markov Model Toolkit (HTK). The system Julius has its main features described, including its modification. This modification is part of the contribution which is in this work, including the detection of distress expressions ( situations of speech which suggest emergency). Four different languages were provided as target for recognition: French, Dutch, Spanish and English. In this same sequence of languages (determined by data availability and the local of scenarios for the integration of systems) theoretical studies and experiments were conducted to solve the need of working with each new configuration. This work includes studies of the French and Dutch languages. Initial experiments (in French) were made with adaptation of hidden Markov models and were analyzed by cross validation. In order to perform a new demonstration in Dutch, acoustic and language models were built and the system was integrated with other auxiliary modules (such as voice activity detector and the dialogue system). Results of speech recognition after acoustic adaptation to a specific speaker (and the creation of language models for a specific scenario to demonstrate the system) showed 86.39 % accuracy rate of sentence for the Dutch acoustic models. The same data shows 94.44 % semantical accuracy rate of sentence.	eng
dc.description.resumo	Este trabalho visa prover assistência cognitiva automática via interface de fala, à idosos que moram sozinhos, em situação de risco. Expressões de angústia e comandos vocais fazem parte do vocabulário alvo de reconhecimento de fala. Durante todo o trabalho, o sistema de reconhecimento de fala contínua de grande vocabulário Julius é utilizado em conjunto com o Hidden Markov Model Toolkit(HTK). O sistema Julius tem suas principais características descritas, tendo inclusive sido modificado. Tal modificação é parte da contribuição desse estudo, assim como a detecção de expressões de angústia (situações de fala que caracterizam emergência). Quatro diferentes linguas foram previstas como alvo de reconhecimento: Francês, Holandês, Espanhol e Inglês. Nessa mesma ordem de linguas (determinadas pela disponibilidade de dados e local de cenários de integração de sistemas) os estudos teóricos e experimentos foram conduzidos para suprir a necessidade de trabalhar com cada nova configuração. Este trabalho inclui estudos feitos com as linguas Francês e Holandês. Experimentos iniciais (em Francês) foram feitos com adaptação de modelos ocultos de Markov e analisados por validação cruzada. Para realizar uma nova demonstração em Holandês, modelos acústicos e de linguagem foram construídos e o sistema foi integrado a outros módulos auxiliares (como o detector de atividades vocais e sistema de diálogo). Resultados de reconhecimento de fala após adaptação dos modelos acústicos à um locutor específico (e da criação de modelos de linguagem específicos para um cenário de demonstração do sistema) demonstraram 86,39% de taxa de acerto de sentença para os modelos acústicos holandeses. Os mesmos dados demonstram 94,44% de taxa de acerto semântico de sentença.
dc.format	Text
dc.identifier.citation	CAON, Daniel Régis Sarmento. Automatic speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing. 2010. 70 f. Dissertação (Mestrado em Informática) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2010.
dc.identifier.uri	http://repositorio.ufes.br/handle/10/6390
dc.language	eng
dc.publisher	Universidade Federal do Espírito Santo
dc.publisher.country	BR
dc.publisher.course	Mestrado em Informática
dc.publisher.department	Centro Tecnológico
dc.publisher.initials	UFES
dc.publisher.program	Programa de Pós-Graduação em Informática
dc.rights	open access
dc.subject	Automatic speech recognition	eng
dc.subject	Hidden Markov models	eng
dc.subject	Acoustic modeling	eng
dc.subject	HTK	por
dc.subject	Julius	por
dc.subject	K-Fold	por
dc.subject	Processamento de sinais de fala	por
dc.subject	Modelos ocultos de Markov	por
dc.subject	Modelagem acústica	por
dc.subject.br-rjbn	Processamento de sinais
dc.subject.br-rjbn	Interfaces de usuário (Sistema de computador)
dc.subject.br-rjbn	Reconhecimento automático da voz
dc.subject.br-rjbn	Sistemas de reconhecimento de padrões
dc.subject.cnpq	Ciência da Computação
dc.subject.udc	004
dc.title	Automatic speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing
dc.type	masterThesis

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertacao de Daniel Regis Sarmento Caon.pdf
Tamanho:: 1.49 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Mestrado em Informática