Reconhecimento Automático de Voz para Palavras Isoladas e Independente do Locutor

Eng. M.Sc. Joel August Luft

Trabalho realizado no Departamento de Engenharia Elétrica da Escola de Engenharia da UFRGS, dentro do Programa de Pós-Graduação em Engenharia Metalúrgica e dos Materiais - PPGEMM.

Porto Alegre, 1994.

Resumo:
Neste trabalho são apresentadas diversas técnicas aplicadas no reconhecimento de voz para palavras isoladas e independente de locutor. Estas técnicas são estudadas abordando-se os aspectos referentes a sua aplicabilidade prática. É apresentada uma implementação de um sistema de reconhecimento de voz em tempo real. São estudadas as características do processo de produção da voz e da capacidade auditiva do homem. São abordadas as limitações relacionadas com o reconhecimento automático da voz e apresentada a estrutura de um reconhecedor de voz para palavras isoladas. Diversas formas de representação do sinal de voz utilizando medidas de energia, cruzamento por zero, análise espectral e análise cepstral são apresentadas e estudadas de modo a serem utilizadas no processo de reconhecimento de voz. A técnica LPC de codificação do sinal de voz é analisad com a descrição dos algoritmos de extração dos parâmetros do sinal. Também são estudadas medidas de distorção entre parâmetros do sinal de voz para avaliar as diferenças entre eles. É apresentado o processo de quantização vetorial que reduz o volume de dados utilizado no processo de reconhecimento. Duas técnicas de reconhecimento de voz (DTW e HMM) são estudadas e detalhados os aspectos referentes à implementação prática de tais algoritmos. Também são apresentados algoritmos de detecção automática dos limites da palavra. Os detalhes de implementação em tempo real com os resultados de diversos experimentos práticos são mostrados. Conclusões gerais e a avaliação dos resultados obtidos são apresentados. Também são relacionados alguns aspectos para a melhoria e desenvolvimento do sistema de reconhecimento descrito neste trabalho.

Abstract:
This work presents several techniques applied in speaker-independent isolated word speech recognition. These techniques are studied regarding its practical use. The implementation of a real time speech recognition system are presented. The speech production mechanism and the human hearing characteristics are studied. The speech recognition constraints are analyzed and structure of an isolated-word speech recognizer is presented. Several representations of speech signal using energy measurement, zero crossing, spectral analysis and cepstral analysis are presented and studied related to the speech recognition process. The LPC coder is analyzed and the algorithms for parameters extraction are presented. The distortion measures are studied to evaluate the differences between speech parameters. The vector quantization process, which is important in data reduction, is presented. Two speech recognition techniques (DTW and HMM) are studied and several aspects related to the practical implementation are detailed. Endpoint detection algorithms for isolated words are also presented. The details of the real time implementation and the results of practical experiments are presented. General conclusions and the evaluation of the results are presented. Some aspects to improve and to develop the recognition system described in this job are reported.