Processamento Digital de Sinais Aplicado à Transmissão de Voz

Prof. M.Sc. Thomas Weihmann

Trabalho realizado no Departamento de Engenharia Elétrica da Escola de Engenharia da UFRGS, dentro do Programa de Pós-Graduação em Engenharia Metalúrgica e dos Materiais - PPGEMM.

Porto Alegre, 1992.

Resumo:
Este trabalho trata da aplicação da tecnologia de processamento digital de sinais à transmissão do sinal de voz, sendo estudadas, simuladas, propostas e/ou implementadas em tempo real de execução, diversas técnicas de "compressão" de voz, que permitem reduzir substancialmente a taxa de transmissão.
São estudadas as características acústicas e fisiológicas do processo de produção de voz pelo sistema fonador humano bem como a capacidade perceptiva de seu aparelho auditivo. É apresentado um modelo digital simples para a produção de voz (Capítulo 1).
São apresentados e estudados codificadores de forma de onda, numa escala crescente de complexidade, iniciando pelo PCM e passando pelo logPCM, DPCM, APCM e ADPCM. É estudado o efeito da taxa de amostragem na qualidade do sinal de voz. É proposto e implementado em tempo real de execução, usando o processador de sinais TMS320C25, um codificador ADPCM de 24 kbit/s. É também implementado um codificador ADPCM de 18 kbit/s (Capítulo 2).
É analisada uma técnica de compressão harmônica do sinal de voz, executada no domínio tempo (TDHS), que permite efetivamente reduzir pela metade a banda de freqüência do sinal de voz, praticamente sem comprometer a qualidade. Esta técnica foi implementada em tempo real, sendo apresentados os problemas de ordem prática. É estudado o efeito do cálculo inexato do pitch (período fundamental) sobre o TDHS. É proposta e implementada, em tempo real, uma combinação dos codificadores TDHS e ADPCM, atingindo uma taxa de transmissão de 12 kbit/s (seis vezes inferior à taxa de amostragem original do sinal de voz) (Capítulo 3).
É estudada a técnica LPC de codificação paramétrica do sinal de voz. São apresentados os algoritmos de extração de parâmetros do sinal de voz (coeficientes do filtro preditor, ganho, pitch). É estudada a técnica APC, os quais não se mostraram adequados à qualidade de comunicação telefônica (Capítulo 4).
Conclusões gerais e perspectivas futuras para o desenvolvimento e estudo dos codificadores de voz estudados neste trabalho, são apresentadas (Capítulo 5). São estudados e implementados em tempo real, usando o processador TMS320C25, filtros digitais anti-aliasing multi-freqüênciais de subamostragem e sobre-amostragem. É apresentado o uso da notação em ponto fixo para o processamento digital de sinais baseado em aritmética binária. É descrita a infra-estrutura de hardware utilizada na simulação, implementação e testes dos algoritmos de compressão de voz estudados neste trabalho (Anexos A, B e C).

Abstract:
The subject of this work is the application of digital signal processing technology to digital voice transmission. Several voice compression techniques are studied, simulated, proposed and/or implemented in real time. These techniques allow a substantial reduction in the transmission rate.
The acoustic and physiological characteristics of the voicing process and the vocal tract are studied. Also the perception by human hearing is analyzed. A simple digital model for voice generation is presented (Chapter 1).
Waveform coders are presented and studied in a growing order of complexity: PCM, logPCM, DPCM, APCM and ADPCM. The effect of the sampling rate on the speech quality is studied. A 24 kbit/s ADPCM coder is proposed and implemented in real time on the TMS320C25 processor. A 18 kbit/s ADPCM coder is also implemented (Chapter 2).
A time domain harmonic scaling algorithm (TDHS) for speech signals is studied. This algorithm allows an effective frequency band halving, with little quality reduction. this algorithm is also implemented in real time and the resulting problems are presented. The effect of an inaccurate pitch extraction on the TDHS algorithm is studied. A combined speech coder based on TDHS and ADPCM is proposed and implemented in real time, achieving 12 kbit/s (Chapter 3).
The LPC coder is studied. Algorithms for parameter extraction are presented (prediction filter coefficients, pitch, gain). The APC technique is studied. The APC and LPC coders are simulated and show not to be acceptable for telephonic communication (Chapter 4).
General conclusions and future trends for the speech coders studied in this work are presented (Chapter 5). Multi rate filters are studied and implemented in real time using the TMS320C25 processor. These multi rate filters are used in over and under sampling of speech signals. The fixed point notation, necessary for signal processing based only on integer numbers, is presented. The hardware and systems used in simulation, implementation and testing of the algorithms studied in this work are described (Annexes A, B and C).