Aplicação da Transformada Wavelet Packet na Análise e Classificação de Sinais de Vozes Patológicas

Eng. M.Sc. Adriane Parraga

Trabalho realizado no Departamento de Engenharia Elétrica da Escola de Engenharia da UFRGS, dentro do Curso de Pós-Graduação em Engenharia Elétrica - CPGEE.

Porto Alegre, 2002.

Resumo:
O exame para o diagnóstico de doenças da laringe é usualmente realizado através da videolaringoscopia e videoestroboscopia. A maioria das doenças na laringe provoca mudanças na voz do paciente. Diversos índices têm sido propostos para avaliar quantitativamente a qualidade da voz. Também foram propostos vários métodos para classificação automática de patologias da laringe utilizando apenas a voz do paciente. Este trabalho apresenta a aplicação da Transformada Wavelet Packet e do algoritmo Best Basis [COI92] para a classificação automática de vozes em patológicas ou normais.
Os resultados obtidos mostraram que é possível classificar a voz utilizando esta Transformada. Tem-se como principal conclusão que um classificador linear pode ser obtido ao se empregar a Transformada Wavelet Packet como extrator de características. O classificador é linear baseado na existência ou não de nós na decomposição da Transformada Wavelet Packet. A função Wavelet que apresentou os melhores resultados foi a symlet 5 e a melhor função custo foi a entropia. Este classificador linear separa vozes normais de vozes patológicas com um erro de classificação de 23,07% para falsos positivos e de 14,58% para falsos negativos.

Abstract:
The diagnosis of laryngeal diseases is usually realized by videolaringoscopy and videostroboscopy. Most laryngeal diseases cause changes in the patient's voice. Several indices have been proposed to assess the quality of the voice in a quantitative manner. Several methods were proposed for automatic classification of laryngeal pathologies using only the patient's voice. This work presents the application of the Wavelet Packet Transform and the Best Basis algorithm [COI92] for automatic classification of voices into pathological or normal.
The obtained results have shown that it is possible to classify voices using this Transform. The main conclusion is that a linear classifier can be obtained using the Wavelet Packet Transform for feature extraction. The classifier is linear based on the presence or not of the nodes on the decomposition of the Wavelet Packet Transform. The best results have been obtained with the Wavelet basis symlet 5 and the entropy as the cost function. This linear classifier distinguished normal voices from pathological ones with a classification error of the 23,07% for false positive and the 14,58% for false negative.