Implementação de um Sistema de Controle Vocal de Equipamentos de Automação Industrial




Objetivos

    Possibilitar o controle de dispositivos eletroeletrônicos por meio de comandos vocais.
    Implementar uma interface eletrônica que faça a tradução dos comandos vocais para sinais de controle do dispositivo comandado, dispensando o uso de um computador.
 


Descrição

     No desenvolvimento do sistema de controle vocal, algumas etapas mereceram atenção especial

Plataforma

    A base para o sistema de reconhecimento de voz em tempo real adotada é o processador digital de sinais TMS320C25. Um sistema para processamento digital de sinais construído no laboratório foi utilizado. O sistema não necessita de um computador para reconhecer os comandos vocais.
 

Plataforma utilizada no projeto (C25)


Funcionamento

    O sinal de voz captado através de microfone é amostrado a 8 KHz e processado, obtendo-se a palavra reconhecida. O módulo de controle do software ainda pode aceitar ou rejeitar tal palavra. Um conjunto de três palavras são faladas para que um comando seja executado.
 

Blocodiagrama do sistema


Treinamento

    O processo de treinamento do sistema inicia-se com a gravação de um vocabulário, repetido diversas vezes pelos locutores participantes. Para a maquete de elevador foi utilizado um vocabulário de 10 palavras, repetidas 9 vezes em três ambientes diferentes, com ou sem presença de ruído. O banco de voz obtido é constituído por 2430 palavras, gravadas em fita DAT por equipamento de som de alta fidelidade. O processamento dos sinais para a geração do codebook é realizado num microcomputador PC. Um total de 27 locutores (13 mulheres e 14 homens) participaram do treinamento.
    O processo utilizou-se dos equipamentos de áudio disponíveis no Laboratório de Processamento de Sinais e Imagens da UFRGS - LaPSI.
 


Resultados

     Os principais resultados do projeto atualmente são

Taxas de Reconhecimento

    Em condições ideais para locutores que participaram do treinamento, as taxas de reconhecimento ficaram em torno de 98%, mesmo na presença de ruído de ar-condicionado. Em condições desfavoráveis, mais próximas da situação de utilização real do equipamento, observou-se uma degradação considerável dos resultados, comprovando a necessidade de utilização de técnicas adicionais de cancelamento de ruído a fim de obter-se um melhor desempenho.

    A utilização de comandos de acionamento composto por três palavras multiplica por três as chances de erro, mas o procedimento adotado é indispensável para que não ocorram acionamentos indesejáveis no caso de reconhecimento incorreto de palavras.


Comando de uma maquete de elevador

     Para comandar a maquete de elevador, o usuário deve falar 3 palavras em seqüência: [elevador], [número_do_andar(primeiro, segundo, terceiro ou quarto)],[confirma,OK ( ou cancela)].
    A figura a seguir mostra como é feito o processamento dos comandos reconhecidos.
    Se a palavra não for reconhecida adequadamente, a seqüência deve ser reiniciada. O usuário pode ver que palavra foi reconhecida através de um painel colocado na base da maquete.

Seqüência de palavras para o comando da maquete de elevador


Protótipo do sistema implementado

    O sistema completo pode ser visto na figura a seguir.
    Veja um filme (formato AVI, 1.6 MB) mostrando o sistema em funcionamento.

Foto do sistema completo





Equipe

Daniel Vieira Pigatto
Marcelo Negreiros
prof. Luigi Carro
prof. Altamiro Amadeu Susin

Apoio

Este projeto obteve apoio do CNPq.

Os autores contaram com a colaboração de diversos voluntários do Departamento de Engenharia Elétrica da UFRGS na elaboração do banco de palavras.



Universidade Federal do Rio Grande do Sul -  UFRGS
Escola de Engenharia
Departamento de Engenharia Elétrica - DELET
Laboratório de Processamento de Sinais e Imagens - LaPSI

Copyright © 2000 - Laboratório de Processamento de Sinais e Imagens.
Última atualização: 14 de Abril de 2000.