PEE 5761  CODIFICAÇÃO DE VOZ
 

ÁREA:  SISTEMAS ELETRÔNICOS

Nº DE CRÉDITOS: 

Aulas Teóricas :            3
Seminários e Outros:   0
Horas de Estudo:           7

DURAÇÃO EM SEMANAS:    12

DOCENTE RESPONSÁVEL:  Miguel Arjona Ramírez

OBJETIVOS: 

Familiarizar os alunos com as técnicas modernas de codificação de voz e, principalmente, através do exercício do pensamento crítico sobre os seus fundamentos, estimular a busca de melhoramentos e alternativas a essas técnicas vigentes.

JUSTIFICATIVA: 

As técnicas de codificação do sinal de voz são usadas tanto para a transmissão quanto para o armazenamento compacto de sinais de voz. Elas são demandadas para a transmissão compartilhada de vários canais de voz em comunicações telefônicas digitais tanto na rede fixa quanto na rede celular móvel, além de permitir maior segurança e sigilo pelo recurso à criptografia. Ainda, os canais compartilhados podem transportar vídeo ou dados em ambientes multimídia, que estão se tornando cada vez mais freqüentes e nos quais a versatilidade de dispor de codificadores operando a várias taxas de compressão permite estabelecer compromissos entre qualidade de serviço e quantidade de canais, necessários para atender a demanda da telefonia por rede de pacotes como a Internet.

 CONTEÚDO: 

 1. Introdução

     
    1.1. Aplicações da codificação de voz.
    1.2. Auto-informação e entropia. 

    1.3. Capacidade do canal telefônico e taxa de transmissão.

    1.4. Taxa de informação fonética.

    1.5. Taxa de codificação e distorção. Medidas de distorção.

    1.6. Análise funcional de um codificador de voz.


     

    2.Quantização

    2.1. Conceitos sobre quantizadores: amostra, característica entrada-saída, erro de quantização.

    2.2. Quantizador uniforme: tipos de características entrada-saída, regiões de quantização.

    2.3. Relação sinal-ruído (SNR) e SNR segmentada (SNRSEG).

    2.4. Hipóteses para um modelo estatístico do erro de quantização.

    2.5. Processos estocásticos vistos como geradores de sinais.

    2.6. Erro de quantização e a regra dos 6 dB/bit.

    2.7. Quantizadores não-uniformes: compressor, expansor, lei A e m.

    2.8. Quantizadores ótimos, compansão pela lei M.


     

    3. Quantização adaptativa

    3.1. Energia de curto prazo: estimação por bloco e estimação recorrente.

    3.2. Modos de estimação dos parâmetros do quantizador adaptativo: estimação progressiva e estimação regressiva.

    3.3. Adaptação da altura do degrau ou passo de quantização.

    3.4. Controle adaptativo do ganho do sinal de entrada.


     

    4. Predição fixa com quantização adaptativa

    4.1. Sinal diferencial e malha de predição e quantização.

    4.2. PCM diferencial (DPCM) básico, ganho de predição, saturação da inclinação.

    4.3. DPCM adaptativo (ADPCM) e lógicas de adaptação.

    4.4. Modulação delta: fator de sobre-amostragem, adaptação por variação contínua da inclinação (CVSD) e adaptação pelos multiplicadores de Jayant.


     

    5. Vocoders baseados na predição linear

    5.1. Modelo linear de produção da voz e o espectro de curto prazo.

    5.2. Predição do sinal de voz.

    5.3. Preditor variável.

    5.4. Análise preditiva: Equações normais - método da autocorrelação e método da covariância.

    5.5. Algoritmos de Levinson-Durbin, de Schur-Le Roux-Gueguen, PARCOR de Itakura-Saito e de Burg.

    5.6. Representações por pares de raias espectrais (LSPs) e por razões logarítmicas de áreas (LARs).

    5.7. Vocoder LPC: predição linear e modelo de excitação.

    5.8. Detetores do período fundamental ("pitch"): paralelo e por autocorrelação ou funções com ela relacionadas.


     

    6. Codificação com predição adaptativa

    6.1. APC com predição adaptativa estimada progressivamente ouregressivamente.

    6.2. Codificadores APC com preditor de longo prazo.

    6.3. Codificação com realimentação de ruído.

    6.4. Codificador preditivo excitado por sinal residual (RELP).

    6.5. Representação vetorial do sinal de excitação.


     

    7. Determinação da excitação por análise-mediante-síntese

    7.1. Codificadores preditivos com excitação por códigos (CELP).

    7.2. Dicionário adaptativo: sua estrutura e algoritmos de busca.

    7.3. Dicionários fixos: estocástico, com sobreposição, com ceifagem central, estocásticos esparsos.

    7.4. Dicionários com estrutura multipulso e busca seqüencial multiestágio.

    7.5. Dicionários multipulso algébricos (ACELP), busca focalizada e busca conjunta de posição e amplitude (JPAS).

    7.6. Dicionários fixos conjugados e dicionários estruturados por vetores-base.

    7.7. Ponderação perceptual e pós-filtro.


     

    8. Codificação em sub-bandas e codificação por transformadas

    8.1. Introdução à codificação em sub-bandas (SBC).

    8.2. Bancos de filtros criticamente dizimados.

    8.3. Bancos de filtros estruturados em árvore.

    8.4. Alocação de bits entre as sub-bandas a partir do espectro de potência do sinal.

    8.5. Codificador por transformada ortogonal (TC).

    8.6. Transformada de Karhunen-Loève (KLT).

    8.7. Transformada cosseno discreta (DCT).


     

    BIBLIOGRAFIA:

    [1] N. S. JAYANT, P. NOLL, Digital coding of waveforms.Englewood Cliffs: Prentice-Hall, 1984. 

    [2] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Advances in Speech Coding.Dordrecht: Kluwer Academic Publishers, 1991. 

    [3] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Speech and audio coding for wireless and network applications. Dordrecht: Kluwer Academic Publishers, 1993.

    [4] T. P. BARNWELL III, K. NAYEBI, C. H. RICHARDSON,  Speech coding: A computer laboratory textbook. New York:  John Wiley & Sons, 1995. 

    [5] S. FURUI, Digital speech processing, synthesis, and recognition. New York: Marcel  Dekker, 1985. 

    [6] W. B. KLEIJN, K. K. PALIWAL, Ed., Speech Coding and Synthesis. Amsterdam: ElsevierScience, 1995.

    [7] L. R. RABINER, R. W. SCHAFER, Digital processing of speech signals. Englewood  Cliffs: Prentice-Hall, 1978.


     

    AVALIAÇÃO

    A cada aula serão propostos exercícios que devem ser resolvidos para a aula seguinte.  
                Além disso, será realizada uma prova intermediária e um trabalho de pesquisa no decorrer do curso com
                planejamento inicial e relatório final. 
                A nota de aproveitamento será obtida por  
                       N = 0,7P + 0,3E,  
                onde P é a média das notas da prova e do relatório final e E é a média das notas dos exercícios. 

               
                    Horário de atendimento aos alunos:  Quartas-feiras das 15:45 às 16:45 na sala D2-14
                    Horário de aulas:  Quartas-feiras das 17:00 às 20:00 na sala D1-04
     

             Professor: Miguel Arjona Ramírez  
                                  sala D2-14, tel.: 3091-5606, e-mail: miguel no lps na usp no br 

                                         Laboratório de Processamento de Sinais 

                                         SOFTWARE PARA OS EXERCÍCIOS