Codificação de Voz

Disciplina PSI-5759
Codificação de Voz

Área de Concentração:	3142
Criação:	29/04/2004
Ativação:	13/04/2014	Desativação:
Nr. de Créditos:	8

Carga Horária
Teórica (por semana)	Prática (por semana)	Estudos (por semana)	Duração	Total
3	0	7	12 semanas	120 horas

Docente Responsável:
		Miguel Arjona Ramírez

Objetivos

Familiarizar os alunos com as técnicas modernas de codificação de voz e, principalmente, através do exercício do pensamento crítico sobre os seus fundamentos, estimular a busca de melhoramentos e alternativas a essas técnicas vigentes.

Justificativa

As técnicas de codificação do sinal de voz são usadas tanto para a transmissão quanto para o armazenamento compacto de sinais de voz. Elas são demandadas para a transmissão compartilhada de vários canais de voz em comunicações telefônicas digitais tanto na rede fixa quanto na rede celular móvel, além de permitir maior segurança e sigilo pelo recurso à criptografia. Ainda, os canais compartilhados podem transportar vídeo ou dados em ambientes multimídia, que estão se tornando cada vez mais frequentes e nos quais a versatilidade de dispor de codificadores operando a várias taxas de compressão permite estabelecer compromissos entre qualidade de serviço e quantidade de canais, necessários para atender a demanda da telefonia por rede de pacotes como a Internet.

Conteúdo

1. Introdução
1.1. Introdução à codificação de voz: Problema básico.
1.2. Medidas de distorção e medidas de fidelidade ou semelhança.
1.3. Capacidade do canal telefônico e taxa de transmissão.
1.4. Taxa de informação fonética.
1.5. Taxa de codificação e sua relação com a distorção.
1.6. Características tempo-frequenciais básicas do sinal de voz: os espectrogramas.
1.7. Codificador de voz analógico.

2. Predição linear
2.1. Modelo linear de produção da voz e o espectro de curto prazo.
2.2. Predição do sinal de voz.
2.3. Preditor variável.
2.4. Análise preditiva: Equações normais - método da autocorrelação e método da covariância.
2.5. Algoritmos de Levinson-Durbin, de Schur-Le Roux-Gueguen, PARCOR de Itakura-Saito e de Burg.
2.6. Representações por pares de raias espectrais (LSPs) e por razões logarítmicas de áreas (LARs).

3.Quantização
3.1. Conceitos sobre quantizadores: amostra, característica entrada-saída, erro de quantização.
3.2. Quantizador uniforme: tipos de características entrada-saída, regiões de quantização.
3.3. Relação sinal-ruído (SNR) e SNR segmentada (SNRSEG).
3.4. Hipóteses para um modelo estatístico do erro de quantização.
3.5. Processos estocásticos vistos como geradores de sinais.
3.6. Erro de quantização e a regra dos 6 dB/bit.

4. Compansão e quantização vetorial
4.1. Quantizadores não-uniformes.
4.2. Compressor, expansor, lei A e µ.
4.3. Quantizadores ótimos, algoritmo de Linde-Buzo-Gray (LBG).

5. Quantização adaptativa
5.1. Energia de curto prazo: estimação por bloco e estimação recorrente.
5.2. Modos de estimação dos parâmetros do quantizador adaptativo: estimação progressiva e estimação regressiva.
5.3. Adaptação da altura do degrau ou passo de quantização.
5.4. Controle adaptativo do ganho do sinal de entrada.

6. Predição fixa com quantização adaptativa
6.1. Sinal diferencial e malha de predição e quantização.
6.2. PCM diferencial (DPCM) básico, ganho de predição, saturação da inclinação.
6.3. DPCM adaptativo (ADPCM) e lógicas de adaptação.
6.4. Modulação delta: fator de sobre-amostragem, adaptação por variação contínua da inclinação (CVSD) e adaptação pelos multiplicadores de Jayant.

7. Vocoders baseados na predição linear
7.1. Vocoder LPC: predição linear e modelo de excitação.
7.2. Detetores do período fundamental ("pitch"): paralelo e por autocorrelação ou funções com ela relacionadas.

8. Codificação com predição adaptativa
8.1. APC com predição adaptativa estimada progressivamente ouregressivamente.
8.2. Codificadores APC com preditor de longo prazo.
8.3. Codificação com realimentação de ruído.
8.4. Codificador preditivo excitado por sinal residual (RELP).
8.5. Representação vetorial do sinal de excitação.

9. Determinação da excitação por análise-mediante-síntese
9.1. Codificadores preditivos com excitação por códigos (CELP).
9.2. Dicionário adaptativo: sua estrutura e algoritmos de busca.
9.3. Dicionários fixos: estocástico, com sobreposição, com ceifagem central, estocásticos esparsos.
9.4. Dicionários com estrutura multipulso e busca sequencial multiestágio.
9.5. Dicionários multipulso algébricos (ACELP), busca focalizada e busca conjunta de posição e amplitude (JPAS).
9.6. Dicionários fixos conjugados e dicionários estruturados por vetores-base.
9.7. Ponderação perceptual e pós-filtro.

10. Codificação frequencial e tempo-frequencial
10.1. Períodos fundamentais, ciclos e formas de onda características.
10.2. Codificação senoidal e harmônica.
10.3. Excitação multibanda: predição linear no domínio da frequência.
10.4. Bancos de filtros: janela-protótipo e filtro-protótipo.
10.5. Introdução à codificação em sub-bandas (SBC) e à codificação por transformada ortogonal (TC).
10.6. Bancos de filtros criticamente dizimados.
10.7. Bancos de filtros estruturados em árvore.
10.8. Transformada de Karhunen-Loève (KLT) e o vínculo entre a predição linear e as transformadas lineares.

Forma de Avaliação

A cada aula serão propostos exercícios que devem ser resolvidos para a aula seguinte.
            Além disso, será realizada uma prova intermediária e um trabalho de pesquisa no decorrer do curso com
            planejamento inicial e relatório final.
            A nota de aproveitamento será obtida por
                   N = 0,7P + 0,3E,
            onde P é a média das notas da prova e do relatório final e E é a média das notas dos exercícios.

Horário de atendimento aos alunos: Terças-feiras das 15:45 às 16:45 na sala D2-14.
Horário de aulas: Terças das 17:00 às 20:00 na sala B2-05.

Professor: Miguel Arjona Ramírez
sala D2-14, tel.: 3091-5606, correio eletrônico: miguel no lps da usp no br

Laboratório de Processamento de Sinais

SOFTWARE PARA OS EXERCÍCIOS

Bibliografia

[1] N. S. JAYANT, P. NOLL, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.
[2] W. C. CHU, Foundation and evolution of standardized coders. New York: John Wiley & Sons, 2003.
[3] A. M. KONDOZ, Digital Speech: Coding for low rate communication systems. New York: John Wiley & Sons, 2004.
[4] M. ARJONA RAMÍREZ, M. MINAMI, Low bit rate speech coding. In: J. G. PROAKIS (Ed.) Wiley Encyclopedia of Telecommunications. New York: Wiley, 2003, v. 3, p. 1299-1308.
[5] M. ARJONA RAMÍREZ, M. MINAMI, Technology and Standards for Low-Bit-Rate Vocoding Methods. In: H. BIDGOLI (Ed.) The Handbook of Computer Networks. New York: Wiley, 2008, v. 2, p. 447-467.
[6] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Advances in Speech Coding.Dordrecht: Kluwer Academic Publishers, 1991.
[7] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Speech and audio coding for wireless and network applications. Dordrecht: Kluwer Academic Publishers, 1993.
[8] T. P. BARNWELL III, K. NAYEBI, C. H. RICHARDSON, Speech coding: A computer laboratory textbook. New York: John Wiley & Sons, 1995.
[9] S. FURUI, Digital speech processing, synthesis, and recognition. New York: Marcel Dekker, 1985.
[10] W. B. KLEIJN, K. K. PALIWAL, Ed., Speech Coding and Synthesis. Amsterdam: Elsevier Science, 1995.
[11] L. R. RABINER, R. W. SCHAFER, Digital processing of speech signals. Englewood Cliffs: Prentice-Hall, 1978.