Codificación de Voz

PEE 5761 CODIFICACIÓN DE VOZ

ÁREA: SISTEMAS ELECTRÓNICOS

Nº DE CRÉDITOS:

Clases Teóricas :             3
Seminarios y Otras:   0
Horas de Estudio:           7

DURACIÓN EN SEMANAS:    12

DOCENTE RESPONSABLE: Miguel Arjona Ramírez

OBJETIVOS:

Familiarizar los alumnos con las técnicas modernas de codificación de voz y, principalmente, mediante el ejercicio del pensamiento crítico sobre sus fundamentos, impulsar la búsqueda de mejoras y alternativas a esas técnicas vigentes.

JUSTIFICACIÓN:

Las técnicas de codificación de la señal de voz son usadas tanto para la transmisión cuanto para el almacenamiento compacto de señales de voz. Ellas son demandadas para la transmisión compartida por diferentes canales de voz en comunicaciones telefónicas digitales tanto por la red telefónica pública como por la red celular móvil, además de permitir mayor seguridad y sigilo mediante la criptografía. Además, los canales compartidos pueden transportar vídeo o datos en entornos multimedia, que se están tornando cada vez mas frecuentes y en los cuales la versatilidad de disponer de codificadores que operen a varias tasas de compresión permite establecer compromisos entre calidad de servicio y cantidad de canales, necesarios para atender a la demanda de la telefonía por paquetes como la telefonía vía Internet.

CONTENIDO:
          1. Introducción
1.1. Aplicaciones de la codificación de voz.
1.2. Autoinformación y entropía.
1.3. Capacidad del canal telefónico y tasa de transmisión.
1.4. Tasa de información fonética.
1.5. Tasa de codificación y distorsión. Medidas de distorsión.
1.6. Análisis funcional de un codificador de voz.

2. Cuantificación
2.1. Conceptos sobre cuantificadores: muestra, característica entrada-salida, error de cuantificación.
2.2. Cuantificador uniforme: tipos de características entrada-salida, regiones de cuantificación.
2.3. Relación señal-ruido (SNR) y SNR segmental (SNRSEG).
2.4. Hipótesis para un modelo estadístico del error de cuantificación.
2.5. Procesos estocásticos vistos como generadores de señales.
2.6. Error de cuantificación y la regla de los 6 dB/bit.
2.7. Cuantificadores no uniformes: compresor, expansor, leyes A y m.
2.8. Cuantificadores óptimos, compresión por la ley M.

3. Cuantificación adaptativa
3.1. Energía a corto plazo: estimación en bloque y estimación recurrente.
3.2. Modos de estimación de los parámetros del cuantificador adaptativo: estimación progresiva y estimación regresiva.
3.3. Adaptación de la altura del escalón o paso de cuantificación.
3.4. Control adaptativo de la ganancia de la señal de entrada.

4. Predicción fija con cuantificación adaptativa
4.1. Señal diferencial y bucle de predicción y cuantificación.
4.2. MIC diferencial (MICD o DPCM) básico, ganancia de predicción, sobrecarga de pendiente.
4.3. MICD adaptativo (MICDA o ADPCM) y lógicas de adaptación.
4.4. Modulación delta: sobremuestreo, adaptación con pendiente continuamente variante (CVSD) y adaptación por multiplicadores de Jayant.

5. Vocoders basados en predicción lineal
5.1. Modelo lineal de producción de la voz y espectro a corto plazo.
5.2. Predicción de la señal de voz.
5.3. Predictor variable.
5.4. Análisis predictiva: Ecuaciones normales - método de la autocorrelación y método de la covariancia.
5.5. Algoritmos de Levinson-Durbin, de Schur-Le Roux-Gueguen, PARCOR de Itakura-Saito y de Burg.
5.6. Representaciones por pares de rayas espectrales (LSPs) y por relaciones logarítmicas de áreas (LARs).
5.7. Vocoder LPC: predicción lineal y modelo de excitación.
5.8. Detectores de período fundamental ("pitch"): paralelo y por autocorrelación o funciones relacionadas.

6. Codificación con predicción adaptativa
6.1. APC con predicción adaptativa estimada progresivamente o regresivamente.
6.2. Codificadores APC con predictor a largo plazo.
6.3. Codificación con ruido retroalimentado.
6.4. Codificador predictivo excitado por señal residual (RELP).
6.5. Representación vectorial de la señal de excitación.

7. Determinación de la excitación por análisis mediante síntesis
7.1. Codificador predictivo excitado por códigos (CELP).
7.2. Diccionario adaptativo: su estructura y algoritmos de búsqueda.
7.3. Diccionarios fijos: estocástico, sobrelapados, recortados centralmente, estocásticos esparcidos.
7.4. Diccionarios con estructura multipulso y búsqueda secuencial múltiple estadio.
7.5. Diccionarios multipulso algebraicos (ACELP), búsqueda focalizada y búsqueda conjunta de posición y amplitud (JPAS).
7.6. Diccionários fijos conjugados y diccionarios estructurados por vectores base.
7.7. Ponderación perceptual y postfiltro.

8. Codificación en subbandas y codificación por transformadas
8.1. Introducción a la codificación en subbandas (SBC).
8.2. Bancos de filtros criticamente diezmados.
8.3. Bancos de filtros con estructura en árbol.
8.4. Asignación de bits entre las subbandas basada en el espectro de potencia de la señal.
8.5. Codificador por transformada ortogonal (TC).
8.6. Transformada de Karhunen-Loève (KLT).
8.7. Transformada coseno discreta (DCT).

BIBLIOGRAFÍA:
[1] N. S. JAYANT, P. NOLL, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.
[2] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Advances in Speech Coding.Dordrecht: Kluwer Academic Publishers, 1991.
[3] B. S. ATAL, V. CUPERMAN, A. GERSHO, Ed., Speech and audio coding for wireless and network applications. Dordrecht: Kluwer Academic Publishers, 1993.
[4] T. P. BARNWELL III, K. NAYEBI, C. H. RICHARDSON, Speech coding: A computer laboratory textbook. New York: John Wiley & Sons, 1995.
[5] S. FURUI, Digital speech processing, synthesis, and recognition. New York: Marcel Dekker, 1985.
[6] W. B. KLEIJN, K. K. PALIWAL, Ed., Speech Coding and Synthesis. Amsterdam: Elsevier Science, 1995.
[7] L. R. RABINER, R. W. SCHAFER, Digital processing of speech signals. Englewood Cliffs: Prentice-Hall, 1978.
EVALUACIÓN
En clase se propondrán ejercicios que los alumnos deben entregar resueltos una semana después. Además, se realizará una prueba intermedia y una prueba final.
La nota final se obtiene como
       N = 0,7P + 0,3E,
donde P es el promedio de las notas de las pruebas y E es el promedio de las notas de los ejercicios.

Laboratorio de Procesamiento de Señales