fundamentos de Áudio sistemas telemáticos ano lectivo 2002/2003 lesi grupo de comunicações por...
Post on 18-Apr-2015
108 Views
Preview:
TRANSCRIPT
Fundamentos de Áudio
Sistemas Telemáticos
Ano Lectivo 2002/2003
LESI
Grupo de Comunicações por Computador
Sumário
• Sistema de Audição Humana
• Física do Som
• Gravação e Reprodução Analógica
• Sim Digital
• Compressão Áudio– Métodos de compressão simples– MPEG
Materias utilizados
• Dr. Ze-Nian Li’s course material at:http://www.cs.sfu.ca/CourseCentral/365/li/
• MPEG Audio:http://www.mpeg.org/MPEG/audio.html
Audição Humana
• Mecanismo deveras complexo!• Através dos ouvidos é realizada a captação
das mais diversas formas de som• Os nossos ouvidos transformam o som em
sinais que são processados pelo nosso cérebro
• Vamos fazer uma descrição ligeira do nosso sistema de audição
A física do Som
• Audição Humana • O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro.
• O ouvido tem três partes: externa, média e interna.
A física do Som
• Audição humana O ouvido externoO ouvido externo• O ouvido externo compreende o
pavilhão auricular e o meato acústico externo. O pavilhão capta os sons, tendo papel importante na localização espacial da fonte sonora, extremamente importante para ouvirmos em ambientes ruidosos. O meato acústico externo conduz os sons até a membrana timpânica.
A física do som
• Audição humana Ouvido internoOuvido interno
• Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média
• As vibrações são transformadas em ondas de compressão
A física do somAudição Humana
• O ouvido médio compreende a membrana timpânica, a cadeia de ossículos (martelo ,bigorna e estribo) e os espaços aéreos do osso temporal, particularmente o antro mastóide e as células mastóideas adjacentes.
• O ouvido médio desempenha o papel de um transformador, que evita a perda de energia das ondas sonoras ao passar de um meio gasoso (ar) a um meio líquido (a perilinfa da orelha interna).
A física do som
• Audição HumanaO ouvido internoO ouvido interno
• Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro
Efeito de dissimulação
• Quando um som forte numa determinada frequência estimula os pelos da cóclea– As frequências próximas não são ouvidas caso
sejam menos significativas (de menor amplitude)
– Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking
Termos e Conceitos básicosNo âmbito do nosso sistema de audição
• Sensibilidade às frequências – Mais sensíveis de 1-3 KHz
• Directividade– De onde nos chega determinado som?
• 0.2-3kHz
• Dissimulação (masking) temporal– Também acontece no domínio dos tempos
A física do som
• Ondas sonoras– Uma onda mecânica é uma perturbação que
viaja através dum meio transportando energia dum local para outro.
A física do som
• Ondas sonoras– Uma onda produz áreas de alta e baixa pressão
– Quando a onda de alta pressão atinge o timpano ele move-se para dentro
– Quando a onda de baixa pressão atinge o timpano ele move-se para fora.
A física do som • Ondas sonoras
– A amplitude é o máximo deslocamento positivo.
– Quanto maior a amplitude mais alto é som– É medido em decibéis (db)
A física do som
• Ondas sonoras– O comprimento de onda (wavelength) é a
distância entre dois pontos adjacentes na onda
A física do som
• Ondas sonoras– A frequência da onda é o número de comprimentos
de onda por ciclo (normalmente um segundo)
– É medida em Hertz (ondas por segundo)
– Quanto maior a frequência maior é o tom
0 secs time 1 sec
1 wave 2 waves
2 Hz
t
Representação do som
• Domínio do tempo– Representação da variação da amplitude do
sinal ao longo do tempo
• Domínio da frequência– Representação da amplitude das diferentes
frequências do sinal num determinado instante
A física do somA forma como os humanos se apercebem do som como forte ou fraco depende não só da frequência mas também da amplitude (intensidade).
Limiar da audição(1% dos humanos)
Maioria dos humanos (Limiar)
Limiar da dor
Voz Humana
Frequência Fundamental
A física do som
• A gama normal de audição humana é entre 20Hz e 20000Hz.
• Aqui estão várias frequências (0 dB)– 60 Hz
– 440 Hz– 4000 Hz (-6dB: half power) (+6dB: double power)
– 13000Hz
– 20000Hz
A física do som
• A percepção do som inclui três aspectos:– Intensidade (amplitude);– Tom (frequência); e,– Timbre
• Porquê que o violino e o piano a tocar a mesma nota são tão diferentes?
A física do som
• Timbre – Definido vagamente como tom, cor, textura do
som que permite ao cérebro distinguir um tom de outro
– Afectado pelas propriedades acústicas do instrumento e da sala
Timbre
• Formas de onda complexa são construídas combinando um certo número de formas de onda mais simples de diferentes amplitudes e frequências
• É por esta razão que conseguimos perceber tons altos e baixos simultaneamente.
Timbre
• O som característico duma forma de onda (produzido por um piano ou um violino) é chamado o seu timbre.
• O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências.
• Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência
Timbre
• As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda.
• O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo.
Timbre
A variação das características espectrais com o tempo para uma forma de onda é a assinatura dum tom que permite a sua descrição com uma string.
Gravação e Reprodução Analógica
• Um microfone converte as mudanças de pressão no ar em mudanças na tensão eléctrica.
• Produz-se um sinal analógico.
• Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares .
Gravação e Reprodução Analógica
• Para gravar um som com um microfone, podemos enviá-lo para uma fita magnética que pode guardar uma réplica do sinal analógico.
Gravação e Reprodução Analógica
• Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio.
• Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente..
Gravação e Reprodução Analógica
• Para mover o cone para frente e para trás o altifalante tem que ser alimentado por uma corrente eléctrica
• Durante a reprodução, o gravador ou o gira-discos geram a corrente que alimenta um amplificador
• Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação.
Gravação e Reprodução Analógica
• Até recentemente o som era gravado em como um sinal analógico numa cassete de fita magnética ou num disco de vinil.
• Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído.
Gravação e Reprodução Analógica
• Quando se copia gravações analógicas tem que se converter a gravação magnética num sinal eléctrico e tornar a gravar o que adiciona ainda mais ruído.
• A edição de som em fita é linear.
Digitalização do Som
• Quando se trabalha com audio digital há duas questões que precisam de resposta:– Que qualidade é necessária?– Que débito de dados pode ser tolerado?
• Há 3 categoriais de áudio digital :– Alta fidelidade – Comunicação telefónica– Voz compactada
Digitalização do Som
• Áudio Digital é baseado em dois aspectos:– Amostragem (tempo)– Quantificação (nível)
Amostragem
– O som natural é analógico– O som digital é digital– Para conversão de analógico para digital é
necessária a amostragem
Amostragem
– Uma gravação analógica (ie fita magnética) é baseada no registo da voltagem como padrões de magnetização nas partículas óxidas da fita.
– Uma gravação digital converte as voltagens em números binários
Amostragem
– Uma onda analógica pode ser amostrada com um número de bits pré-determinado
– Isto é chamado a resolução em bits do sistema – Quanto mais bits maior a clareza.
• 8 bits correspondem a 256 níveis
• 16 bits correspondem a 65,536 níveis, etc..
• Ganham-se 6db por cada bit• 8 bits 256 níveis = 48 dB, 16 bits 65,536
níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6.
Frequência de amostragem
– A o ritmo de obtenção de amostras dum onda analógica é designada por frequência de amostragem
– É o número de amostras obtidas por segundo.– A frequência de amostragem determina a
largura de banda do sistema.
Frequência de amostragem– Quanto maior for a frequência de amostragem
maior é a possibilidade de capturar as altas frequências.
Frequência de amostragem– Uma onda deve ser amostrada duas vezes para se obter
uma verdadeira representação (Teoria de Nyquist)
– A frequência de amostragem deve ser pelos menos o dobro da mais alta frequência do sinal
– Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio.
Frequência de amostragem versus armazenamento
• Quando aumenta a frequência de amostragem melhora a qualidade da amostra .
• Com o aumento da qualidade aumenta a quantidade de espaço de armazenamento necessário. – Uma velocidade de amostragem de 44.1 kHz com
gravação de 16 bit usa aproximadamente 5Mb por minuto. (10Mb para stereo). NOTA: norma CD.
• A 22.05 kHz é metade.
Exemplos de amostragem
– 44.1kHz
– 22.05kHz
– 16kHz
– 8kHz
– 6Hz
Música de 35 Segundos
Onda sonora gerada para estes 35 segundos.
Áudio de alta fidelidade
• O Áudio Digital apareceu com o CD (Compact Laser Disc)
• A superfície dum CD virgem reflecte (espelhada) • A informação digital é armazenada como buracos
na superfície.• Os dados são armazenados com uma única pista
em espiral desde o interior para fora. Leitura a 1.2 m/s.
• Dados armazenados a 1 Mbit/mm2
Áudio de alta fidelidade
• Sistemas Audio com mais de um canal chamam-se estereofónicos. .
• 4 canais de som em video chama-se Dolby Stereo.
• A versão cinema em casa é Dolby Surround Pro Logic.
• Os sinais dos canais de ambiente são atrasados 15-20 millisegundos para dar a impressão ao ouvinte que vêm do ecrâ e não dos altifalantes.
Métodos Simples de Compressão
• Compressão de silêncios
• Adaptative Diferential Pulse Code Modulation (ADPCM)– CTTITT G.721 --- 16 or 32 Kbits/sec.
• Linear Predictive Coding (LPC)• Code Excited Linear Predictor (CELP)
Modelo Psico-Acústico
• Audição e Voz Humana
• Sensibilidade da Audição humana– Limiar da Audição– Dissimulação na Frequência– Dissimulação no Tempo
Limiar da Frequência
Experiência : Uma pessoa num quarto em silêncio. Aumente a intensidade dum tom de
1 Khz até ele se tornar audível. Varia a frequência e vá registando
2 4 6 8 10 12 14 16
0
10
20
30
40
bB
Frequency (KHz)
Dissimulação na Frequência
Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma amplitude fixa
(60 dB). Coloque o tom de teste numa frequência (1.1 kHz) e aumente a sua intensidade até se poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição.
Frequency Masking (Contd.)• Repeat previous experiment for various frequencies of
masking tones
Temporal Masking• Se ouvirmos um som e o pararmos demora tempo
até podermos ouvir um tom próximo na frequência.
• Enuncie a experiência a realizar
Efeito total da dissimulação:
MPEG Audio
• As duas técnicas avançadas de codificação áudio são baseadas em – Codificação de sub-banda (SBC)– Codificação de Transformada Adaptativa
• A codificação MPEG de Audio– Tem três camadas independentes de compressão áudio
• Cada um tem o seu codificador SBC• Correspondência entre Tempo e Frequência• Modelo Psico-Acústico• Quatificador
MPEG Audio
• Camada 1– usa codificação de sub-banda
• Camada 2– usa codificação de sub-banda com quadros
maiores e maior nível de compressão
• Camada 3 – Usa tanto codificação de sub-banda como de
transformada
MPEG• MPEG-1 Audio
– Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada
• Amostrá-lo a 32, 44.1 ou 48 kHz
• Codificá-lo de 32 a 192 Kbps por canal áudio
• MPEG-1– débito 1.5 Mbit/seg para áudio e vídeo
– 1.2 para vídeo e 0.3 para áudio• Audio CD não compactado tem 44,100 amostras por
segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg
– Factor de Compressão 2,7 a 24
MPEG• Com compressão 6:1
– Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg• Sob condições ótptimas de audição, ouvintes experimentados não
conseguem distinguir o clip original e codificado
• Suporta um ou dois canais de áudio num dos seguintes modos1. Monofónico – um simples canal de áudio
2. Monofónico dual – 2 canais independentes por ex. Português e Inglês
3. Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta
4. Junção stereo- tira partido da correlação entre os dois canais
Algoritmo de Codificação MPEG
Filter into Critical Bands
(Sub-band filtering
Compute Masking
(PsychoacousticModel)
Allocate bits(Quantization)
Format BitStream
InputOutput
Exemplo de Masking e Quantificação
Banda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Nível 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
MPEG Coding Specifics
AudioSamples
Sub-band filter 0
Sub-band filter 1
Sub-band filter 2
Sub-band filter 31
.
.
.
12 samples
12 samples
12 samples
12 samples
12 samples
12 samples
Layer IFrame
Layer II, IIIFrame
.
.
.
.
.
.
Especificidades da codificação MPEG
• Camada 1 do MPEG – O filtro aplicado é um quadro (12x32 = 384 amostras) de cada vez.
A 48 kHz, cada quadro contém 8ms de som.
– Usa a FFT com 512 pontos para obter uma informação espectral detalhada do sinal (filtro de sub-banda). Usa uma faixa de frequência igual em cada banda.
– Modelo psico-acústico usa apenas o masking na frequência.
– Aplicações típicas• Gravação digital em tapes, discos que podem suportar um débito alto.
– Melhor qualidade conseguida com débito de 384kbps.
Especificidades da codificação MPEG
• Camada 2 do MPEG– Usa 3 quadros no filtro (anterior, actual e seguinte com um total
de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som.
– Modela um pouco o masking temporal.
– Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda.
– Maior qualidade conseguida com um débito de 256 k bps.
– Aplicações típicas• Difusão áudio, TV, Gravação profissional e Multimedia
Especificidades da codificação MPEG
• MPEG Layer III– Usa melhores filtros nas bandas críticas
– Não usa sub-bandas iguais Uses non-equal frequency bands
– O modelo psico-acústico• Inclui efeitos de dissimulação temporal
• Tira partido da redundância steero
• Codificador de Huffman
Especificidades da codificação MPEG
MPEG Camada 3
Codificação da Redundância Stereo
– Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente.
– Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita
top related