fundamentos de Áudio sistemas telemáticos ano lectivo 2002/2003 lesi grupo de comunicações por...

Fundamentos de Áudio

Sistemas Telemáticos

Ano Lectivo 2002/2003

Grupo de Comunicações por Computador

Sumário

• Sistema de Audição Humana

• Física do Som

• Gravação e Reprodução Analógica

• Sim Digital

• Compressão Áudio– Métodos de compressão simples– MPEG

Materias utilizados

• Dr. Ze-Nian Li’s course material at:http://www.cs.sfu.ca/CourseCentral/365/li/

• MPEG Audio:http://www.mpeg.org/MPEG/audio.html

Audição Humana

• Mecanismo deveras complexo!• Através dos ouvidos é realizada a captação

das mais diversas formas de som• Os nossos ouvidos transformam o som em

sinais que são processados pelo nosso cérebro

• Vamos fazer uma descrição ligeira do nosso sistema de audição

A física do Som

• Audição Humana • O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro.

• O ouvido tem três partes: externa, média e interna.

A física do Som

• Audição humana O ouvido externoO ouvido externo• O ouvido externo compreende o

pavilhão auricular e o meato acústico externo. O pavilhão capta os sons, tendo papel importante na localização espacial da fonte sonora, extremamente importante para ouvirmos em ambientes ruidosos. O meato acústico externo conduz os sons até a membrana timpânica.

A física do som

• Audição humana Ouvido internoOuvido interno

• Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média

• As vibrações são transformadas em ondas de compressão

A física do somAudição Humana

• O ouvido médio compreende a membrana timpânica, a cadeia de ossículos (martelo ,bigorna e estribo) e os espaços aéreos do osso temporal, particularmente o antro mastóide e as células mastóideas adjacentes.

• O ouvido médio desempenha o papel de um transformador, que evita a perda de energia das ondas sonoras ao passar de um meio gasoso (ar) a um meio líquido (a perilinfa da orelha interna).

A física do som

• Audição HumanaO ouvido internoO ouvido interno

• Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro

Efeito de dissimulação

• Quando um som forte numa determinada frequência estimula os pelos da cóclea– As frequências próximas não são ouvidas caso

sejam menos significativas (de menor amplitude)

– Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking

Termos e Conceitos básicosNo âmbito do nosso sistema de audição

• Sensibilidade às frequências – Mais sensíveis de 1-3 KHz

• Directividade– De onde nos chega determinado som?

• 0.2-3kHz

• Dissimulação (masking) temporal– Também acontece no domínio dos tempos

A física do som

• Ondas sonoras– Uma onda mecânica é uma perturbação que

viaja através dum meio transportando energia dum local para outro.

A física do som

• Ondas sonoras– Uma onda produz áreas de alta e baixa pressão

– Quando a onda de alta pressão atinge o timpano ele move-se para dentro

– Quando a onda de baixa pressão atinge o timpano ele move-se para fora.

A física do som • Ondas sonoras

– A amplitude é o máximo deslocamento positivo.

– Quanto maior a amplitude mais alto é som– É medido em decibéis (db)

A física do som

• Ondas sonoras– O comprimento de onda (wavelength) é a

distância entre dois pontos adjacentes na onda

A física do som

• Ondas sonoras– A frequência da onda é o número de comprimentos

de onda por ciclo (normalmente um segundo)

– É medida em Hertz (ondas por segundo)

– Quanto maior a frequência maior é o tom

0 secs time 1 sec

1 wave 2 waves

Representação do som

• Domínio do tempo– Representação da variação da amplitude do

sinal ao longo do tempo

• Domínio da frequência– Representação da amplitude das diferentes

frequências do sinal num determinado instante

A física do somA forma como os humanos se apercebem do som como forte ou fraco depende não só da frequência mas também da amplitude (intensidade).

Limiar da audição(1% dos humanos)

Maioria dos humanos (Limiar)

Limiar da dor

Voz Humana

Frequência Fundamental

A física do som

• A gama normal de audição humana é entre 20Hz e 20000Hz.

• Aqui estão várias frequências (0 dB)– 60 Hz

– 440 Hz– 4000 Hz (-6dB: half power) (+6dB: double power)

– 13000Hz

– 20000Hz

A física do som

• A percepção do som inclui três aspectos:– Intensidade (amplitude);– Tom (frequência); e,– Timbre

• Porquê que o violino e o piano a tocar a mesma nota são tão diferentes?

A física do som

• Timbre – Definido vagamente como tom, cor, textura do

som que permite ao cérebro distinguir um tom de outro

– Afectado pelas propriedades acústicas do instrumento e da sala

Timbre

• Formas de onda complexa são construídas combinando um certo número de formas de onda mais simples de diferentes amplitudes e frequências

• É por esta razão que conseguimos perceber tons altos e baixos simultaneamente.

Timbre

• O som característico duma forma de onda (produzido por um piano ou um violino) é chamado o seu timbre.

• O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências.

• Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência

Timbre

• As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda.

• O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo.

Timbre

A variação das características espectrais com o tempo para uma forma de onda é a assinatura dum tom que permite a sua descrição com uma string.

Gravação e Reprodução Analógica

• Um microfone converte as mudanças de pressão no ar em mudanças na tensão eléctrica.

• Produz-se um sinal analógico.

• Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares .

• Para gravar um som com um microfone, podemos enviá-lo para uma fita magnética que pode guardar uma réplica do sinal analógico.

• Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio.

• Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente..

• Para mover o cone para frente e para trás o altifalante tem que ser alimentado por uma corrente eléctrica

• Durante a reprodução, o gravador ou o gira-discos geram a corrente que alimenta um amplificador

• Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação.

• Até recentemente o som era gravado em como um sinal analógico numa cassete de fita magnética ou num disco de vinil.

• Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído.

• Quando se copia gravações analógicas tem que se converter a gravação magnética num sinal eléctrico e tornar a gravar o que adiciona ainda mais ruído.

• A edição de som em fita é linear.

Digitalização do Som

• Quando se trabalha com audio digital há duas questões que precisam de resposta:– Que qualidade é necessária?– Que débito de dados pode ser tolerado?

• Há 3 categoriais de áudio digital :– Alta fidelidade – Comunicação telefónica– Voz compactada

Digitalização do Som

• Áudio Digital é baseado em dois aspectos:– Amostragem (tempo)– Quantificação (nível)

Amostragem

– O som natural é analógico– O som digital é digital– Para conversão de analógico para digital é

necessária a amostragem

Amostragem

– Uma gravação analógica (ie fita magnética) é baseada no registo da voltagem como padrões de magnetização nas partículas óxidas da fita.

– Uma gravação digital converte as voltagens em números binários

Amostragem

– Uma onda analógica pode ser amostrada com um número de bits pré-determinado

– Isto é chamado a resolução em bits do sistema – Quanto mais bits maior a clareza.

• 8 bits correspondem a 256 níveis

• 16 bits correspondem a 65,536 níveis, etc..

• Ganham-se 6db por cada bit• 8 bits 256 níveis = 48 dB, 16 bits 65,536

níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6.

Frequência de amostragem

– A o ritmo de obtenção de amostras dum onda analógica é designada por frequência de amostragem

– É o número de amostras obtidas por segundo.– A frequência de amostragem determina a

largura de banda do sistema.

Frequência de amostragem– Quanto maior for a frequência de amostragem

maior é a possibilidade de capturar as altas frequências.

Frequência de amostragem– Uma onda deve ser amostrada duas vezes para se obter

uma verdadeira representação (Teoria de Nyquist)

– A frequência de amostragem deve ser pelos menos o dobro da mais alta frequência do sinal

– Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio.

Frequência de amostragem versus armazenamento

• Quando aumenta a frequência de amostragem melhora a qualidade da amostra .

• Com o aumento da qualidade aumenta a quantidade de espaço de armazenamento necessário. – Uma velocidade de amostragem de 44.1 kHz com

gravação de 16 bit usa aproximadamente 5Mb por minuto. (10Mb para stereo). NOTA: norma CD.

• A 22.05 kHz é metade.

Exemplos de amostragem

– 44.1kHz

– 22.05kHz

– 16kHz

– 8kHz

– 6Hz

Música de 35 Segundos

Onda sonora gerada para estes 35 segundos.

Áudio de alta fidelidade

• O Áudio Digital apareceu com o CD (Compact Laser Disc)

• A superfície dum CD virgem reflecte (espelhada) • A informação digital é armazenada como buracos

na superfície.• Os dados são armazenados com uma única pista

em espiral desde o interior para fora. Leitura a 1.2 m/s.

• Dados armazenados a 1 Mbit/mm2

Áudio de alta fidelidade

• Sistemas Audio com mais de um canal chamam-se estereofónicos. .

• 4 canais de som em video chama-se Dolby Stereo.

• A versão cinema em casa é Dolby Surround Pro Logic.

• Os sinais dos canais de ambiente são atrasados 15-20 millisegundos para dar a impressão ao ouvinte que vêm do ecrâ e não dos altifalantes.

Métodos Simples de Compressão

• Compressão de silêncios

• Adaptative Diferential Pulse Code Modulation (ADPCM)– CTTITT G.721 --- 16 or 32 Kbits/sec.

• Linear Predictive Coding (LPC)• Code Excited Linear Predictor (CELP)

Modelo Psico-Acústico

• Audição e Voz Humana

• Sensibilidade da Audição humana– Limiar da Audição– Dissimulação na Frequência– Dissimulação no Tempo

Limiar da Frequência

Experiência : Uma pessoa num quarto em silêncio. Aumente a intensidade dum tom de

1 Khz até ele se tornar audível. Varia a frequência e vá registando

2 4 6 8 10 12 14 16

Frequency (KHz)

Dissimulação na Frequência

Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma amplitude fixa

(60 dB). Coloque o tom de teste numa frequência (1.1 kHz) e aumente a sua intensidade até se poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição.

Frequency Masking (Contd.)• Repeat previous experiment for various frequencies of

masking tones

Temporal Masking• Se ouvirmos um som e o pararmos demora tempo

até podermos ouvir um tom próximo na frequência.

• Enuncie a experiência a realizar

Efeito total da dissimulação:

MPEG Audio

• As duas técnicas avançadas de codificação áudio são baseadas em – Codificação de sub-banda (SBC)– Codificação de Transformada Adaptativa

• A codificação MPEG de Audio– Tem três camadas independentes de compressão áudio

• Cada um tem o seu codificador SBC• Correspondência entre Tempo e Frequência• Modelo Psico-Acústico• Quatificador

MPEG Audio

• Camada 1– usa codificação de sub-banda

• Camada 2– usa codificação de sub-banda com quadros

maiores e maior nível de compressão

• Camada 3 – Usa tanto codificação de sub-banda como de

transformada

MPEG• MPEG-1 Audio

– Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada

• Amostrá-lo a 32, 44.1 ou 48 kHz

• Codificá-lo de 32 a 192 Kbps por canal áudio

• MPEG-1– débito 1.5 Mbit/seg para áudio e vídeo

– 1.2 para vídeo e 0.3 para áudio• Audio CD não compactado tem 44,100 amostras por

segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg

– Factor de Compressão 2,7 a 24

MPEG• Com compressão 6:1

– Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg• Sob condições ótptimas de audição, ouvintes experimentados não

conseguem distinguir o clip original e codificado

• Suporta um ou dois canais de áudio num dos seguintes modos1. Monofónico – um simples canal de áudio

2. Monofónico dual – 2 canais independentes por ex. Português e Inglês

3. Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta

4. Junção stereo- tira partido da correlação entre os dois canais

Algoritmo de Codificação MPEG

Filter into Critical Bands

(Sub-band filtering

Compute Masking

(PsychoacousticModel)

Allocate bits(Quantization)

Format BitStream

InputOutput

Exemplo de Masking e Quantificação

Banda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Nível 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1

MPEG Coding Specifics

AudioSamples

Sub-band filter 0

Sub-band filter 1

Sub-band filter 2

Sub-band filter 31

12 samples

Layer IFrame

Layer II, IIIFrame

Especificidades da codificação MPEG

• Camada 1 do MPEG – O filtro aplicado é um quadro (12x32 = 384 amostras) de cada vez.

A 48 kHz, cada quadro contém 8ms de som.

– Usa a FFT com 512 pontos para obter uma informação espectral detalhada do sinal (filtro de sub-banda). Usa uma faixa de frequência igual em cada banda.

– Modelo psico-acústico usa apenas o masking na frequência.

– Aplicações típicas• Gravação digital em tapes, discos que podem suportar um débito alto.

– Melhor qualidade conseguida com débito de 384kbps.

• Camada 2 do MPEG– Usa 3 quadros no filtro (anterior, actual e seguinte com um total

de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som.

– Modela um pouco o masking temporal.

– Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda.

– Maior qualidade conseguida com um débito de 256 k bps.

– Aplicações típicas• Difusão áudio, TV, Gravação profissional e Multimedia

• MPEG Layer III– Usa melhores filtros nas bandas críticas

– Não usa sub-bandas iguais Uses non-equal frequency bands

– O modelo psico-acústico• Inclui efeitos de dissimulação temporal

• Tira partido da redundância steero

• Codificador de Huffman

MPEG Camada 3

Codificação da Redundância Stereo

– Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente.

– Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita

fundamentos de Áudio sistemas telemáticos ano lectivo 2002/2003 lesi grupo de comunicações por...

Documents

lesi batang otak

kgm-427 slide lesi-lesi pada lidah

lesi furkasi

lesi saraf kranial.pdf

lesi intra oral

lesi prekanker om

lesi primer

ingeniería de sistemas telemáticos

lesi putih dan lesi bukan putih 1

lesi pigmentasi

sistemas telemáticos ii

lesi primer dan lesi skunder

lesi saraf perifer

lesi primer dan lesi sekunder

lesi lesi rongga mulut

lesi ulseratif.docx

encaminhamento com qos sistemas telemáticos lesi grupo de...

aplicações e reserva de recursos na internet sistemas...

lesi jamur om

anÁlisis de los sistemas telemÁticos. 1.1elementos de los...