Wprowadzenie do cyfrowej obróbki dźwięku Na czym polega kompresja plików audio? Zapis dźwięku w formacie cyfrowym polega na zapisaniu kształtu sygnału w.
Download ReportTranscript Wprowadzenie do cyfrowej obróbki dźwięku Na czym polega kompresja plików audio? Zapis dźwięku w formacie cyfrowym polega na zapisaniu kształtu sygnału w.
Slide 1
Wprowadzenie do cyfrowej obróbki dźwięku
Slide 2
Na czym polega kompresja plików audio?
Zapis dźwięku w formacie cyfrowym polega na zapisaniu
kształtu sygnału w postaci ciągu liczb. Procedura powyższa
nazywana jest próbkowaniem
Kolejne naniesienia tych liczb na wykres pozwalają na graficzne
przestawienie przebiegu sygnału.
Slide 3
Częstotliwość próbkowania
Wartość sygnału jest zapisywana z pewną częstotliwością
zwaną "częstotliwością próbkowania".
W przypadku płyty CD częstotliwość ta wynosi 44,1 kHz, co
oznacza, że w ciągu sekundy zapisywane jest 44 100 wartości
sygnału audio. Mnożąc 16 bitów przez 44100 otrzymujemy
konieczność zapisania nieco ponad 700 000 bitów na sekundę,
czyli 88 200 bajtów na sekundę (1 bajt = 8 bitów). Ponieważ
zazwyczaj zapis odbywa się dwukanałowo (stereo), to powyższą
liczbę należy pomnożyć jeszcze przez 2, co da ostatecznie ok. 1
400 000 bitów na sekundę i 176 400 bajtów na sekundę - w
przybliżeniu ok. 170 kB/s.
Slide 4
Rozdzielczość bitowa
Drugim kluczowym czynnikiem wpływającym na jakość
dźwięku jest rozdzielczość bitowa.
Rozdzielczość bitowa określa liczbę bitów opisujących każdą
próbkę dźwięku (czyli każdą liczbę reprezentującą chwilową
wartość sygnału). Rozdzielczość bitowa rośnie wykładniczo,
czyli 8-bitowy dźwięk może zawierać 28, czyli 256 różnych
poziomów wartości, zaś dźwięk 16-bitowy może ich zawierać
już 216, czyli 65 536. Z tego względu cyfrowy dźwięk 16-bitowy
zawiera znacznie więcej informacji o pierwotnym sygnale niż
dźwięk 8-bitowy o tej samej długości. W rezultacie, dzięki
dodatkowej informacji zawartej w dźwięku 16-bitowym jest
zredukowany szum występujący w tle, zaś sam dźwięk jest
bogatszy i czystszy. Ten sam dźwięk nagrany z rozdzielczością
8-bitową jest zaszumiony i "płytki".
Slide 5
Rozmiar pliku
Wzór, na podstawie którego możesz obliczyć rozmiar
pliku dźwiękowego w bajtach przedstawia się następująco:
czas
trwania
dźwięku
w
sekundach
×
częstotliwość
próbkowania w Hz × liczba kanałów × (rozdzielczość bitowa /
8) = rozmiar pliku
rozdzielczość bitową dzielimy przez 8, ponieważ w jednym
bajcie mieści się 8 bitów.
Zgodnie z tym wzorem, 20-sekundowy stereofoniczny klip
dźwiękowy
o
rozdzielczości
8-bitowej
i
częstotliwości
próbkowania 11 kHz zmieści się w pliku o wielkości:
20 s ×11 025 Hz ×2 kanały × (8 bitów/8) = 441 000 Bajtów =
430 kB
Slide 6
Próbkowanie
Cyfrowy zapis dźwięku opiera się na procedurze zwanej
próbkowaniem. Próbkowanie, to nic innego, tylko odczytywanie
poziomu sygnału akustycznego w danej chwili i zapisywanie jako
liczby.
Oczywiście, prawie zawsze liczba ta jest zapisywana w formacie
dwójkowym.
Slide 7
Im większa częstotliwość próbkowania tym sygnał cyfrowy
jest dokładniejszy
Slide 8
Dlatego zasadą jest, że im gęściej zapisywany jest sygnał
(czyli im większa jest częstotliwość próbkowania), tym dokładniej
opisze on brzmienie muzyki. W teorii przyjmuje się, że najwyższa
zapisywana częstotliwość jest równa połowie częstotliwości
próbkowania (tzw. kryterium Nyquist-a).
Można to prześledzić na przykładzie sygnału o kształcie sinusa widać, że można to w miarę dobrze zrobić zrobić zapisując jego
skrajne wychylenia. Otrzymamy kanciasty (piłokształtny) sygnał,
który z grubsza przypomina zapisywanego sinusa.
Slide 9
W przeciwnym
zniekształcony
wypadku
otrzymamy
sygnał
mocno
Slide 10
Ostatecznie, mamy taką sytuację, że tylko z racji
zapisywania
dźwięku
przy
odtwarzaniu
powstaje
wiele
nieprzyjemnych zniekształceń:
• pojawiają się tony, których w sygnale źródłowym w ogóle nie
było (zjawisko aliassingu)
• znikają tony, które były
• powstają tzw. szumy próbkowania.
Część z tych efektów da się co prawda złagodzić - np. poprzez
ograniczenie
zapisywanego
pasma
częstotliwości,
czy
wyrafinowane metody antyaliassingowe stosowane podczas
zapisu. Poza tym układy scalone stosowane w odtwarzaczach CD
wyraźnie
poprawiają
efekt
końcowy
eliminując
niektóre
powstające szumy i typowe zniekształcenia. Jednak oczywiście nie
wszystkie, zaś wprowadzane techniki mają negatywne skutki
uboczne, co objawia się zubażaniem odtwarzanej muzyki.
Slide 11
Kompresja -
"pakowanie" danych dźwiękowych.
Są dwa rodzaje kompresji:
• kompresja bezstratna
• kompresja stratna
Slide 12
Kompresja bezstratna
Kompresja bezstratna zachowuje pełną informację o
przebiegu sygnału dźwiękowego. Polega ona na sprytnej zmianie
sposobu zapisu danych, dzięki czemu zapis jest oszczędniejszy.
Możliwość stosowania tego rodzaju kompresji wynika z faktu, że
standardowe sposoby zapisu dźwięku (np. pliki wav) są dość
"rozrzutne" pod względem wykorzystania pamięci. Np. bez
względu na to, czy w danym momencie dźwięk ma dużą
amplitudę i skomplikowany przebieg, czy panuje absolutna cisza,
dane w formacie stereo zajmują około 170 kB na każdą sekundę.
Dlatego zmieniając sposób zapisu da się sporo danych
"upakować".
Dlatego kompresja bezstratna pozwala przeciętnie w np. w
jednym bajcie danych skompresowanych zapisać więcej niż 1
bajt danych wyjściowych.
Slide 13
Możliwe do zastosowanie metody:
- można np. oznaczać obszary ciszy i zapisywać je oszczędniej
niż w 16 bitach na kanał i na jedną próbkę sygnału (w końcu
większość rozpiętości przedziału od 0 do 32 768 dla cichych
dźwięków się "marnuje")
- dla muzyki w której różnice między kanałami stereo są
nieznaczne można zapisywać dokładnie zsumowany sygnał
(mono),
a
różnice
(które
będą
niewielkie)
kodować
oszczędniejszym sposobem.
- i inne, jakie tylko wymyślą mądrzy naukowcy...
Niestety, kompresja bezstratna zazwyczaj nie daje
dużych możliwości zmniejszenia rozmiaru plików - zysk na
pojemności pamięci oscyluje w okolicy 2 razy (w najlepszych
warunkach 3-4).
Slide 14
Formaty kompresji bezstratnej są różne. Przykładem
może być tu np.:
monkey's audio
LPAC
RKAU
FLAC
WavPack
jeden z podformatów quicktime'a
Slide 15
Kompresja stratna
Kompresja stratna wykorzystuje kilka uzupełniających się
efektów i technik:
po pierwsze - ten typ kompresji może wykorzystać prawie
wszystkie metody kompresji bezstratnej
po drugie - ponieważ ludzki narząd słuchu nie jest
stuprocentowo dokładny, to wiele dźwięków jest przezeń
"gubionych" i można ich po prostu nie zapisywać,
oszczędzając przy tym pasmo pamięci.
Slide 16
Ta druga metoda - wykorzystanie niedokładności słuchu jest
właśnie kluczem do wydajności kompresji stratnej. W jej ramach
sygnał dźwiękowy jest analizowany pod kątem owych
niedostrzeganych słuchem elementów - np. maskowanie
dźwięków cichych przez głośne, lub maskowanie gorzej
słyszalnych dźwięków.
Dzięki kompresji stratnej daje się (bez wyraźnego pogorszenia
jakości dźwięku) upakować dane audio 10-cio, a nawet 20-to
krotnie. W rezultacie typowe nagranie zajmuje nie kilkadziesiąt,
a kilka megabajtów pamięci.
Slide 17
Formaty kompresji stratnej są różne. Przykładem może
być tu np.:
mp3 (także mp3 pro - twórca Instytut
Fraunhoffera)
wma, asf (MICROSOFT)
mpeg
ogg (Vorbis - projekt open source)
atrac (SONY)
aac (APPLE)
vqf (YAMAHA)
i inne
Slide 18
Koniec
Wprowadzenie do cyfrowej obróbki dźwięku
Slide 2
Na czym polega kompresja plików audio?
Zapis dźwięku w formacie cyfrowym polega na zapisaniu
kształtu sygnału w postaci ciągu liczb. Procedura powyższa
nazywana jest próbkowaniem
Kolejne naniesienia tych liczb na wykres pozwalają na graficzne
przestawienie przebiegu sygnału.
Slide 3
Częstotliwość próbkowania
Wartość sygnału jest zapisywana z pewną częstotliwością
zwaną "częstotliwością próbkowania".
W przypadku płyty CD częstotliwość ta wynosi 44,1 kHz, co
oznacza, że w ciągu sekundy zapisywane jest 44 100 wartości
sygnału audio. Mnożąc 16 bitów przez 44100 otrzymujemy
konieczność zapisania nieco ponad 700 000 bitów na sekundę,
czyli 88 200 bajtów na sekundę (1 bajt = 8 bitów). Ponieważ
zazwyczaj zapis odbywa się dwukanałowo (stereo), to powyższą
liczbę należy pomnożyć jeszcze przez 2, co da ostatecznie ok. 1
400 000 bitów na sekundę i 176 400 bajtów na sekundę - w
przybliżeniu ok. 170 kB/s.
Slide 4
Rozdzielczość bitowa
Drugim kluczowym czynnikiem wpływającym na jakość
dźwięku jest rozdzielczość bitowa.
Rozdzielczość bitowa określa liczbę bitów opisujących każdą
próbkę dźwięku (czyli każdą liczbę reprezentującą chwilową
wartość sygnału). Rozdzielczość bitowa rośnie wykładniczo,
czyli 8-bitowy dźwięk może zawierać 28, czyli 256 różnych
poziomów wartości, zaś dźwięk 16-bitowy może ich zawierać
już 216, czyli 65 536. Z tego względu cyfrowy dźwięk 16-bitowy
zawiera znacznie więcej informacji o pierwotnym sygnale niż
dźwięk 8-bitowy o tej samej długości. W rezultacie, dzięki
dodatkowej informacji zawartej w dźwięku 16-bitowym jest
zredukowany szum występujący w tle, zaś sam dźwięk jest
bogatszy i czystszy. Ten sam dźwięk nagrany z rozdzielczością
8-bitową jest zaszumiony i "płytki".
Slide 5
Rozmiar pliku
Wzór, na podstawie którego możesz obliczyć rozmiar
pliku dźwiękowego w bajtach przedstawia się następująco:
czas
trwania
dźwięku
w
sekundach
×
częstotliwość
próbkowania w Hz × liczba kanałów × (rozdzielczość bitowa /
8) = rozmiar pliku
rozdzielczość bitową dzielimy przez 8, ponieważ w jednym
bajcie mieści się 8 bitów.
Zgodnie z tym wzorem, 20-sekundowy stereofoniczny klip
dźwiękowy
o
rozdzielczości
8-bitowej
i
częstotliwości
próbkowania 11 kHz zmieści się w pliku o wielkości:
20 s ×11 025 Hz ×2 kanały × (8 bitów/8) = 441 000 Bajtów =
430 kB
Slide 6
Próbkowanie
Cyfrowy zapis dźwięku opiera się na procedurze zwanej
próbkowaniem. Próbkowanie, to nic innego, tylko odczytywanie
poziomu sygnału akustycznego w danej chwili i zapisywanie jako
liczby.
Oczywiście, prawie zawsze liczba ta jest zapisywana w formacie
dwójkowym.
Slide 7
Im większa częstotliwość próbkowania tym sygnał cyfrowy
jest dokładniejszy
Slide 8
Dlatego zasadą jest, że im gęściej zapisywany jest sygnał
(czyli im większa jest częstotliwość próbkowania), tym dokładniej
opisze on brzmienie muzyki. W teorii przyjmuje się, że najwyższa
zapisywana częstotliwość jest równa połowie częstotliwości
próbkowania (tzw. kryterium Nyquist-a).
Można to prześledzić na przykładzie sygnału o kształcie sinusa widać, że można to w miarę dobrze zrobić zrobić zapisując jego
skrajne wychylenia. Otrzymamy kanciasty (piłokształtny) sygnał,
który z grubsza przypomina zapisywanego sinusa.
Slide 9
W przeciwnym
zniekształcony
wypadku
otrzymamy
sygnał
mocno
Slide 10
Ostatecznie, mamy taką sytuację, że tylko z racji
zapisywania
dźwięku
przy
odtwarzaniu
powstaje
wiele
nieprzyjemnych zniekształceń:
• pojawiają się tony, których w sygnale źródłowym w ogóle nie
było (zjawisko aliassingu)
• znikają tony, które były
• powstają tzw. szumy próbkowania.
Część z tych efektów da się co prawda złagodzić - np. poprzez
ograniczenie
zapisywanego
pasma
częstotliwości,
czy
wyrafinowane metody antyaliassingowe stosowane podczas
zapisu. Poza tym układy scalone stosowane w odtwarzaczach CD
wyraźnie
poprawiają
efekt
końcowy
eliminując
niektóre
powstające szumy i typowe zniekształcenia. Jednak oczywiście nie
wszystkie, zaś wprowadzane techniki mają negatywne skutki
uboczne, co objawia się zubażaniem odtwarzanej muzyki.
Slide 11
Kompresja -
"pakowanie" danych dźwiękowych.
Są dwa rodzaje kompresji:
• kompresja bezstratna
• kompresja stratna
Slide 12
Kompresja bezstratna
Kompresja bezstratna zachowuje pełną informację o
przebiegu sygnału dźwiękowego. Polega ona na sprytnej zmianie
sposobu zapisu danych, dzięki czemu zapis jest oszczędniejszy.
Możliwość stosowania tego rodzaju kompresji wynika z faktu, że
standardowe sposoby zapisu dźwięku (np. pliki wav) są dość
"rozrzutne" pod względem wykorzystania pamięci. Np. bez
względu na to, czy w danym momencie dźwięk ma dużą
amplitudę i skomplikowany przebieg, czy panuje absolutna cisza,
dane w formacie stereo zajmują około 170 kB na każdą sekundę.
Dlatego zmieniając sposób zapisu da się sporo danych
"upakować".
Dlatego kompresja bezstratna pozwala przeciętnie w np. w
jednym bajcie danych skompresowanych zapisać więcej niż 1
bajt danych wyjściowych.
Slide 13
Możliwe do zastosowanie metody:
- można np. oznaczać obszary ciszy i zapisywać je oszczędniej
niż w 16 bitach na kanał i na jedną próbkę sygnału (w końcu
większość rozpiętości przedziału od 0 do 32 768 dla cichych
dźwięków się "marnuje")
- dla muzyki w której różnice między kanałami stereo są
nieznaczne można zapisywać dokładnie zsumowany sygnał
(mono),
a
różnice
(które
będą
niewielkie)
kodować
oszczędniejszym sposobem.
- i inne, jakie tylko wymyślą mądrzy naukowcy...
Niestety, kompresja bezstratna zazwyczaj nie daje
dużych możliwości zmniejszenia rozmiaru plików - zysk na
pojemności pamięci oscyluje w okolicy 2 razy (w najlepszych
warunkach 3-4).
Slide 14
Formaty kompresji bezstratnej są różne. Przykładem
może być tu np.:
monkey's audio
LPAC
RKAU
FLAC
WavPack
jeden z podformatów quicktime'a
Slide 15
Kompresja stratna
Kompresja stratna wykorzystuje kilka uzupełniających się
efektów i technik:
po pierwsze - ten typ kompresji może wykorzystać prawie
wszystkie metody kompresji bezstratnej
po drugie - ponieważ ludzki narząd słuchu nie jest
stuprocentowo dokładny, to wiele dźwięków jest przezeń
"gubionych" i można ich po prostu nie zapisywać,
oszczędzając przy tym pasmo pamięci.
Slide 16
Ta druga metoda - wykorzystanie niedokładności słuchu jest
właśnie kluczem do wydajności kompresji stratnej. W jej ramach
sygnał dźwiękowy jest analizowany pod kątem owych
niedostrzeganych słuchem elementów - np. maskowanie
dźwięków cichych przez głośne, lub maskowanie gorzej
słyszalnych dźwięków.
Dzięki kompresji stratnej daje się (bez wyraźnego pogorszenia
jakości dźwięku) upakować dane audio 10-cio, a nawet 20-to
krotnie. W rezultacie typowe nagranie zajmuje nie kilkadziesiąt,
a kilka megabajtów pamięci.
Slide 17
Formaty kompresji stratnej są różne. Przykładem może
być tu np.:
mp3 (także mp3 pro - twórca Instytut
Fraunhoffera)
wma, asf (MICROSOFT)
mpeg
ogg (Vorbis - projekt open source)
atrac (SONY)
aac (APPLE)
vqf (YAMAHA)
i inne
Slide 18
Koniec