Program wykładu 1. Jak słyszymy – podstawy fizyczne i psychofizyczne, efekty maskowania 2.

Download Report

Transcript Program wykładu 1. Jak słyszymy – podstawy fizyczne i psychofizyczne, efekty maskowania 2.

Program wykładu
1. Jak słyszymy – podstawy fizyczne i psychofizyczne,
efekty maskowania
2. Sposoby zapisu sygnałów dźwiękowych
3. Sposoby kodowania sygnałów dźwiękowych ze
szczególnym uwzględnieniem MP3
4. Obiektywna i subiektywna ocena jakości sygnału
dźwiękowego
informatyka +
2
Dźwięk – fala akustyczna
Fala dźwiękowa rozchodzi się
jako podłużna fala akustyczna w
danym ośrodku sprężystym:
gazie, płynie. W ciałach stałych,
takich jak metale, występuje
również fala poprzeczna.
Dźwięk, jako drgania cząsteczek,
charakteryzuje się tym, iż
cząsteczka pobudzona
przekazuje energię cząstce
sąsiedniej, a sama drga wokół
własnej osi. Skutkiem tego są
lokalne zmiany ciśnienia ośrodka
rozchodzące się falowo.
informatyka +
3
Jak odbieramy dźwięki ?
Ton jest elementarnym rodzajem
dźwięku, dla którego fala
dźwiękowa ma postać sinusoidy.
1
0.5
0
-0.5
-1
Wrażenie wysokości dźwięku nie
jest liniowo zależne od
częstotliwości tonu. Występują
różnice między lewym i prawym
uchem.
0
100
200
300
400
500
600
700
800
900
1000
0
100
200
300
400
500
600
700
800
900
1000
1
0.5
0
-0.5
-1
informatyka +
4
Jak odbieramy dźwięki ?
• Interwały muzyczne
to „odległości” między
dźwiękami na skali
muzycznej.
• Określone są stosunkiem
częstotliwości sygnałów.
• Oktawa – interwał
określający dźwięki,
których stosunek
częstotliwości = 2 : 1.
informatyka +
5
Interpretacja interwałów, barwa dźwięku
• Człowiek jest w stanie interpretować poprawnie interwały muzyczne
dla tonów o częstotliwości max ok. 5kHz
– Powyżej 2,5kHz występują znaczne błędy.
– Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice
częstotliwości.
• Barwa – cecha wrażenia słuchowego pozwalająca rozróżnić dwa
dźwięki o takiej samej głośności i wysokości.
• Barwa instrumentu.
• Transjenty, narastanie dźwięku („nabrzmiewanie” i wybrzmiewanie”)
– Fortepian a skrzypce.
informatyka +
6
Analiza dźwięku
Bardzo często w celu analizy sygnału dźwiękowego korzysta się z
jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw.
widmie sygnału dźwiękowego.
informatyka +
7
Dźwięk
• W powietrzu w temperaturze otoczenia 20oC prędkość
dźwięku wynosi ok. 345 m/s.
• Zakres częstotliwości od 20 Hz do 20 kHz jest zakresem
częstotliwości słyszalnych (fonicznych, audio).
• Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o
częstotliwości 20 kHz ma długość 1,72 cm.
• Dźwięki o częstotliwości mniejszej od 20 Hz są
nazywane infradźwiękami, zaś o częstotliwości
większej od 20 kHz – ultradźwiękami.
informatyka +
8
Zakres słyszalności
informatyka +
9
Zakres słyszalności
• Wrażenia głośności zależą od czasu trwania dźwięku.
• Efekt czasowego sumowania głośności dla krótkich czasów trwania.
– Powyżej 200ms nie występuje.
• Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie
lub wysokiej częstotliwości głośność maleje ze wzrostem czasu
trwania – adaptacja głośności.
• Efekt sumowania głośności : powiększenie szerokości pasma
częstotliwościowego szumu białego powoduje wzrost głośności.
Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów
(sinusoidalnych) o takim samy ciśnieniu akustycznym.
informatyka +
10
Ocena jakości dźwięku
• Ucho – instrument bardzo trudny do zamodelowania,
czyli opisania przez wzory matematyczne.
• Odbiór wrażeń muzycznych – proces indywidualny.
•
Ocena jakości – bardzo subiektywna.
informatyka +
11
Formaty zapisu i przechowywania
plików multimedialnych
Kontenery multimedialne umożliwiają przechowywanie różnego
rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o
rozdziałach itp. w wielu formatach.
Przykładami kontenerów multimedialnych są:
• AVI (standardowy kontener systemu Windows)
• Advanced Systems Format (standardowy kontener dla multimediów pakietu
Windows Media – WMA oraz WMV)
• OGG jest bezpłatnym otwartym kontenerem dla multimediów
strumieniowych wysokiej jakości
• MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4)
informatyka +
12
Kodowanie PCM
Metoda PCM polega na reprezentacji wartości chwilowej sygnału
(próbkowaniu) w określonych (najczęściej równych) odstępach czasu,
czyli z określoną częstością (tzw. częstotliwość próbkowania).
informatyka +
13
Kodowanie PCM – kwantyzacja
Wartość chwilowa sygnału
jest przedstawiana za
pomocą słowa kodowego,
którego wartości
odpowiadają wybranym
przedziałom kwantyzacji
sygnału wejściowego.
informatyka +
14
Inne metody cyfrowego kodowania dźwięku
Mp3 – Standard MPEG-1 – "Layer3„
Ogg Vorbis
Mp4 (MPEG-4 Part14) ?
AAC
Usprawnienia względem starszych algorytmów kompresji dźwięku
• próbkowanie 8-96 kHz (MP3 16-48 kHz)
• do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w
standardzie MPEG-2)
• skuteczniejszy i wydajniejszy
• lepsze przenoszenie częstotliwości ponad 16 kHz
• lepszy tryb kompresji sygnału stereofonicznego joint-stereo
informatyka +
15
Psychoakustyka
• Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze
i odrzuca informacje nadmiarowe.
• Dźwięk zapisany w formie nieskompresowanej, na przykład na CD,
zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.
• Słuch ludzki odbiera częstotliwości leżące w zakresie
20Hz – 20 kHz.
• Częstotliwości położone w środku pasma słyszymy lepiej niż
skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć
prawie nic o częstotliwości powyżej 16 kHz.)
• Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub,
gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony
mogą w ogóle nie zostać wychwycone przez ludzki mózg.
informatyka +
16
Maskowanie dźwięków
Maskowanie polega na przysłanianiu sygnałów słabszych
sąsiadujących z sygnałami znacznie głośniejszymi, które je
zagłuszają
Sygnałowi, który będzie lepiej słyszalny dla człowieka, można
przypisać większą ilość bitów w procesie kompresji, a sygnał,
który jest trudny do wychwycenia, może być kompresowany z
użyciem mniejszej liczby bitów lub pominięty
Rozróżniamy 2 rodzaje maskowania:
• maskowanie równoczesne
• maskowanie czasowe
informatyka +
17
Maskowanie równoczesne
Efekt maskowania
równoczesnego polega na tym,
że człowiek nie jest w stanie
odróżnić dwóch dźwięków o
zbliżonej częstotliwości, jeśli
jeden z nich jest znacznie
głośniejszy od drugiego
(przypadek A).
Możliwe jest to dopiero wtedy,
gdy sygnały mają zupełnie różne
częstotliwości (przypadek B).
informatyka +
18
Maskowanie czasowe
Maskowanie czasowe polega na eliminacji składowych o mniejszym
natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym
natężeniu i występują razem w pewnym przedziale czasu.
informatyka +
19
Maskowanie
Zobrazowanie efektu maskowania.
Czarna linia określa próg słyszalności.
Słabe dźwięki – kolor zielony – mogą zostać podczas kompresji usunięte.
Pozostanie tylko dźwięk słyszalny – kolor czerwony.
informatyka +
20
Trochę historii
•
Standard MPEG-1 – Layer3(MP3) został opracowany w niemieckim
instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad
rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów
przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej.
•
Prace rozpoczęto w roku 1987. Głównym celem było opracowanie
zaawansowanego algorytmu kodowania sygnałów audio dla
przyszłych stacji nadawczych.
•
W roku 1991 prace nad algorytmem kodowania Layer3 zostały
ukończone. Opracowany algorytm stał się najbardziej optymalnym
sposobem kodowania sygnałów audio w rodzinie określanej przez
międzynarodowe normy ISO-MPEG.
informatyka +
21
MP3
System kompresji
Stopień kompresji
Wymagana
przepustowość
MPEG-1 Layer 1
1:4
390 kbit/s
MPEG-1 Layer 2
1:8
260 kbit/s
MPEG-1 Layer 3
1 : 12
130 kbit/s
Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w
Internecie jako MP3, ze względu na rozszerzenie) do kodowania
plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można
uzyskać przy 112 –128kbps ( stopień kompresji 11:1 – 13:1).
informatyka +
22
Idea kompresji MP3
• Kompresja MP3 oparta jest na matematycznym modelu
psychoakustycznym ludzkiego ucha.
• Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych
danych, które są dla człowieka niesłyszalne lub, które słyszymy
bardzo słabo.
• Kompresja MP3 jest połączeniem metody kompresji stratnej z
kompresją bezstratną.
• Etap 1 – koder eliminuje z sygnału składowe słabo słyszalne i
niesłyszalne dla człowieka (kompresja stratna).
• Etap 2 – uzyskane dane poddawane są dodatkowej kompresji w
celu eliminacji nadmiarowości (kompresja bezstratna).
informatyka +
23
Transformata kosinusowa (DCT)
• Dyskretna transformacja kosinusowa przekształca dane do
postaci umożliwiającej zastosowanie efektywnych metod kompresji.
• W wyniku działania transformaty na sygnale wejściowym powstają
odpowiadające mu współczynniki transformaty.
• Transformata kosinusowa jest odwracalna, to znaczy, że dysponując
tylko współczynnikami transformaty można odtworzyć
odpowiadający im sygnał bez żadnych strat.
informatyka +
24
Kwantyzacja
Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez
podzielnie ich przez właściwy współczynnik znajdujący się w tabeli
kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby
całkowitej. Proces kwantyzacji można opisać równaniem:
F( x )
k ( x )  round(
)
Q( x )
gdzie:
F(x) – współczynniki transformacji,
Q(x) – tablica kwantyzacji,
round(x) – funkcja zaokrąglająca x do najbliższej liczby całkowitej.
informatyka +
26
Kodowanie Huffmana
• Dane uzyskane w procesie kodowania percepcyjnego poddawane
są drugiemu etapowi kompresji bezstratnej – kodowaniu Huffmana.
• Kodowanie Huffmana to system przypisywania skończonemu
zbiorowi symboli, o z góry znanych częstościach występowania,
kodów o zmiennej liczbie bitów. Później symbole te są zastępowane
odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu
bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego.
informatyka +
27
Kodowanie Huffmana
•
Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w
malejącym porządku ich częstości występowania.
•
Dopóki istnieją przynajmniej dwa drzewa:
–
z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2
utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2,
–
przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa.
•
Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia.
Przykład:
Z={A,B,C,D,E,F},
P={0.35, 0.17, 0.17,
0.16, 0.10, 0.05}
informatyka +
28
Etapy kodowania MP3
1. Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane
ramkami o czasie trwania ułamka sekundy.
2. Na podstawie sygnału kodera wyliczany jest rozkład widmowy
sygnału dźwiękowego.
3. Widmo sygnału dla każdej ramki porównywane jest z
matematycznym modelem psychoakustycznym. W wyniku tego
porównania koder określa, które ze składowych dźwięku jako
najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które
można zakodować w przybliżeniu lub w ogóle pominąć.
4. Ustalany jest optymalny przydział bitów na poszczególne
częstotliwości pasma akustycznego, tak aby zapewnić możliwie
najwierniejsze zakodowanie sygnału.
informatyka +
29
Zobrazowanie sposobu działania banku
filtrów
Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie
usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa “zielone”
sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można
więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony
jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny
poziom szumów, czyli zapisać go mniejszą liczbą bitów.
informatyka +
30
Etapy kodowania MP3, cd.
5. Na podstawie zadanej przez użytkownika gęstości strumienia
bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów
przydzielonych dla każdej ramki (liczba bitów = długość ramki *
bitrate).
6. Strumień bitów podawany jest ponownej kompresji poprzez
kodowanie Huffmana. Celem tej operacji jest usunięcie
nadmiarowości z danych przetworzonych w pierwszym etapie,
czyli dodatkowa kompresja bezstratna.
7. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy
ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje
określające parametry poszczególnych ramek.
informatyka +
31
informatyka +
32
Strumień bitowy
• Gęstość strumienia bitowego określa współczynnik kompresji
sygnału algorytmem MP3.
• Wyznacza on liczbę bitów przypadającą na sekundę finalnego
zapisu.
• Ustawienie odpowiedniej wartości strumienia bitowego jest
kompromisem między jakością a rozmiarem pliku wynikowego.
informatyka +
33
Tryby CBR i VBR
• Kompresja MP3 może przebiegać:
– ze stałą gęstością strumienia bitowego (ang. constant bitrate),
– zmienną gęstością strumienia bitowego (ang. variable bitrate).
• Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda
będzie zawierała tą samą ilość bitów.
• Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki czemu
przydziela więcej bitów fragmentom sygnału, który zawiera dużo
ważnych informacji, oraz mniej bitów dla części sygnału, które są
mniej skomplikowane.
• Kompresja w trybie VBR wymaga podania przedziału tolerancji, w
jakim może się zmieniać gęstość strumienia bitowego.
informatyka +
34
Tryby CBR i VBR
Docelowo
kbit/s
Zakres przepływności kbit/s
--preset insane
320
320 CBR
-- preset fast extreme
245
220...260
225
200...250
190
170...210
175
155...195
165
145...185
-V 5
130
110...150
-V 6
115
95...135
-V 7
100
80...120
-V 8
85
65...105
-V 9
65
45..85
Przełącznik
-b 320
-V 0
Predefiniowane
-V 1
-V 2
--preset fast standard
-V 3
-V 4
--preset fast medium
informatyka +
35
Prezentacja nagrań MP3
• plik oryginalny
próbkowanie 22500Hz rozdzielczość 16 bitów
• kompresja MP3
przepływność 100-125Kbps, tryb VBR
• kompresja MP3
przepływność 32Kbps, tryb CBR
• kompresja MP3
przepływność 20Kbps, tryb CBR
informatyka +
36
Rezerwa bitowa
• Ponieważ zadana gęstość strumienia bitowego obowiązuje dla
każdej ramki, w przypadku bardzo złożonych fragmentów może
okazać się niewystarczająca i koder nie będzie w stanie zapewnić
żądanej jakości zapisu w ramach przydzielonej liczby bitów.
• Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość
skorzystania z dodatkowej rezerwy umożliwiającej zapisanie
nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych
fragmentów ramek, w których po zakodowaniu sygnału zostało
trochę miejsca.
informatyka +
37
Łączenie kanałów zapisu
stereofonicznego
• Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł
dźwięku o niskich częstotliwościach standard MP3 przewiduje
możliwość łączenia kanałów stereofonicznych w jeden za pomocą
opcji „joint stereo”.
• Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie
dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko
jeden).
• Dodatkową możliwością podczas kodowania sygnału z funkcją „joint
stereo” jest stereofonia różnicowa. Polega ona na zapisaniu dwóch
ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz
kanał boczny będący ich różnicą, który służy później do
rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku.
informatyka +
38
Swoboda implementacji
• Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w
dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu
samego kodowania, a jedynie prezentuje ogólny zarys techniki,
i określa wymagany poziom zgodności zapisu z normą.
• Podejście takie ma na celu promowanie różnorodności
implementacji koderów i dekoderów MP3 realizowanych przez
różnych producentów.
• Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł,
określających sposób funkcjonowania standardu tak, aby za
pomocą dowolnego kodera można było wygenerować plik
odtwarzany przez dowolny dekoder.
informatyka +
39
Struktura pliku MP3
• Plik MP3 składa się z ogromnej liczby ramek, z których każda
odpowiada ułamkowi sekundy zapisu rekonstruowanego przez
dekoder.
• Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity
dodatkowych informacji opisujących następujące po nim właściwe
dane.
• Na początku lub końcu pliku mogą znajdować się znaczniki ID3,
które zawierają dane o autorze, tytule, prawach autorskich itp.
informatyka +
40
Składanie nagłówka ramki
Pozycja
Zastosowanie
Długość
A
Ramka synchronizacji
11
B
Wersja MPEG
2
C
Warstwa (MPEG layer)
2
D
Zabezpieczenie
1
E
Index predkości bitowej
4
F
Częstotliwość próbkowania
2
G
Padding bit
1
H
Bit prywatności
1
I
Tryb kanałów
2
J
Tryb rozszerzenia
2
K
Copyright
1
L
Oryginał
1
M
Emfaza
2
informatyka +
41
Jakość kodowania MP3
Jakość dźwięku
Pasmo
Tryb
Przepływność
Współczynnik
kompresji
Telefon
2.5kHz
Mono
8 kbps
1 :96
Fale krótkie
4.5kHz
Mono
16kbps
1:48
Radio AM
7.5kHz
Mono
32kbps
1:24
Radio FM
11kHz
Stereo
56-64kbps
1:24-26
„prawie”CD
15kHz
Stereo
96kbsp
1:16
CD
>15kHz
Stereo
112-128kbps
1:12-14
informatyka +
42
Zalety standardu MP3
• Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik
wynikowy o rozmiarze ok.10 razy mniejszym od oryginału.
• Możemy sterować stopniem kompresji dostosowując go do
indywidualnych potrzeb.
• Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości.
• Dekompresja wymaga znacznie mniej mocy obliczeniowej niż
kompresja.
• Twórcy standardu bezpłatnie udostępnili kod źródłowy programów
kodujących i dekodujących, dzięki czemu standard ten stał się
niezwykle popularny.
informatyka +
43
Wady standardu MP3
• Jest to metoda kompresji stratnej, co uniemożliwia
zrekonstruowanie sygnału oryginalnego.
• Kompresja wymaga stosunkowo dużo mocy
obliczeniowej.
informatyka +
44