2 - Compresia imaginilor. Generalitati
Download
Report
Transcript 2 - Compresia imaginilor. Generalitati
UNIVERSITY POLITEHNICA of BUCHAREST
DEPARTMENT OF COMPUTER SCIENCE
Conf. Dr. Ing. Costin-Anton Boiangiu
<[email protected]>
Cuprins
1.
2.
3.
4.
5.
Introducere. Reprezentarea imaginilor
Aspecte ale perceptiei vizuale
Necesitatea compresiei imaginilor
Tehnici de baza in compresia imaginilor (imagini statice)
Standarde in compresia imaginilor. Exemple
Reprezentarea imaginilor
Imaginile
discretizate sunt reprezentate prin tablouri
bidimensionale de forma de mai jos
Pentru cazul simplu al unei imagini cu niveluri de gri, imaginea
discretizata este reprezentata printr-o matrice
x x ( n1 , n 2 ) | 0 n1 N 1 1,
0 n 2 N 2 1
Reprezentarea imaginilor
Intensitatile imaginilor pot fi reprezentate ca numere fara semn, pe un numar de n –
simboluri binare:
x ( i , j ) 0 ,1,2 ,..., 2
n
1
sau intr-un format cu semn, de forma:
x( i , j ) 2
n 1
, 2
n 1
1,..., 1,0 ,1,2 ,..., 2
n 1
1
Cel mai des n=8, insa pot fi si valori mai mari
De exemplu n=12 pentru aplicatii medicale sau n=16 pentru aplicatii militare
Imaginile color sunt reprezentate tipic prin trei valori:
rosu
x R ( i , j ) x( i , j , k )
verde
albastru (RGB= Red, Green, Blue), de forma
x G ( i , j ) x( i , j , k , q )
x B ( i , j ) x( i , j , k , q , v )
Tipuri de imagini
Exista
3
categorii de
imagini
discretizate,
fiecare
cu
anumite
particularitati:
imagini “naturale“
imagini text
imagini grafice
fiecare dintre acestea
avand trasaturi specifice
de corelatie
Semnalele video uzuale
Captarea imaginilor din exterior si convertirea lor in semnale
electrice analogice - operatie efectuata de camerele video - defineste
procesul de intrare video, sau filmare
Semnalele video obtinute pot fi apoi stocate pe suport magnetic
(videobenzi si videocasete) sau transmise sub forma de semnal TV
Semnalul electric ce provine de la camerele video are in mod
obisnuit trei componente, ce corespund celor trei culori esentiale, de
compozitie video: rosu, verde si albastru (RGB - Red, Green, Blue)
Componenetele RGB sunt puternic corelate si – ca urmare – nu se pot
obtine rapoarte de compresie deosebite
Pentru difuzare, se construieste din cele trei componente de baza un
singur semnal, denumit "semnal compozit", care codifica dupa anumite
expresii informatia video de transmis
Semnalele video uzuale
Semnalul YUV (caracteristic pentru sistemul PAL): expolateaza
proprietatea ochiului uman de a fi mai sensibil la intensitatea
luminoasa (luminanta) decat la informatia de culoare (crominanta)
Rezulta ca in loc de a separa culorile in componentele esentiale, se poate
separa informatia de luminanta (Y) de informatia de culoare (doua
canale de crominanta: U si V)
Relatiile dintre componentele Y,U,V si R,G,B sunt exprimate in
formulele:
Y = 0.30R + 0.59G + 0.11B
U = 0.493(B-Y)
V = 0.877(R-Y)
Compunerea lor se face dupa relatia:
Y U sin 2 pif s t V cos 2 pif s t
Semnalele video uzuale
Componenta de luminanta (Y) trebuie transmisa intotdeauna din motive de
compatibilitate; receptoarele alb-negru utilizand-o in mod obligatoriu, celelalte doua
fiind utilizate in plus, de receptoarele color
Orice potentiala eroare in componenta de luminanta (Y) este mai importanta decat in
valorile de crominanta (U, V)
De aceea pentru luminanta se aloca o latime de banda de transmisie mai mare ca
pentru crominanta
Semnalul YIQ: este asemanator cu codificarea YUV si sta la baza standardului TV
NTSC:
Compunerea lor se face dupa relatia
Y I cos 2 pif s t Q sin 2 pif s t
Aspecte ale perceptiei vizuale
Sensibilitatea la contrast variaza functie de frecventa
spatiala
Cel mai sensibil este la frecvente joase:
Aspecte ale perceptiei vizuale
Oamenii sunt mai sensibili la stralucire decat la culoare
Modelul vederii colorate are la baza vederea tri-cromatica: ochiul
poseda 3 tipuri de senzori, fiecare sensibil inrtr-o anumita gama
de lungime de unda
Daca :
s1 ( )
s2 ( )
s3 ( )
reprezinta functiile de absorbtie ale pigmentilor din retina, atunci
receptorii produc un semnal de forma:
ei
C ( ) e i ( )d
unde C ( ) reprezinta distributia spectrala de energie a sursei de
lumina incidente
Aspecte ale perceptiei vizuale
Perceptia miscarii este realizata daca miscarilor sunt cu o
frecventa mai mare de 24 imagini (cadre) / sec
Ochiul este sensibil la schimbarile in luminanta si pe axa
albastru-galben
Vederea presupune detectia marginilor (muchiilor)
Este posibila mascarea vizuala prin schimbari mari ale
luminantei
Necesitatea compresiei imaginilor
Transmisia si memorarea imaginilor necesita capacitati de memorie foarte mari
In figura de mai jos se prezinta necesarul de memorie pentru diferite formate de
imagine
De exemplu, numai pentru nivele de gri cu 256 de valori pentru un pixel, un cadru de
imagine in format SVGA necesita 800*600*8biti / (8 biti /Octet) = 500 KB iar pentru
HDTV este nevoie de 2MB
Necesitatea compresiei imaginilor
Complexitatea problemei creste daca se considera imaginile color unde
fiecare pixel are nevoie de inca 3 octeti pentru informatiile de culoare RGB
Daca se doreste transmisia unei astfel de imagini pe un canal telefonic cu
viteza de 10 Kb/s este nevoie de o durata
T = (800 pixeli * 600 pixeli * 8 biti * 3 culori ) / ( 10 Kb / s) / 60 s / min)=
19.2 min
In cazul imaginilor dinamice, cum este cazul televiziunii, debitul de
informatie poate ajunge la 10 MB/s cee ce necesita canale speciale de
transmisiune si capacitati foarte mari de memorare
De exemplu, un cadru de 512 x 512 pixeli, cu 8 biti pe culoare si 30 de cadre
pe secunda, o imagine digitala are un debit de informatie de:
512 * 512 * 8 *3 * 30 = 188 Mb /s = 23 MB /s.
Necesitatea compresiei imaginilor
Obiectivul compresiei imaginilor este de a reduce numarul de
biti pentru a memora sau a transmite imaginile fara pierdere
semnificativa de informatie
Algoritmii de compresie a imaginilor se bazeaza pe
proprietatile statistice ale imaginilor, si anume pe corelatiile
parametrilor unui set succesiv de pixeli
Astfel, daca parametrii unui doemniu spatial de pixeli sunt
similari, atunci parametrii unui pixel din acel domeniu poate fi
exprimat in functie de parametrii celorlalti pixeli, deja codati
O valoare mare a corelarii implica o distributie spectrala de tip
trece jos si, deci, necesitatea folosirii unei capacitati reduse pentru
transmisie
Rezulta ca gradul de compresie al unei imagini depinde crucial de
proprietatile statistice ale elementelor imaginii
Necesitatea compresiei imaginilor
Aplicatiile tipice pentru transmisia imaginilor sunt:
televiziunea
comunicatii pentru telemasura
teleconferinte
transmisii fax
Stocarea imaginilor este necesara in:
aplicatiile medicale
aplicatiile de instruire
Necesitatea compresiei imaginilor
Redundanta unei imagini depinde de o serie de parametri tehnologici
(adica de sistemul ce utilizeaza imagini) si se refera la:
frecventa de esantionare
numarul de niveluri de cuantizare
prezenta si tipul de de zgomot
Raportul de compresie arata raportul dintre numarul de biti pentru
reprezentarea imaginii originale si numarul de biti necesar pentru
reprezentarea imaginii comprimate
Prezenta unui zgomot in imaginea originala va reduce corelatia dintre
pixeli si determina scadarea raportului de compresie posibil a fi obtinut
Acelasi lucru se intampla si in cazul cresterii numarului de nivele de
cuantizare, cand iarasi se reduce corelatia dintre pixeli si, deci, raportul
de compresie poate sa fie mai mic
Tehnici de compresie a imaginilor
Metodele de compresie pot fi clasificate in urmatoarele
categorii:
metode care elimina redundanta informationala a imaginii de baza
metode care elimina irelevanta informationala bazandu-se pe
modelul perceptiei vizuale a omului, deci a portiunilor sau
parametrilor imaginii care nu sunt percepute de om
metode care trunchiaza imaginea originala, astfel incat imaginea
refacuta dupa compresie este o aproximatie a imaginii originale
Algoritmii de compresie folosesc una sau mai multe tehnici din
categoriile de mai sus
Tehnici de compresie a imaginilor
Din punctul de vedere al pierderii de informatie, metodele de
compresie pot fi:
fara pierdere de informatie
cu pierdere de informatie
Metoda cu pierdere de informatie, cunoscuta si sub numele de
compresie ireversibila:
Imaginea reconstruita nu este identica cu imaginea originala
Se pot obtine rapoarte de compresie mari
Raportul de compresie este cu atat mai mare cu cat gradul de
distorsiune acceptat este mai mare
Tehnici de compresie a imaginilor
Metode de compresie fara pierdere de informatie:
Se mai numesc metode de compresie reversibile sau cu pastrarea
bitilor (bit-preserving)
Aceste metode se pot folosi in cazul imaginilor din aplicatiile
medicale, cand nu este permisa o degradare a informatiei
bilologice reprezentate de pixeli, intrucat altfel pot afecta
diagnosticul
Rapoartele de compresie sunt foarte mici si nesemnificative
Exista 3 strategii de baza:
codarea plana a bitilor
codare predictiva fara pierdere de informatie
codarea fara erori a diferentelor
Tehnici de compresie a imaginilor
Metode de compresie fara pierdere de informatie (cont):
Compresia fara pierdere de informatie pleaca de la
reprezentarea binara a imaginilor si se aplica unul din
algoritmii de codare entropica:
Huffman
Lempel-Ziv
Nu se admite pierdere de informatie
Rata de compresie depinde de algoritmul entropic folosit si
nu este foarte mare
Aplicatiile importante ale acestui tip de compresie se refara
la imaginile binare (Fax) si imagini medicale
Tehnici de compresie a imaginilor
Orice componenta a unei metode de compresie cu pierdere de
informatie poate fi implementata intr-o maniera adaptiva sau
ne-adaptiva
O schema de compresie este adaptiva daca structura (numarul
si/sau valorile parametrilor) se schimba local in cadrul imaginii
pentru a folosi anumite particularitati ale statisticii locale
Metodele adaptive ofera performante mai bune, dar implica
cresterea complexitatii
Imaginile de intrare pot fi:
imagini binare (cum sunt cele de tip text)
continue (8 biti video, 12-biti medicale)
Clasificarea tehncilor de compresie
a imaginilor
Masuri de apreciere cantitativa
Masurile de apreciere cantitativa nu sunt cei mai
importanti in evaluarea calitatii unei imagini reconstruite
dupa compresie
Se folosesc numai pentru evaluarea eficientii codarii a
diferitilor algoritmii
Masurile de baza se bazeaza pe:
raportele semnal-zgomot
eroarea medie patratica
Fie o imagine de dimensiune NxM; fie s(i,j) intensitatea
imaginii in punctul aflat la intersectia liniei i cu coloamna
j si s’(i,j) intensitatea imaginii refacute in acelasi punct
Marimi
Eroarea medie patratica (MSE = Mean Square Error)
MSE E s ( i , j ) ˆs ( i , j )
2
MN
1
N
M
s ( i , j ) ˆs ( i , j )
2
i 1 j 1
Eroarea medie patratica normalizata (NMSE = Normalized
Mean Square Error) se obtine prin raportare la energia
semnalului de la intrare:
N
NMSE
2
E s ( i , j ) ˆs ( i , j )
E s ( i , j )
2
M
s ( i , j ) ˆs ( i , j )
i 1 j 1
N
M
s ( i , j )
i 1 j 1
sau prin raportare la intensitatea imaginii:
NMSE p
E s ( i , j ) ˆs ( i , j )
2
x pp
2
1
NM
N
M
s ( i , j ) ˆs ( i , j )
i 1 j 1
2
x pp
2
2
2
Marimi
Pentru o imagine cu rezolutie de 8 bit PCM, xpp este 255
Daca se considera si momentele de timp prin indicele k, se
poate calcula eroarea medie patratica pe un domeniu de
timp caracterizat de P momente cu relatia:
TMSE E s ( i , j , k ) ˆs ( i , j , k )
2
MNP
1
N
M
P
2
ˆ
s
(
i
,
j
,
k
)
s
(
i
,
j
,
k
)
i 1 j 1k 1
Marimi
Eroarea medie absoluta (MAE = Mean Absolute Error)
MAE E s ( i , j ) ˆs ( i , j )
1
MN
N
M
s ( i , j ) ˆs ( i , j )
i 1 j 1
Eroarea
medie absoluta normalizata
Normalized Mean Absolute Error)
N
NMAE
E s ( i , j ) ˆs ( i , j )
E s( i , j )
M
s ( i , j ) ˆs ( i , j )
i 1 j 1
N
M
i 1 j 1
s( i , j )
(NMAE
=
Marimi
Coeficientul de corelatie normalizat (NCC = Normalized
Correlation Coefficient)
NCC
R ss ( )
R ss ( ) R ˆs ˆs ( )
E s ( i , j ) ˆs ( i , j )
N
E s ( i , j ) s ( i , j ) E ˆs ( i , j ) ˆs ( i , j )
M
s ( i , j ) ˆs ( i , j )
i 1 j 1
N
M
s
i 1 j 1
N
2
( i , j )
M
ˆs
2
( i, j )
i 1 j 1
trebuie sa fie 1 pentru o reconstructie ideala
Masuri de apreciere subiective
Pentru evaluari subiective, se considera un grup de observatori,
considerand ca sunt experti in codarea imaginilor, care
analizeaza imaginile originale si cele procesate in conditii de
iluminare si de distanta adecvate
Se calculeaza, ca si in cazul audio, un scor mediu al opiniilor
(MOS) pe baza unei scari de apreciere
Exemplu:
Nr.
1
2
3
4
5
6
7
Opinia
Imperceptibila
Abia perceptibila
Perceptibila dar nu afecteaza
imaginea
Afecteaza imaginea dar nu
este deranjanta
Un pic deranjanta
Deranjanta
Intolerabila
Scor
7
6
5
4
3
2
1
Exemplu
Figura alaturata prezinta 4
imagini in format “jpg” in
format gray (8 biti), deci
de la 0 la 255
Dimensiunile matricilor ce
reprezinta imaginile sunt
de 200 x 200
Imaginile au indiciii de
calitate, dupa formatul jpg,
de 90%, 40, 10% si 1%
Exemplu
Compresia prin re-cuantizare
Compresia prin re-cuantizare
Scopul este reducerea numarului posibil de valori pentru codare
Figura de mai jos arata mecanismul recuantizarii cu 4 domenii:
Se obtine un raport de compresie dat de raportul dintre numarul initial de
niveluri si numarul nou de niveluri 4
Fiecare valoare din fiecare intervalul va fi cuantizat cu un numar, iar la
decuantizare se inmulteste numarul memorat cu latimea intervalului de
recuantizare
Compresia prin re-cuantizare
Raportul de compresie este
RC
nc nl n _ bit _ per _ pixel
nc nl 4
n _ bit _ per _ pixel
4
8
2
4
Exemplu
Sa se faca compresia imaginii de mai jos prin metoda
recuantizarii de la 8 la 2 biti pe esantion
Dimensiunea imaginii este de 4x4 pixeli
10
200
200
200
10
10
5
10
5
10
5
10
10
200
200
200
Exemplu
Plaja nivelelor de cuantizare, de la 0 la 255, este impartita in 4 domenii de
cuantizare, numerotate de la I0 la I3
Fiecare interval este reprezentat prin numerele ce arata jumatatea intervalului
Ceea ce trebuie memorat se refera la numarul intervalului, atat timp cat se cunoaste
latimea fiecarui interval
I0
I
3
I3
I3
I0
I0
I0
I0
I0
I0
I0
I0
I 0 0
I3
3
I 3 3
I 3 3
0
0
0
0
0
0
0
0
0
3
3
3
Exemplu
Standardului CCITT
Standardele CCITT T.4 si T.6 sunt elaborate pentru
compresia imaginilor alb-negru (transmisiii facsimile),
incluzand:
rezolutii pentru scanare si tiparire
restrictii de timp
tolerante dimensionale, etc.
Principiul de baza este codarea imaginii sursa in modul
linie dupa linie, corespunzator modului in care liniile sunt
tiparite si scanate intr-o masina de tip fax
Standardului CCITT
Diferenta dintre cele doua standarde (T.4. si T.6.)consta in
modul in care sunt tratate liniiile succesive
In primul standard liniile sunt codate independent, si, in al doilea
standard, liniile sunt codate cu referinta la liniile anterioare, ceea
ce duce la o compresie mai mare
In primul standard o linie scanata este codata printr-o secventa
de numere de pixeli albi si negri, cu alternanta celor albi si
negri
Fiecare secventa de pixeli este codata cu un numar variabil de biti
Rapoartele de compresie sunt in general de ordinul 10:1 pentru
pagini de tipul textului scris
Standardului CCITT
CCITT T.6 este mai complex, in sensul ca fiecare linie
este comparata cu linia anterioara, astfel incat – ca efect –
se considera si trasaturile verticale din imaginea sursa
In loc sa se considere pixeli albi-negri alternanti, se
considera pozitiile pixelilor in care se schimba informatia,
deci se codifica pozitia fiecarui pixel inceput de trasatura
cu referire la linia precedenta
Exemplu