Optical Character Recognition ili OCR

Download Report

Transcript Optical Character Recognition ili OCR

Optical Character
Recognition ili OCR
Mr.sc. Nikolina Stanić Loknar
Grafički fakultet Zagreb
► Optical
Character Recognition ili OCR
je tehnologija koja omogućuje
konvertiranje, prevođenje različitih tipova
slikovnih dokumenata u formate kojima
može manipulirati računalo (to su npr.
ASCII ili UNICODE kodovi)
► Skenirane
slike, PDF dokumente ili slike
ubačene u računalo pomoću digitalne
kamere OCR tehnologija prepoznaje i
prebacuje u formate koji mogu biti
prerađivani ili dorađivani u programima za
obradu teksta kao npr. Microsoft Word
► OCR
sustav se sastoji od optičkog skenera
za čitanje teksta i sofisticiranog softvera za
analiziranje slika
► Većina
OCR sustava koristi kombinaciju
hardvera i softvera koja prepoznaje slovne
znakove
►
Napredni OCR sustavi mogu čitati tekstove
pisane velikim brojem fontova, pa i
rukopisne fontove
► Postoje
dvije osnovne metode koje se
koriste za OCR:
► uspoređivanje matrica (eng. Matrix
matching) i
► Pronalaženje ključnih obilježja (eng. Feature
extraction)
► Jednostavnija
i učestalija metoda je Matrix
matching
► Matrix matching metoda uspoređuje što
skener vidi kao slovni znak sa popisom
slovnih matrica ili predložaka
► Kada skenirana slika odgovara jednoj od
zadanih matrica unutar postavljenog stupnja
sličnosti računalo joj dodjeljuje kôd jednog
od ASCII znakova.
► Pronalaženje
ključnih obilježja je OCR
sustav bez točnog podudaranja s zadanim
predloškom - Inteligentno prepoznavanje
znakova
► Ta metoda ovisi o “računalnoj inteligenciji”
postavljenoj od strane proizvođača
► Računalo traži osnovne oblike kao što su:
otvorene površine, zatvoreni oblici,
dijagonalne linije itd
► Uspoređivanje
matrica najbolje funkcionira
kada se radi s manjim brojem različitih
pismovnih rezova i s malim razlikama unutar
jednog reza
► Kada postoje veće razlike u izgledu slova
metoda Inteligentnog prepoznavanja
znakova je prikladnija
► OCR
fontovi
su oni koje može raspoznati i pročitati
ljudsko oko i uređaj za čitanje OCR fontova
Sadrže slovne znakove od A do Z, brojeve i
nekoliko posebnih znakova
Svaki znak u fontu ima definiranu veličinu i
oblik u kojem se pojavljuje
OCR fontovi su definirani od ANSI
organizacije
► Uređaji
za čitanje OCR fontova dijele se u
dvije skupine:
► uređaji za unos teksta i
► uređaji za učitavanje podataka
► Uređaji
za unos teksta mogu skenirati čitave
dokumente ili velike dijelove dokumenata
► Izvor podataka je unesen s namjerom da
ga netko mijenja za vrijeme ili nakon
skeniranja
► Uređaji za unos teksta imaju različite
stupnjeve automatizacije: od ručnog unosa
do automatskog unosa, čitanja,
razvrstavanja i kapaciteta memorije
► Uređaji
za učitavanje podataka koriste
postupak gdje skenirani podaci dostavljeni
računalu moraju biti vrlo precizni jer su
uneseni bez namjere da ih se kasnije
mijenja
► Točnost pri unosu podataka mora biti puno
veća nego kod unosa teksta
► Postoji
mnogo razloga za korištenje OCR
metode skeniranja u odnosu na ostale
načine unosa podataka:
► OCR smanjuje mogućnost nastanka
pogreške prilikom unosa podataka
► konsolidira podatke prilikom ulaska
► čitljiv je i za ljudsko oko
► može se koristiti za različite tehnike tiska
► Prednosti
OCR-a nad barkodom
► OCR je prikladniji za unos podataka u
kontroliranim uvjetima za bilo koji broj
znakova
► prikladan je kod ulaska i izlaska novčanih
pošiljaka ili sličnih vrijednosnica u
novčarske institucije
► može sadržavati više od četrdeset znakova i
različit broj dostupnih informacija, npr.
datum dospijeća računa, broj računa, iznos,
vrsta usluge i sl
► Barkod
je najprikladniji za identifikaciju
dijelova ili pojedinih predmeta u lošijim
uvjetima ili pri učestalom ponavljanju istih
nositelja podataka koji sadrže samo nekoliko
znakova
► pri identifikaciji i praćenju putničke prtljage
u zračnom prometu
► Barkodovi su otporniji na grublje rukovanje,
ali zauzimaju puno više prostora
► OCR može sadržavati do šest puta više
informacija nego standardni barkod
OCR A font
OCR B font
Barkod
serijski broj na novčanici od 200 hrvatskih kuna tiskan OCR B fontom
Upotreba OCR fontova:
► znatno pomaže pri očitavanju, brojanju i
spremanju novčanica u trezore banaka
► pomaže i kod pronalaska krivotvorenih
novčanica
► Brojač pamti koji su serijski brojevi
novčanica ušli u banku i ne može se dva
puta pojaviti isti broj
► primjena
OCR fontova kod putovnica
► Tu optički čitači pomažu carinicima i
graničnoj policiji kod pronalaska
krivotvorenih putovnica
► Isto tako, elektroničkim čitačima se lakše,
sigurnije i brže obavlja carinska kontrola
► čitanje
i prepoznavanje rukopisa
koristeći OCR sustav :
► Da bi se koristeći OCR sustav moglo
pročitati i prepoznati tekst potrebno je
najprije skenirati sliku sa rezolucijom od 300
dpi.
► Proces
čitanja i prepoznavanja slovnih
znakova program provodi u četiri koraka:
1. otvaranje slike,
2. čitanje slike,
3. provjera pravopisa
4. spremanje teksta u neki od programa za
obradu teksta
► Nakon
otvaranja i čitanja teksta program će
prikazati sliku kao tekst
► Program ne može odmah prepoznati sve
slovne znakove
► U početnoj fazi prepoznavanja slovnih
znakova nekog novog fonta program neće
prepoznavati znakove
► Takvi, za program novi znakovi se moraju
ručno korigirati na taj način da se program
„uči“ prepoznavati znakove
► Označeno
je kurentno slovo n i dodijeljen
mu je znak slova n
► Taj će znak pogram zapamtiti
► OCR programi prepoznaju bitmap nakupine
i u procesu učenja se određenoj količini
bitmap nakupina dodjeljuje neki slovni znak
► Program svaki znak sprema u bazu fontova
koju stvara automatski
► U bazi se nalaze svi slovni znakovi koje je
program ikad pročitao i naučio.
Baza rukopisnih OCR uzoraka
► Ponekad
se dogodi da OCR u svoju bazu
fontova pod nekim slovnim znakom spremi
neke bitmap nakupine koje ne predstavljaju
nikakvo slovo
► To se može dogoditi ako je skenirani tekst
loš ili ako postoje mrlje na papiru, što je
čest slučaj kod dokumenata primljenih
putem faksa
► Takva pogrešno spremljena slova treba
izbrisati iz baze OCR uzoraka
► Nakon
što je program pročitao skenirani
tekst i sliku pretvorio u slovne znakove radi
se provjera pravopisa
► To je dodatna kontrola da se provjeri da li
je tekst dobro prepoznat i da li su riječi
pravilno ispisane
► U četvrtom koraku tekst se prebacuje i
sprema u neki od programa za obradu
teksta najčešće Microsoft Word
Tekst nakon prepoznavanja u OCR programu