Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický Motivácia a ciele • Motivácia – Aké jazyky sa nachádzajú na internete? –

Download Report

Transcript Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický Motivácia a ciele • Motivácia – Aké jazyky sa nachádzajú na internete? –

Slide 1

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 2

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 3

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 4

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 5

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 6

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 7

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 8

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 9

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 10

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 11

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami


Slide 12

Natural Language Identification
in the World Wide Web
Peter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?

Slovenský internet


reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:



sk
stuba
fiit

– doména 1. rádu
– doména 2. rádu
– doména 3. rádu

stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok



extrahovanie čistého textu - parser

Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný

Jazyky

Kódovania

• slovenský jazyk
• český jazyk
• poľský jazyk

• UTF-8
• Windows-1250
• ISO 8859-2

Metóda Shift-Codon párovania

A.

B.

C.

D.

Kroky:
A.
B.
C.
D.

Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie

Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:

viac a menej
viac a menej
viac a menej
...
viac a menej

trigram = via
trigram = iac
trigram = ac_
...
trigram = nej

• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov

Určenie deliacej funkcie


Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských



Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?



Výsledky


Úspešnosť správnej identifikácie jazyka a kódovania
zároveň



Množstvo čistého textu nachádzajúceho sa na
webstránkach

Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny


Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní



Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou
Markovových reťazcov

Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami