Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický Motivácia a ciele • Motivácia – Aké jazyky sa nachádzajú na internete? –
Download ReportTranscript Natural Language Identification in the World Wide Web Peter Vojtek Supervisor: Ing. Vladimír Grlický Motivácia a ciele • Motivácia – Aké jazyky sa nachádzajú na internete? –
Slide 1
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 2
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 3
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 4
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 5
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 6
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 7
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 8
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 9
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 10
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 11
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 12
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 2
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 3
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 4
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 5
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 6
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 7
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 8
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 9
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 10
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 11
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami
Slide 12
Natural Language Identification
in the World Wide Web
Peter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia
– Aké jazyky sa nachádzajú na internete?
– Koľko webstránok je v určitom jazyku a
kódovaní?
– Ako identifikovať jazyk a kódovanie
textu?
• Ciele
– Čo je to „slovenský internet“?
– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet
•
reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových
domén
www.fiit.stuba.sk:
•
sk
stuba
fiit
– doména 1. rádu
– doména 2. rádu
– doména 3. rádu
stiahnutie webstránok – crawler
databáza SK-NIC: ~70 000 domén
úspešne stiahnutých ~ 45 000 webstránok
•
extrahovanie čistého textu - parser
Identifikácia jazyka a kódovania
• Cieľ
– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní
je dokument napísaný
Jazyky
Kódovania
• slovenský jazyk
• český jazyk
• poľský jazyk
• UTF-8
• Windows-1250
• ISO 8859-2
Metóda Shift-Codon párovania
A.
B.
C.
D.
Kroky:
A.
B.
C.
D.
Vytvorenie/získanie korpusu
Vytvorenie množín referenčných trigramov (profil)
Zistenie výskytu trigramov v skúmanom texte
Rozhodovanie na základe deliacej funkcie
Vytvorenie profilu
• získanie trigramov z korpusu
Trigramy pre text: „viac a menej“:
viac a menej
viac a menej
viac a menej
...
viac a menej
trigram = via
trigram = iac
trigram = ac_
...
trigram = nej
• zoradenie trigramov podľa
početnosti výskytu
• výber n najpočetnejších trigramov
Určenie deliacej funkcie
•
Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
•
Existuje vždy priestor pre vytvorenie tejto
hranice?
Zaručuje deliaca funkcia oddelenie
slovenských a ne-slovenských textov?
•
Výsledky
•
Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
•
Množstvo čistého textu nachádzajúceho sa na
webstránkach
Iné možnosti
• prechod od n-gramov ku
Markovovým reťazcom
• text:
neskôr
• trigram: nes, esk, skô, kôr
• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny
•
Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
•
Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou
Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele
– metóda Shift-Codon párovania univerzálna metóda na identifikáciu
jazyka a kódovania
– overenie funkčnosti na menšej
množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených
webstránok a ich analýza
– rozsiahly korpus s podobnými
charakteristikami ako získané
webstránky
– vylepšená metóda pracujúca s
Markovovými reťazcami