PowerPoint bemutat&#243

Download Report

Transcript PowerPoint bemutat&#243

2020. 04. 29.

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 1

Tartalom

     

A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés Főnévi csoportok (NP) felismerés

2020. 04. 29.

2

A Szövegfeldolgozás célja

   Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat 2020. 04. 29.

3

Nyelvi adatbázisok I.

 A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése    A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2020. 04. 29.

4

       

Nyelvi adatbázisok II.

Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat.

A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár.

BNC (British National Corpus, http://www.natcorp.ox.ac.uk

) OTA (Oxford Text Archive, http://ota.ahds.ac.uk

) Gutenberg project, http://www.gutenberg.org

) ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk

) PubMed ( http://www.pubmed.gov

) JRC Acquis Corpus ( http://langtech.jrc.it/JRC Acquis.html

) 2020. 04. 29.

5

   

Nyelvi adatbázisok III.

Magyar szövegtárak MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc ) DIA (Digitális Irodalmi Akadémia, http://www.pim.hu

) MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu

) Szószablya ( http://www.szoszablya.hu

)    eMagyarország ( http://www.magyarorszag.hu

) Parlament ( http://www.parlament.hu

) Újságok ( http://www.hvg.hu

, http://www.nol.hu

, http://www.mno.hu

, http://www.magyarhirlap.hu

) 2020. 04. 29.

6

Nyelvi adatbázisok IV.

Számítógépes nyelvészeti adatbázisok     LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu

), ELRA (European Language Resources Association, http://www.elra.info

), MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz ) Szeged Korpusz ( http://www.inf.u-szeged.hu/hlt ) 2020. 04. 29.

7

Nyelvi adatbázisok IV.

 A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése    A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2020. 04. 29.

8

Szófaji kódolás

  

Multext-East EU projekt 1995-97. ( http://nl.ijs.si/ME/ ) A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata Jellemzői:

• Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik • Az értékek egyetlen karakterrel vannak kódolva 2020. 04. 29.

9

2 3 4 5

MSD kódrendszer

Példa: Főnevek (Noun) – N

asztalt: MSD=Nc sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd Pozíció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok)

Típus Nem Szám Eset köznév (common) tulajdonnév (proper) egyes (singular) többes (plural) c p alany (nominative) tárgy (accusative) birtokos (genitive) részes (dative) n a g d s p

Példa

Ø -k; -i, -ai/-ei, jai/-jei; -ék Ø -t Ø, -nak/-nek -nak/-nek asztal(om) asztalok, asztalaim szomszédék asztal(om) asztal(oma)t asztalnak asztalnak 2020. 04. 29.

10

4 5 3

MSD kódrendszer

Példa: Igék (Verb) – V

foglalnának: Vmcp3p Pozí ció

2

Attribútum

Típus Mód/forma

Lehetséges értékek

fő (main) segéd (auxiliary) kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) n

Kód Toldalékok (jelek, ragok)

Ø -j, -jj, -gy, -ggy -(n)na/-(n)ne, -ana/-ene -ni fog

Példa

Idő Személy jelen (present) múlt (past) első (1) második (2) harmadik (3) p s 1 2 3 Ø -t/-tt/-ott/-ett várok vársz vár 11 2020. 04. 29.

A Szintaxis modellezése

  Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába.

Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet, 2020. 04. 29.

12

Speciális (nyílt) tokenosztályok

Megnevezés

Szónál kisebb tokenek Idegen szavak, kifejezések Elektronikus címek (web, mail, útvonal, ...) Indexek (alsó- illetve felső index) Számot tartalmazó tokenek

Alcsoportok

m – morfémák f – idegen (foreign) kifejezések w – www cím m – e-mail cím p – számítógépes útvonal (fájl) e – számítógépes fájl kiterjesztés o – egyéb cím l – alsó (lower) index u – felső (upper) index r – (sport) eredmények t – időpontok f – tizedes törtes mennyiségek (vagy pontot tartalmazó számok) p – százalék értékek g – fok jelet tartalmaz s – előjeles (egész számok) q – arányokat tartalmazó tokenek m – méretetek e – kifejezések x – egyéb tokenek 2020. 04. 29.

Példák

Az -tól/-től tagos esetben ...

„Cogito ergo sum” – a latin közmondás szerint ...

A www.huninet.hu ...

Az e-mail címe: [email protected]

Az értékelés.doc fájlban található ...

A .doc és a .rtf kiterjesztésű ...

Az

A

mátrix a ij elemei ...

2:0-ra verte a Fradi a ...

A vonat 16:30-kor indul.

A pi értéke közelítően 3.14.

A bevétel 300.000 Ft volt.

A kamatláb 40.2% ...

A keddi hőmérséklet -3° volt.

A –1, +2 intervallumban ...

A kenyér energiatartalma 450 kcal/100g.

A szoba mérete 5x3m volt.

A 2+2=4 összeadás eredménye ...

13

Tulajdonnevek

Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRK

http://btb.math.bas.bg/clark/index.html

(ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése.

    

személynevek (a kereszt és vezetéknevek adatbázisát felhasználva, az id. ifj. özv. dr. prof. asszonynév ( né), ...

képzési formákat cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]).

Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...) földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ...

egyéb tulajdonnevek

Annotáció

Többszintű NP struktúrák jelölése és

A tagmondatok jelölése tagekkel

A nem egyértelmű annotáció jele

Részletes útmutató alapján dolgozó annotátorok

Egy fájlt 2 személy egymástól függetlenül annotált

Az NP (névszói szerkezet) annotálásának fontosabb alapelvei

• • •

Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll.

A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben.

A főnév bővítményei a névelő, számnevek és a jelzők.

A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

Egy NP szerkezet ágrajza

NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

2020. 04. 29.

18

1 2 3 4 5 6 7 8 9 10

2020. 04. 29.

Az NP annotált szövegrészlet vázlata

Ritkán vette tudomásul előtt ülő asszony jelenlétét az ablak .

19

Az gazdagított szerkezet ágrajza

ADVP V’ NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP

Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

2020. 04. 29.

20

2020. 04. 29.

6 7 8 1 2 3 4,5 9 10

A gazdagított annotálás XML struktúrája

Ritkán vette tudomásul az ablak előtt ülő asszony jelenlétét .

21