Γλωσσική Τεχνολογία

Download Report

Transcript Γλωσσική Τεχνολογία

1
Γλωσσική Τεχνολογία
Μάθημα 3ο:
Βασικές Γλωσσολογικές Έννοιες Ι:
Μορφολογία
Ακαδημαϊκό Έτος 20132014
2
Ακαδημαϊκό Έτος 20132014
Επεξεργασία Φυσικής Γλώσσας
• Κυρίως γραπτή γλώσσα, κύριος στόχος η
δημιουργία υπολογιστικών μοντέλων
γλωσσολογικών θεωριών
• Γλωσσολογικοί κανόνες και αρχές που διέπουν
τα επίπεδα ανάλυσης της φυσικής γλώσσας
• Εισαγωγή σε βασικές γλωσσολογικές έννοιες,
ιδιαίτερα σημαντικές στην ΕΦΓ
3
Ακαδημαϊκό Έτος 20132014
Γλωσσολογία
• Η επιστημονική μελέτη της ανθρώπινης
γλώσσας
▫ Μορφή (μορφολογία, φωνολογία, σύνταξη)
▫ Νόημα (σημασιολογία, πραγματολογία)
▫ Ευρύτερο πλαίσιο (εξελικτική, ιστορική
γλωσσολογία, κοινωνιογλωσσολογία,
ψυχογλωσσολογία, νευρογλωσσολογία, γλωσσική
απόκτηση, ανάλυση λόγου)
 Αλληλεπίδραση και με άλλες γνωστικές επιστήμες
4
Ακαδημαϊκό Έτος 20132014
Γενετική Θεωρία, Noam Chomsky
• Ανθρώπινη (φυσική) γλώσσα: σημαντικότερο
γνωσιακό σύστημα του ανθρώπου
Οι ομιλητές μιας φυσικής γλώσσας κατέχουν ένα
σύνολο γνώσεων που αποτελεί το το γλωσσικό
τους σύστημα, έτσι όπως εκφράζεται και
αναπαρίσταται από τη γραμματική
• Γραμματική: σύνολο αρχών και κανόνων που
καθορίζει αν μια πρόταση είναι γραμματική ή
όχι
Colorless green ideas sleep furiously
5
Ακαδημαϊκό Έτος 20132014
Γλωσσολογική Ανάλυση
• Πολυεπίπεδη (μορφή, νόημα, ευρύτερο
πλαίσιο)
• Γλωσσική Ιεραρχία:
▫ Φωνήματα
 Μορφήματα*
 Λέξεις
▫ Φράσεις
▫ Προτάσεις
6
Ακαδημαϊκό Έτος 20132014
Eπίπεδα ανάλυσης
7
Ακαδημαϊκό Έτος 20132014
Μορφολογία
• Στον πυρήνα της γλωσσολ. έρευνας
• Μελετά τη δομή των λέξεων, τα επιμέρους
συστατικά τους, και τις σχέσεις αυτών των
συστατικών
▫ Προτείνει αρχές και κανόνες =>ανάλυση και
δημιουργία των λέξεων
*μόρφημα: η ελάχιστη μονάδα που συνδυάζει μορφή
και σημασία, π.χ. αντι-μιλ-ώ
8
Ακαδημαϊκό Έτος 20132014
Μορφολογικές κατηγορίες Ι
•
Λέξεις:
▫
▫
▫
Φέρουν έναν τόνο
Έχουν ολοκληρωμένη σημασία
Ανεπηρέαστη η εσωτερική τους δομή από τη
σύνταξη
Μεσολαβούν παύσεις μεταξύ τους στο γραπτό
λόγο
▫

Δυσκολίες στην αναγνώριση και τα όρια των
λέξεων=>χαλαρά σύνθετα : ψυχρός πόλεμος
9
Ακαδημαϊκό Έτος 20132014
Μορφολογικές κατηγορίες ΙΙ
•
Μορφήματα:
▫
▫
Ελάχιστα συστατικά των λέξεων
Ελεύθερα
χωρίς, με, και, σήμερα κτλ.

▫
Δεσμευμένα
Θέματα* (stems)

ομορφ-, τρεχ-, ανθρωπ- κτλ.

Προσφύματα(affixes)

Προθήματα

▫
δυσ- τυχος, ξε- φευγω
Επιθήματα

▫
παιδ- ακι, τρεχ- ω
10
Ακαδημαϊκό Έτος 20132014
Θέμα VS Ρίζα
• Θέμα(stem): βάση για τη δημιουργία των
λέξεων, ευθύνη για σημασία.
• Ρίζα(root): μόνο ετυμολογική και ιστορική αξία
στην ΚΝΕ
(Ralli, 1988)
• Δυσδιάκριτα τα όρια των δύο στοιχείων =>
▫ Θέμα: βάση για δημιουργία λέξεων, ταύτιση με
ρίζα σε πολλές πρισπτώσεις
11
Ακαδημαϊκό Έτος 20132014
Διαδικασίες σχηματισμού λέξεων Ι
• Κλίση:
▫ Διαδικασία σχηματισμού διαφορετικών μορφών μιας
λέξης, συνδυασμός συγκεκριμένου θέματος και
κλιτικών προσφυμάτων
 παίζω=> έ – παιζ – α
 γιατρός => γιατρ- ού
• Παραγωγή
▫ Διαδικασία σχηματισμού νέων λέξεων, συνδυασμός
θέματος και παραγωγικού προσφύματος
 όργαν(ο)=> οργαν-ώνω, οργανω-τής, οργανω-τικ(ός),
οργανωτικ-ά
12
Ακαδημαϊκό Έτος 20132014
Διαδικασίες σχηματισμού λέξεων ΙΙ
• Σύνθεση
▫ Διαδικασία που δημιουργεί μορφολογικά
πολύπλοκα στοιχεία από τουλάχιστον δύο θέματα




ντομάτα+σαλάτα=> ντοματοσαλάτα
αλάτι+πιπέρι=> αλατοπίπερο
δεύτερος+λεπτό=> δευτερόλεπτο
σφιχτά+αγκαλιάζω=> σφιχταγκαλιάζω
13
Ακαδημαϊκό Έτος 20132014
Η Μορφολογία στην ΕΦΓ Ι
• Ανάλυση της ενσωματωμένης γραμματικής
πληροφορίας λεξικών μορφών
▫ αυτή: γ’πρόσωπο, ενικός αριθμός, αρσενικό γένος
▫ τραγούδησα: α’ πρόσωπο, ενικός αριθμός,
αόριστος χρόνος
• Parsing σύνθετων λεξικών μορφών στα
επιμέρους συστατικά τους
▫ Αντιπολεμικός: αντι+πολεμ+ικ+ος
14
Ακαδημαϊκό Έτος 20132014
Η Μορφολογία στην ΕΦΓ ΙΙ
• Αnaphora resolution:
▫ Ο Κώστας συνάντησε τους φίλους του στο δρόμο
και τους είπε τι του συνέβη.
• Αναγνώριση μερών του λόγου(Parts of Speech)
▫ Noun: ονόματα, ουσιαστικά
▫ Verb: ρηματικοί τύποι
▫ Adjective: επίθετα
 Η ίδια κλάση ελέγχεται με το τεστ της
αντικατάστασης: το καλό/κακό/χαζό
κορίτσι/αγόρι/παιδί/ζώο έτρεχε/έπαιζε/χτύπησε
15
Ακαδημαϊκό Έτος 20132014
Άλλα μέρη του λόγου
• Σχεση με ονόματα: pronouns και determiners*
▫ Εκείνος, μας, εγώ, αυτών, ο, το, ένας
*στη ΝΕ ταυτίζεται με το άρθρο
• Αdverbs, prepositions και particles
▫ συχνά, καλώς, μετά, έτσι, για, με, σε, θα, μα
• Conjunctions
▫ Και, αλλά, ή, είτε-είτε
16
Ακαδημαϊκό Έτος 20132014
Αυτόματα πεπερασμένων καταστάσεων
• Finite State Automata (FSA)
▫ Αναπαριστάνεται σαν γράφος
 ενός συνόλου καταστάσεων
 κατευθυνόμενων μεταβάσεων
▫ που αντιστοιχούν σε σύμβολα ενός αλφαβήτου
▫ Μια κατάσταση ορίζεται σαν αρχική
▫ Μερικές καταστάσεις ορίζονται σαν τελικές
17
Ακαδημαϊκό Έτος 20132014
Αναγνώριση με FSA Ι
• Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί
περιέχει ένα σύμβολο από την είσοδο
• Η μηχανή ξεκινά από την αρχική κατάσταση:
18
Ακαδημαϊκό Έτος 20132014
Αναγνώριση με FSA ΙΙ
• Σε κάθε κατάσταση, ελέγχεται ο επόμενος
χαρακτήρας εισόδου
▫ Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η
μετάβαση και η είσοδος μετακινείται 1 κελί
▫ Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή
• Αν τελειώσουν τα κελιά εισόδου:
▫ Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι
αποδεκτή
19
Ακαδημαϊκό Έτος 20132014
Μορφολογία Ι
•
•
•
•
Εφαρμόζεται σε επίπεδο λέξης
Εξετάζει τη μορφή των λέξεων
Επηρεάζει/εται (από) τη φωνολογία
Είναι το επίπεδο ανάλυσης που συσχετίζει:
▫
▫
▫
▫
Αλεπού, αλεπούδες, αλεπουδάκι
Είμαι, ήμουν
Έρχομαι, ήρθα
…
20
Ακαδημαϊκό Έτος 20132014
Μορφολογία ΙΙ
• Δύο ειδών κανόνες:
▫ Ορθογραφικοί κανόνες
 Ο πληθυντικός αγγλικών λέξεων σε –y σχηματίζεται
με την μετατροπή του –y σε –i, και την προσθήκη –
es
▫ Μορφολογικοί κανόνες
 Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν
πληθυντικό
 Ο πληθυντικός την λέξης goose γίνεται με αλλαγή
του φωνήεντος (geese)
21
Ακαδημαϊκό Έτος 20132014
Μορφολογική Ανάλυση
• Το πρόβλημα της:
▫ αναγνώρισης ότι μια λέξη (όπως αλεπούδες)
αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και
▫ η δημιουργία μιας δομημένης αναπαράστασης για
αυτό το γεγονός,
• ονομάζεται μορφολογική ανάλυση
(morphological parsing)
• Parsing: η διαδικασία της παραγωγής κάποιας
μορφής γλωσσικής πληροφορίας για κάποια
είσοδο
22
Ακαδημαϊκό Έτος 20132014
Υπολογιστική μορφολογία
• Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας
λέξης με τις μορφολογικές πληροφορίες που την
χαρακτηρίζουν
▫ Μορφολογική ανάλυση (parsing)
 Αλεπούδες: αλεπού + ονομαστική + πληθυντικός
▫ Μορφολογική παραγωγή (generation)
 Αλεπού + ονομαστική + πληθυντικός: αλεπούδες
23
Ακαδημαϊκό Έτος 20132014
Αλγόριθμοι και εργασίες
• Μορφολογική ανάλυση
▫ Finite state transducers
▫ Μορφολογικά λεξικά (ηλεκτρονικά)
• Μορφολογική παραγωγή
▫ Μορφολογικά λεξικά (ηλεκτρονικά)
▫ Συστήματα κανόνων
• Συχνές εργασίες
▫
▫
▫
▫
Εύρεση θέματος (stemming)
Λημματοποίηση: εύρεση λήμματος (lemmatization)
Αναγνώριση μερών του λόγου (POS tagging)
Αναγνώριση λέξεων/προτάσεων
24
Ακαδημαϊκό Έτος 20132014
Μορφολογική ανάλυση
• Στόχος:
▫ Μορφολογική πληροφορία για την είσοδο
25
Ακαδημαϊκό Έτος 20132014
Μορφολογικός αναλυτής
• Για την κατασκευή ενός μορφολογικού αναλυτή
χρειαζόμαστε:
▫ Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική
πληροφορία για αυτά (π.χ. μέρος του λόγου)
▫ Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της
οργάνωσης των μορφημάτων
 ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα
μορφήματα μέσα σε μια λέξη
▫ Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που
συμβαίνουν όταν συνδυάζονται μορφήματα
 city + s → cities (και όχι citys)
26
Ακαδημαϊκό Έτος 20132014
Προσεγγίσεις
• Προσεγγίσεις για την κατασκευή μορφολογικών
αναλυτών
▫ Αποκλειστική χρήση λεξικού
▫ Χρήση λεξικού και κανόνων
 Finite state transducers
 Finite state automata
▫ Αποκλειστική χρήση κανόνων
27
Ακαδημαϊκό Έτος 20132014
Προσεγγίσεις Ι: Χρήση λεξικού
• Το λεξικό απαριθμεί όλες τις λέξεις και τις
πληροφορίες που την χαρακτηρίζουν
• Δεν υπάρχουν κανόνες …?
• Εύκολη ανάλυση/παραγωγή
• Μεγάλο μέγεθος (αγγλικά)
▫ Ελληνικά, Γαλλικά;
▫ Αραβικά, Τούρκικα;
▫ Κινέζικα;
28
Ακαδημαϊκό Έτος 20132014
Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (1)
Λεξικό:
29
Ακαδημαϊκό Έτος 20132014
Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (2)
30
Ακαδημαϊκό Έτος 20132014
Μορφολογικός αναγνωριστής
• Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη;
• Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων:
31
Ακαδημαϊκό Έτος 20132014
Μορφολογική ανάλυση
• Αυτόματα πεπερασμένων καταστάσεων (FSA)
▫ Αναγνώριση
▫ Μορφολογία ενός επιπέδου
• Finite state transducers (FST)
▫ Μορφολογία δύο επιπέδων
▫ Παράγουν έξοδο, ανάλογα με την είσοδο
• Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο
και οι μορφοτακτικοί κανόνες μπορούν να
αναπαρασταθούν από FSTs
32
Ακαδημαϊκό Έτος 20132014
Μορφολογία δύο επιπέδων
• Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο
κείμενο
• Λεξιλογική (lexical) μορφή: η ακολουθία των
μορφολογικών χαρακτηριστικών
• Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ
επιφανειακού/λεξιλογικού επιπέδου
 Λεξιλογικό επίπεδο
 Επιφανειακό επίπεδο
33
Ακαδημαϊκό Έτος 20132014
Ορθογραφικοί κανόνες (1)
• Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν
λέξεις όπως «fox» και «goose»
• Όμως η απλή συνένωση μορφημάτων δεν
λειτουργεί όταν απαιτούνται ορθογραφικές
προσθήκες
▫ foxs: αποδεκτό, foxes: απορριπτέο
34
Ακαδημαϊκό Έτος 20132014
Ορθογραφικοί κανόνες (2)
• Μπορούν να ειδωθούν σαν μετασχηματισμός:
▫ Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο
επίπεδο)
▫ Παράγει την επιφανειακή μορφή της λέξης
35
Ακαδημαϊκό Έτος 20132014
Ορθογραφικοί κανόνες (3)
• Λεξιλογικό επίπεδο
• Ενδιάμεσο επίπεδο
• Επιφανειακό επίπεδο
36
Ακαδημαϊκό Έτος 20132014
Ορθογραφικοί κανόνες (4)
• «Εισαγωγή ενός e στην ταινία επιφανειακού
επιπέδου, όταν η ταινία του λεξιλογικού
επιπέδου έχει ένα μόρφημα που τελειώνει σε x
(ή z) και το επόμενο μόρφημα είναι το -s»
• Chomsky and Halle (1968) notation:
37
Ακαδημαϊκό Έτος 20132014
Ορθογραφικοί κανόνες (5)
• Αναπαράσταση του ορθογραφικού κανόνα σαν FST, πίνακας μεταβάσεων
38
Ακαδημαϊκό Έτος 20132014
Συνδυάζοντας λεξικό και κανόνες (1)
• Το FST λεξικού αντιστοιχίζει το λεξιλογικό
επίπεδο στο ενδιάμεσο επίπεδο, που
αναπαριστά απλές συνενώσεις μορφημάτων
• Ένα σύνολο από FST κανόνων τρέχουν
παράλληλα/σειριακά αντιστοιχίζοντας το
ενδιάμεσο στο επιφανειακό επίπεδο
• Ο FST λεξικού και οι FST των ορθογραφικών
κανόνων σχηματίζουν μια αλληλουχία (cascade)
39
Ακαδημαϊκό Έτος 20132014
Συνδυάζοντας λεξικό και κανόνες (2)
40
Ακαδημαϊκό Έτος 20132014
FSTs και ασάφεια
• Η ανάλυση είναι δυσκολότερη της παραγωγής
▫ Λόγω ασάφειας: π.χ. foxes
 fox +V +3Sg
 fox +N +PL
• Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα
συμφραζόμενα
▫ Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις
• Ασάφεια μπορεί να προκληθεί και εξαιτίας
πολλαπλών πιθανών μονοπατιών, ή λόγω
μεταβάσεων 𝜖
41
Ακαδημαϊκό Έτος 20132014
Αναγνώριση θέματος
• Stemming: η εύρεση της ρίζας/θέματος μιας
λέξης
• Συνήθως δεν χρησιμοποιείται λεξικό
• Χρησιμοποιείται σε εφαρμογές ανάκτησης
πληροφορίας και ταξινόμησης κειμένων
• Η βελτίωση που επιφέρει στην ανάκτηση
πληροφορίας δεν είναι πάντα αξιόλογη
• Χρησιμοποιείται στην μείωση διαστατικότητας,
όταν εφαρμόζεται μηχανική μάθηση
42
Ακαδημαϊκό Έτος 20132014
Porter stemmer (1980)
• Ευρέως διαδεδομένος stemmer (Αγγλικά)
• Βασίζεται σε ένα σύνολο κανόνων, που
εφαρμόζονται σειριακά
▫ ATIONAL →ATE (relational → relate)
▫ ING → 𝜖 if stem contains vowel (motoring → motor)
• Παραδείγματα λαθών:
▫ organization → organ, doing → doe
• Παραδείγματα παραλείψεων:
▫ matrices → matrix, explain → explanation
http://www.tartarus.org/~martin/PorterStemmer/
43
Ακαδημαϊκό Έτος 20132014
Βιβλιογραφία
• Αγγελική Ράλλη, 2005. Μορφολογία. Εκδόσεις
Πατάκη, Αθήνα
• Κεφάλαια 2 & 3 από το εγχειρίδιο «Speech and
Language Processing» των D. Jurafsky και J.H.
Martin, 2η έκδοση, Pearson, 2009