Διάλεξη 11

Download Report

Transcript Διάλεξη 11

Γλωσσική Τεχνολογία
Μάθημα 11ο
Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης
Σοφία Στάμου
Άκ.Έτος 2009-10
Επίπεδα Γλωσσικής Επεξεργασίας
 Αναγνώριση ορίων λέξεων
 Λεξικογραφία
 Συντακτική Ανάλυση
 Σημασιολογική Ανάλυση
 Πραγματολογική Ανάλυση
 Αναγνώριση πλάνων
10/4/2015
Γλωσσική Τεχνολογία
2
Αναγνώριση ορίων λέξεων
 Αναγνώριση φωνημάτων σε συστήματα
επεξεργασίας φωνής (ακουστικά μοντέλα)
 Ανίχνευση ορίων λέξεων σε κείμενο (γλωσσικά
μοντέλα)
10/4/2015
Γλωσσική Τεχνολογία
3
Μηχανική επεξεργασία γλώσσας
 Tokenization
 Διαχωρισμός προτάσεων
 Λίστες λέξεων

Ο ελάχιστος γλωσσικός πόρος που απαιτείται
για πλήθος εφαρμογών

10/4/2015
Ορθογραφικός έλεγχος, συλλαβισμός, ...
Γλωσσική Τεχνολογία
4
Λίστες λέξεων
 Λεξικά που περιέχουν από 50.000 έως 150.000 λέξεις
 Πώς θα τα δημιουργήσουμε; Από την επεξεργασία
σωμάτων κειμένων
 Πόσες λέξεις θα χρειαστούμε; 8.000 ρίζες λέξεων
(μορφήματα) αρκούν για να επεξεργαστούμε το 95% των
κειμένων
 Οι 15 πιο συνχά εμφανιζόμενες λέξεις παράγουν το 25%
όλων των λέξεων
 Οι 100 πιο συχνά εμφανιζόμενες λέξεις παράγουν το 60%
όλων των λέξεων
10/4/2015
Γλωσσική Τεχνολογία
5
Λεξικά
 Αποτελούν συλλογή λέξεων καθεμιά από τις
οποίες συνοδεύεται από πληροφορία για:

Τη φωνητική τους μεταγραφή, αναγκαία για
συστήματα αναγνώρισης φωνής

Τη μορφοσυντακτική τους ετικέτα (PoS tag),
αναγκαία για όλες τις εφαρμογές γλωσσικής
τεχνολογίας
10/4/2015
Γλωσσική Τεχνολογία
6
Κλιτική Μορφολογία
 Ρίζα + κατάληξη ή πρόθεμα ή επίθημα
 Το Μέρος του Λόγου παραμένει σταθερό
Παραδείγματα:
Deliver + s = delivers [τρίτο ενικό ενεστώτα]
Deliver + ing = delivering [ μετοχή ενεστώτα]
Deliver + ed = delivered [ αόριστος]
 Η ρίζα λέγεται και stem
10/4/2015
Γλωσσική Τεχνολογία
7
Παραγωγική Μορφολογία
 Λέξη μιας γραμματικής κατηγορίας παράγει
λέξεις άλλων γραμματικών κατηγοριών
friend [ noun] + ly [suffix] = friendly [adjective]
friendly [adjective] + ness [suffix] = friendliness [noun]
10/4/2015
Γλωσσική Τεχνολογία
8
Συντακτική Ανάλυση
 Σε ένα κείμενο οι λέξεις δεν είναι
οργανωμένες σαν μια σειρά μερών του
λόγου, αντίθετα σχηματίζουν φράσεις.
 Συντακτικό είναι η μελέτη των κανόνων που
διέπουν τη σειρά των λέξεων και τη δομή των
φράσεων.
 Η βασική ιδέα είναι ότι συγκεκριμένες ομάδες
λέξεων συμπεριφέρονται σαν συστατικά
(constituents).
10/4/2015
Γλωσσική Τεχνολογία
9
Συντακτική Ανάλυση
 Αναγνωρίζουμε τα constituents από τη
δυνατότητά τους να εμφανίζονται σε
διαφορετικές θέσεις, διατηρώντας ενιαίες
συντακτικές ιδιότητες.
 πχ.ονοματικές φράσεις, ρηματικές φράσεις,
εμπρόθετοι προσδιορισμοί κλπ.
10/4/2015
Γλωσσική Τεχνολογία
10
Συντακτική Ασάφεια
 The astronomer saw the star with a telescope
 The astronomer married the star with a history
 Visiting uncles can be a nuisance
 I forgot how good beer tastes
10/4/2015
Γλωσσική Τεχνολογία
11
Συντακτική Ασάφεια
The man saw the boy with the telescope
10/4/2015
Γλωσσική Τεχνολογία
12
Συντακτική Ασάφεια
 Η γραμματική καταγράφει τις πιθανές συντακτικές δομές
μιας γλώσσας ως ένα πεπερασμένο σύνολο κανόνων
 Οι κανόνες υπαγορεύουν πώς τα σύμβολα της γλώσσας
μπορούν να συνδυαστούν για να δημιουργήσουν σωστές
προτάσεις
S  NP VP
NP  Det N
VP  V NP
 Ο συντακτικός αναλυτής χρησιμοποιεί τους γραμματικούς
κανόνες για να αναλύσει τη δομή των προτάσεων
10/4/2015
Γλωσσική Τεχνολογία
13
Εφαρμογές συντακτικής ανάλυσης
 Η συντακτική ανάλυση είναι αναγκαία για:

Συντακτικό έλεγχο κειμένου

Μηχανική μετάφραση

Question –answering systems

Εξαγωγή πληροφορίας από κείμενο
10/4/2015
Γλωσσική Τεχνολογία
14
Σημασιολογική Ανάλυση
 Ανάλυση του νοήματος λέξεων και λεξικών
κατασκευών
 Χωρίζεται σε δύο μέρη:


Ανάλυση σημασιολογίας μεμονωμένων λέξεων
Ανάλυση του πως συνδυάζονται τα νοήματα
των λέξεων σε μεγαλύτερες μονάδες
 Δημοφιλέστερη προσέγγιση:

Εκμετάλλευση των σχέσεων μεταξύ εννοιών


10/4/2015
Συστηματικές
Μη συστηματικές
Γλωσσική Τεχνολογία
15
Σχέσεις Λέξεων - Συστηματικές
 Οργάνωση λέξεων σε ιεραρχίες με χρήση των
σημασιολογικών σχέσεων:

Συνωνυμία


Υπερωνυμία/Υπωνυμία


αυτοκίνητο, τροχός
Αντίθετα

10/4/2015
αυτοκίνητο, όχημα
Μερωνυμία/Ολωνυμία


αυτοκίνητο, αμάξι
γρήγορος, αργός
Γλωσσική Τεχνολογία
16
Σχέσεις Λέξεων - Μη συστηματικές
 Λέξεις που τείνουν να συνεμφανίζονται στα ίδια
περιβάλλοντα χωρίς να έχουν σχέση μεταξύ τους

οδηγώ, αυτοκίνητο
 Collocations (συνεμφανίσεις)
 εκφράσεις που αποτελούνται από δύο ή
περισσότερες λέξεις που αντιστοιχούν σε
συμβασιοποιημένο τρόπο έκφρασης κάποιου
νοήματος



10/4/2015
παιδική χαρά
δυνατό τσάι αλλά όχι ισχυρό τσάι
τραβάω ζόρι αλλά όχι τραβάω πρόβλημα
Γλωσσική Τεχνολογία
17
Collocations
 Αναγνώριση: στατιστικά με χρήση corpora.
 Συχνότητα συνεμφάνισης



Τυπική Απόκλιση



Χρήση της μέσης απόστασης μεταξύ των λέξεων
Χρήσιμο για πιο ευέλικτες φράσεις (πχ τραβάω πολύ
μεγάλο ζόρι)
Πιθανοτικές Μέθοδοι

10/4/2015
Αναγνώριση ακουλουθιών δύο ή περισσότερων
λέξεων που παρουσιάζουν μεγάλη συχνότητα
εμφάνισης.
Χρήσιμο για «σταθερές» φράσεις (πχ παιδική χαρά)
Μεγαλύτερη ακρίβεια, αποκλείουν «τυχαίες»
συνεμφανίσεις
Γλωσσική Τεχνολογία
18
Λεξική Ασάφεια
 The astronomer saw the star
 The astronomer married the star
 King Kong sat on the bank
10/4/2015
Γλωσσική Τεχνολογία
19
Λεξική Ασάφεια
 Αρχικά η επίλυση της λεξικής ασάφειας
στηριζόταν σε κανόνες μερικής κατανόησης των
συμφραζομένων
 Επιλεκτικοί περιορισμοί στο λεξικό:

marry [agent=animate, object=animate]

star1 [+animate] % famous or celebrated person

star2 [-animate] % celestial object
 Σύγχρονες τεχνικές στηρίζονται σε στατιστικά
δεδομένα από σώματα κειμένων
10/4/2015
Γλωσσική Τεχνολογία
20
Επίλυση αναφοράς
 The counselors refused the women a permit
because they feared revolution
 The counselors refused the women a permit
because they advocated revolution
10/4/2015
Γλωσσική Τεχνολογία
21
Επίλυση αναφοράς
 Η επίλυση αναφοράς είναι άρρηκτα συνδεδεμένη
με τη σημασιολογική ερμηνεία
 Απαιτεί γνώση της γλώσσας, της σύνταξης, της
σημασιολογίας και πραγματολογίας

Macy swore at Sabine then she insulted her

Jim hurt him

Andy put the cake on the table and ate it

Sue went to Mary’s house and she cooked her
dinner
10/4/2015
Γλωσσική Τεχνολογία
22
Πραγματολογική Ανάλυση
 Η μελέτη του πως η γνώση για τον κόσμο και
οι λεκτικές συμβάσεις αλληλεπιδρούν με το
κυριολεκτικό νόημα. πχ


Αγόρασα ένα αυτοκίνητο. Το ραδιόφωνο ήταν
χαλασμένο.
αντί
Αγόρασα ένα αυτοκίνητο. Είχε εγκατεστημένο
ραδιόφωνο. Ήταν χαλασμένο.
 Οι αναφορικές σχέσεις υπάγονται στην
πραγματολογική ανάλυση καθώς
προϋποθέτουν γνώση του κόσμου.
10/4/2015
Γλωσσική Τεχνολογία
23
Πραγματολογική Ανάλυση
 Έστω το κείμενο
 Στις 29 Αυγούστου του 2005 η πολιτεία της
Λουϊζιάνα χτυπήθηκε από τον τυφώνα Κατρίνα. Οι
νεκροί από την καταστροφή ανήλθαν σε χιλιάδες.
 Θέτουμε την ερώτηση:
 Ποιά καταστροφή είχε χιλιάδες νεκρούς στη
Λουϊζιάνα;
 Για να απαντήσουμε πρέπει να αναγνωρίσουμε
ότι:

10/4/2015
Ο φράσεις «τυφώνας Κατρίνα» και «καταστροφή»
αναφέρονται στην ίδια οντότητα.
Γλωσσική Τεχνολογία
24
Αναγνώριση Πλάνων
 Μεθοδολογία αναγνώρισης του στόχου ή του
πλάνου χρησιμοποιώντας:



Χρονική σειρά ενεργειών
Δεδομένα κειμένου
Παρατηρήσεις
 Οργάνωση παρατηρήσεων με χρήση
κανόνων σε εξήγηση
 Συνδυασμός των εξηγήσεων για αναγνώριση
του πλάνου.
10/4/2015
Γλωσσική Τεχνολογία
25
Αναγνώριση Πλάνων - Παράδειγμα
 Ο χρήστης ψάχνει «φορητός σκληρός δίσκος»
στη μηχανή αναζήτησης.
 Βλέπει κάποιες σελίδες.

=>Ενδιαφέρεται για φορητούς σκληρούς δίσκους
 Ψάχνει «πλαίσιο» στη μηχανή
 Μπαίνει στη σελίδα του Πλαισίου
 =>Ενδιαφέρεται για online αγορά προϊόντων
πληροφορικής
 Ενδιαφέρεται για φορητούς σκληρούς δίσκους
 Ενδιαφέρεται για online αγορά προϊόντων
πληροφορικής

10/4/2015
=>Σχεδιάζει να αγοράσει φορητό σκληρό δίσκο
Γλωσσική Τεχνολογία
26
.....
http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
10/4/2015
Γλωσσική Τεχνολογία
27