Transcript Διάλεξη 11
Γλωσσική Τεχνολογία
Μάθημα 11ο
Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης
Σοφία Στάμου
Άκ.Έτος 2009-10
Επίπεδα Γλωσσικής Επεξεργασίας
Αναγνώριση ορίων λέξεων
Λεξικογραφία
Συντακτική Ανάλυση
Σημασιολογική Ανάλυση
Πραγματολογική Ανάλυση
Αναγνώριση πλάνων
10/4/2015
Γλωσσική Τεχνολογία
2
Αναγνώριση ορίων λέξεων
Αναγνώριση φωνημάτων σε συστήματα
επεξεργασίας φωνής (ακουστικά μοντέλα)
Ανίχνευση ορίων λέξεων σε κείμενο (γλωσσικά
μοντέλα)
10/4/2015
Γλωσσική Τεχνολογία
3
Μηχανική επεξεργασία γλώσσας
Tokenization
Διαχωρισμός προτάσεων
Λίστες λέξεων
Ο ελάχιστος γλωσσικός πόρος που απαιτείται
για πλήθος εφαρμογών
10/4/2015
Ορθογραφικός έλεγχος, συλλαβισμός, ...
Γλωσσική Τεχνολογία
4
Λίστες λέξεων
Λεξικά που περιέχουν από 50.000 έως 150.000 λέξεις
Πώς θα τα δημιουργήσουμε; Από την επεξεργασία
σωμάτων κειμένων
Πόσες λέξεις θα χρειαστούμε; 8.000 ρίζες λέξεων
(μορφήματα) αρκούν για να επεξεργαστούμε το 95% των
κειμένων
Οι 15 πιο συνχά εμφανιζόμενες λέξεις παράγουν το 25%
όλων των λέξεων
Οι 100 πιο συχνά εμφανιζόμενες λέξεις παράγουν το 60%
όλων των λέξεων
10/4/2015
Γλωσσική Τεχνολογία
5
Λεξικά
Αποτελούν συλλογή λέξεων καθεμιά από τις
οποίες συνοδεύεται από πληροφορία για:
Τη φωνητική τους μεταγραφή, αναγκαία για
συστήματα αναγνώρισης φωνής
Τη μορφοσυντακτική τους ετικέτα (PoS tag),
αναγκαία για όλες τις εφαρμογές γλωσσικής
τεχνολογίας
10/4/2015
Γλωσσική Τεχνολογία
6
Κλιτική Μορφολογία
Ρίζα + κατάληξη ή πρόθεμα ή επίθημα
Το Μέρος του Λόγου παραμένει σταθερό
Παραδείγματα:
Deliver + s = delivers [τρίτο ενικό ενεστώτα]
Deliver + ing = delivering [ μετοχή ενεστώτα]
Deliver + ed = delivered [ αόριστος]
Η ρίζα λέγεται και stem
10/4/2015
Γλωσσική Τεχνολογία
7
Παραγωγική Μορφολογία
Λέξη μιας γραμματικής κατηγορίας παράγει
λέξεις άλλων γραμματικών κατηγοριών
friend [ noun] + ly [suffix] = friendly [adjective]
friendly [adjective] + ness [suffix] = friendliness [noun]
10/4/2015
Γλωσσική Τεχνολογία
8
Συντακτική Ανάλυση
Σε ένα κείμενο οι λέξεις δεν είναι
οργανωμένες σαν μια σειρά μερών του
λόγου, αντίθετα σχηματίζουν φράσεις.
Συντακτικό είναι η μελέτη των κανόνων που
διέπουν τη σειρά των λέξεων και τη δομή των
φράσεων.
Η βασική ιδέα είναι ότι συγκεκριμένες ομάδες
λέξεων συμπεριφέρονται σαν συστατικά
(constituents).
10/4/2015
Γλωσσική Τεχνολογία
9
Συντακτική Ανάλυση
Αναγνωρίζουμε τα constituents από τη
δυνατότητά τους να εμφανίζονται σε
διαφορετικές θέσεις, διατηρώντας ενιαίες
συντακτικές ιδιότητες.
πχ.ονοματικές φράσεις, ρηματικές φράσεις,
εμπρόθετοι προσδιορισμοί κλπ.
10/4/2015
Γλωσσική Τεχνολογία
10
Συντακτική Ασάφεια
The astronomer saw the star with a telescope
The astronomer married the star with a history
Visiting uncles can be a nuisance
I forgot how good beer tastes
10/4/2015
Γλωσσική Τεχνολογία
11
Συντακτική Ασάφεια
The man saw the boy with the telescope
10/4/2015
Γλωσσική Τεχνολογία
12
Συντακτική Ασάφεια
Η γραμματική καταγράφει τις πιθανές συντακτικές δομές
μιας γλώσσας ως ένα πεπερασμένο σύνολο κανόνων
Οι κανόνες υπαγορεύουν πώς τα σύμβολα της γλώσσας
μπορούν να συνδυαστούν για να δημιουργήσουν σωστές
προτάσεις
S NP VP
NP Det N
VP V NP
Ο συντακτικός αναλυτής χρησιμοποιεί τους γραμματικούς
κανόνες για να αναλύσει τη δομή των προτάσεων
10/4/2015
Γλωσσική Τεχνολογία
13
Εφαρμογές συντακτικής ανάλυσης
Η συντακτική ανάλυση είναι αναγκαία για:
Συντακτικό έλεγχο κειμένου
Μηχανική μετάφραση
Question –answering systems
Εξαγωγή πληροφορίας από κείμενο
10/4/2015
Γλωσσική Τεχνολογία
14
Σημασιολογική Ανάλυση
Ανάλυση του νοήματος λέξεων και λεξικών
κατασκευών
Χωρίζεται σε δύο μέρη:
Ανάλυση σημασιολογίας μεμονωμένων λέξεων
Ανάλυση του πως συνδυάζονται τα νοήματα
των λέξεων σε μεγαλύτερες μονάδες
Δημοφιλέστερη προσέγγιση:
Εκμετάλλευση των σχέσεων μεταξύ εννοιών
10/4/2015
Συστηματικές
Μη συστηματικές
Γλωσσική Τεχνολογία
15
Σχέσεις Λέξεων - Συστηματικές
Οργάνωση λέξεων σε ιεραρχίες με χρήση των
σημασιολογικών σχέσεων:
Συνωνυμία
Υπερωνυμία/Υπωνυμία
αυτοκίνητο, τροχός
Αντίθετα
10/4/2015
αυτοκίνητο, όχημα
Μερωνυμία/Ολωνυμία
αυτοκίνητο, αμάξι
γρήγορος, αργός
Γλωσσική Τεχνολογία
16
Σχέσεις Λέξεων - Μη συστηματικές
Λέξεις που τείνουν να συνεμφανίζονται στα ίδια
περιβάλλοντα χωρίς να έχουν σχέση μεταξύ τους
οδηγώ, αυτοκίνητο
Collocations (συνεμφανίσεις)
εκφράσεις που αποτελούνται από δύο ή
περισσότερες λέξεις που αντιστοιχούν σε
συμβασιοποιημένο τρόπο έκφρασης κάποιου
νοήματος
10/4/2015
παιδική χαρά
δυνατό τσάι αλλά όχι ισχυρό τσάι
τραβάω ζόρι αλλά όχι τραβάω πρόβλημα
Γλωσσική Τεχνολογία
17
Collocations
Αναγνώριση: στατιστικά με χρήση corpora.
Συχνότητα συνεμφάνισης
Τυπική Απόκλιση
Χρήση της μέσης απόστασης μεταξύ των λέξεων
Χρήσιμο για πιο ευέλικτες φράσεις (πχ τραβάω πολύ
μεγάλο ζόρι)
Πιθανοτικές Μέθοδοι
10/4/2015
Αναγνώριση ακουλουθιών δύο ή περισσότερων
λέξεων που παρουσιάζουν μεγάλη συχνότητα
εμφάνισης.
Χρήσιμο για «σταθερές» φράσεις (πχ παιδική χαρά)
Μεγαλύτερη ακρίβεια, αποκλείουν «τυχαίες»
συνεμφανίσεις
Γλωσσική Τεχνολογία
18
Λεξική Ασάφεια
The astronomer saw the star
The astronomer married the star
King Kong sat on the bank
10/4/2015
Γλωσσική Τεχνολογία
19
Λεξική Ασάφεια
Αρχικά η επίλυση της λεξικής ασάφειας
στηριζόταν σε κανόνες μερικής κατανόησης των
συμφραζομένων
Επιλεκτικοί περιορισμοί στο λεξικό:
marry [agent=animate, object=animate]
star1 [+animate] % famous or celebrated person
star2 [-animate] % celestial object
Σύγχρονες τεχνικές στηρίζονται σε στατιστικά
δεδομένα από σώματα κειμένων
10/4/2015
Γλωσσική Τεχνολογία
20
Επίλυση αναφοράς
The counselors refused the women a permit
because they feared revolution
The counselors refused the women a permit
because they advocated revolution
10/4/2015
Γλωσσική Τεχνολογία
21
Επίλυση αναφοράς
Η επίλυση αναφοράς είναι άρρηκτα συνδεδεμένη
με τη σημασιολογική ερμηνεία
Απαιτεί γνώση της γλώσσας, της σύνταξης, της
σημασιολογίας και πραγματολογίας
Macy swore at Sabine then she insulted her
Jim hurt him
Andy put the cake on the table and ate it
Sue went to Mary’s house and she cooked her
dinner
10/4/2015
Γλωσσική Τεχνολογία
22
Πραγματολογική Ανάλυση
Η μελέτη του πως η γνώση για τον κόσμο και
οι λεκτικές συμβάσεις αλληλεπιδρούν με το
κυριολεκτικό νόημα. πχ
Αγόρασα ένα αυτοκίνητο. Το ραδιόφωνο ήταν
χαλασμένο.
αντί
Αγόρασα ένα αυτοκίνητο. Είχε εγκατεστημένο
ραδιόφωνο. Ήταν χαλασμένο.
Οι αναφορικές σχέσεις υπάγονται στην
πραγματολογική ανάλυση καθώς
προϋποθέτουν γνώση του κόσμου.
10/4/2015
Γλωσσική Τεχνολογία
23
Πραγματολογική Ανάλυση
Έστω το κείμενο
Στις 29 Αυγούστου του 2005 η πολιτεία της
Λουϊζιάνα χτυπήθηκε από τον τυφώνα Κατρίνα. Οι
νεκροί από την καταστροφή ανήλθαν σε χιλιάδες.
Θέτουμε την ερώτηση:
Ποιά καταστροφή είχε χιλιάδες νεκρούς στη
Λουϊζιάνα;
Για να απαντήσουμε πρέπει να αναγνωρίσουμε
ότι:
10/4/2015
Ο φράσεις «τυφώνας Κατρίνα» και «καταστροφή»
αναφέρονται στην ίδια οντότητα.
Γλωσσική Τεχνολογία
24
Αναγνώριση Πλάνων
Μεθοδολογία αναγνώρισης του στόχου ή του
πλάνου χρησιμοποιώντας:
Χρονική σειρά ενεργειών
Δεδομένα κειμένου
Παρατηρήσεις
Οργάνωση παρατηρήσεων με χρήση
κανόνων σε εξήγηση
Συνδυασμός των εξηγήσεων για αναγνώριση
του πλάνου.
10/4/2015
Γλωσσική Τεχνολογία
25
Αναγνώριση Πλάνων - Παράδειγμα
Ο χρήστης ψάχνει «φορητός σκληρός δίσκος»
στη μηχανή αναζήτησης.
Βλέπει κάποιες σελίδες.
=>Ενδιαφέρεται για φορητούς σκληρούς δίσκους
Ψάχνει «πλαίσιο» στη μηχανή
Μπαίνει στη σελίδα του Πλαισίου
=>Ενδιαφέρεται για online αγορά προϊόντων
πληροφορικής
Ενδιαφέρεται για φορητούς σκληρούς δίσκους
Ενδιαφέρεται για online αγορά προϊόντων
πληροφορικής
10/4/2015
=>Σχεδιάζει να αγοράσει φορητό σκληρό δίσκο
Γλωσσική Τεχνολογία
26
.....
http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
10/4/2015
Γλωσσική Τεχνολογία
27