Transcript Διάλεξη 11
Γλωσσική Τεχνολογία Μάθημα 11ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10 Επίπεδα Γλωσσικής Επεξεργασίας Αναγνώριση ορίων λέξεων Λεξικογραφία Συντακτική Ανάλυση Σημασιολογική Ανάλυση Πραγματολογική Ανάλυση Αναγνώριση πλάνων 10/4/2015 Γλωσσική Τεχνολογία 2 Αναγνώριση ορίων λέξεων Αναγνώριση φωνημάτων σε συστήματα επεξεργασίας φωνής (ακουστικά μοντέλα) Ανίχνευση ορίων λέξεων σε κείμενο (γλωσσικά μοντέλα) 10/4/2015 Γλωσσική Τεχνολογία 3 Μηχανική επεξεργασία γλώσσας Tokenization Διαχωρισμός προτάσεων Λίστες λέξεων Ο ελάχιστος γλωσσικός πόρος που απαιτείται για πλήθος εφαρμογών 10/4/2015 Ορθογραφικός έλεγχος, συλλαβισμός, ... Γλωσσική Τεχνολογία 4 Λίστες λέξεων Λεξικά που περιέχουν από 50.000 έως 150.000 λέξεις Πώς θα τα δημιουργήσουμε; Από την επεξεργασία σωμάτων κειμένων Πόσες λέξεις θα χρειαστούμε; 8.000 ρίζες λέξεων (μορφήματα) αρκούν για να επεξεργαστούμε το 95% των κειμένων Οι 15 πιο συνχά εμφανιζόμενες λέξεις παράγουν το 25% όλων των λέξεων Οι 100 πιο συχνά εμφανιζόμενες λέξεις παράγουν το 60% όλων των λέξεων 10/4/2015 Γλωσσική Τεχνολογία 5 Λεξικά Αποτελούν συλλογή λέξεων καθεμιά από τις οποίες συνοδεύεται από πληροφορία για: Τη φωνητική τους μεταγραφή, αναγκαία για συστήματα αναγνώρισης φωνής Τη μορφοσυντακτική τους ετικέτα (PoS tag), αναγκαία για όλες τις εφαρμογές γλωσσικής τεχνολογίας 10/4/2015 Γλωσσική Τεχνολογία 6 Κλιτική Μορφολογία Ρίζα + κατάληξη ή πρόθεμα ή επίθημα Το Μέρος του Λόγου παραμένει σταθερό Παραδείγματα: Deliver + s = delivers [τρίτο ενικό ενεστώτα] Deliver + ing = delivering [ μετοχή ενεστώτα] Deliver + ed = delivered [ αόριστος] Η ρίζα λέγεται και stem 10/4/2015 Γλωσσική Τεχνολογία 7 Παραγωγική Μορφολογία Λέξη μιας γραμματικής κατηγορίας παράγει λέξεις άλλων γραμματικών κατηγοριών friend [ noun] + ly [suffix] = friendly [adjective] friendly [adjective] + ness [suffix] = friendliness [noun] 10/4/2015 Γλωσσική Τεχνολογία 8 Συντακτική Ανάλυση Σε ένα κείμενο οι λέξεις δεν είναι οργανωμένες σαν μια σειρά μερών του λόγου, αντίθετα σχηματίζουν φράσεις. Συντακτικό είναι η μελέτη των κανόνων που διέπουν τη σειρά των λέξεων και τη δομή των φράσεων. Η βασική ιδέα είναι ότι συγκεκριμένες ομάδες λέξεων συμπεριφέρονται σαν συστατικά (constituents). 10/4/2015 Γλωσσική Τεχνολογία 9 Συντακτική Ανάλυση Αναγνωρίζουμε τα constituents από τη δυνατότητά τους να εμφανίζονται σε διαφορετικές θέσεις, διατηρώντας ενιαίες συντακτικές ιδιότητες. πχ.ονοματικές φράσεις, ρηματικές φράσεις, εμπρόθετοι προσδιορισμοί κλπ. 10/4/2015 Γλωσσική Τεχνολογία 10 Συντακτική Ασάφεια The astronomer saw the star with a telescope The astronomer married the star with a history Visiting uncles can be a nuisance I forgot how good beer tastes 10/4/2015 Γλωσσική Τεχνολογία 11 Συντακτική Ασάφεια The man saw the boy with the telescope 10/4/2015 Γλωσσική Τεχνολογία 12 Συντακτική Ασάφεια Η γραμματική καταγράφει τις πιθανές συντακτικές δομές μιας γλώσσας ως ένα πεπερασμένο σύνολο κανόνων Οι κανόνες υπαγορεύουν πώς τα σύμβολα της γλώσσας μπορούν να συνδυαστούν για να δημιουργήσουν σωστές προτάσεις S NP VP NP Det N VP V NP Ο συντακτικός αναλυτής χρησιμοποιεί τους γραμματικούς κανόνες για να αναλύσει τη δομή των προτάσεων 10/4/2015 Γλωσσική Τεχνολογία 13 Εφαρμογές συντακτικής ανάλυσης Η συντακτική ανάλυση είναι αναγκαία για: Συντακτικό έλεγχο κειμένου Μηχανική μετάφραση Question –answering systems Εξαγωγή πληροφορίας από κείμενο 10/4/2015 Γλωσσική Τεχνολογία 14 Σημασιολογική Ανάλυση Ανάλυση του νοήματος λέξεων και λεξικών κατασκευών Χωρίζεται σε δύο μέρη: Ανάλυση σημασιολογίας μεμονωμένων λέξεων Ανάλυση του πως συνδυάζονται τα νοήματα των λέξεων σε μεγαλύτερες μονάδες Δημοφιλέστερη προσέγγιση: Εκμετάλλευση των σχέσεων μεταξύ εννοιών 10/4/2015 Συστηματικές Μη συστηματικές Γλωσσική Τεχνολογία 15 Σχέσεις Λέξεων - Συστηματικές Οργάνωση λέξεων σε ιεραρχίες με χρήση των σημασιολογικών σχέσεων: Συνωνυμία Υπερωνυμία/Υπωνυμία αυτοκίνητο, τροχός Αντίθετα 10/4/2015 αυτοκίνητο, όχημα Μερωνυμία/Ολωνυμία αυτοκίνητο, αμάξι γρήγορος, αργός Γλωσσική Τεχνολογία 16 Σχέσεις Λέξεων - Μη συστηματικές Λέξεις που τείνουν να συνεμφανίζονται στα ίδια περιβάλλοντα χωρίς να έχουν σχέση μεταξύ τους οδηγώ, αυτοκίνητο Collocations (συνεμφανίσεις) εκφράσεις που αποτελούνται από δύο ή περισσότερες λέξεις που αντιστοιχούν σε συμβασιοποιημένο τρόπο έκφρασης κάποιου νοήματος 10/4/2015 παιδική χαρά δυνατό τσάι αλλά όχι ισχυρό τσάι τραβάω ζόρι αλλά όχι τραβάω πρόβλημα Γλωσσική Τεχνολογία 17 Collocations Αναγνώριση: στατιστικά με χρήση corpora. Συχνότητα συνεμφάνισης Τυπική Απόκλιση Χρήση της μέσης απόστασης μεταξύ των λέξεων Χρήσιμο για πιο ευέλικτες φράσεις (πχ τραβάω πολύ μεγάλο ζόρι) Πιθανοτικές Μέθοδοι 10/4/2015 Αναγνώριση ακουλουθιών δύο ή περισσότερων λέξεων που παρουσιάζουν μεγάλη συχνότητα εμφάνισης. Χρήσιμο για «σταθερές» φράσεις (πχ παιδική χαρά) Μεγαλύτερη ακρίβεια, αποκλείουν «τυχαίες» συνεμφανίσεις Γλωσσική Τεχνολογία 18 Λεξική Ασάφεια The astronomer saw the star The astronomer married the star King Kong sat on the bank 10/4/2015 Γλωσσική Τεχνολογία 19 Λεξική Ασάφεια Αρχικά η επίλυση της λεξικής ασάφειας στηριζόταν σε κανόνες μερικής κατανόησης των συμφραζομένων Επιλεκτικοί περιορισμοί στο λεξικό: marry [agent=animate, object=animate] star1 [+animate] % famous or celebrated person star2 [-animate] % celestial object Σύγχρονες τεχνικές στηρίζονται σε στατιστικά δεδομένα από σώματα κειμένων 10/4/2015 Γλωσσική Τεχνολογία 20 Επίλυση αναφοράς The counselors refused the women a permit because they feared revolution The counselors refused the women a permit because they advocated revolution 10/4/2015 Γλωσσική Τεχνολογία 21 Επίλυση αναφοράς Η επίλυση αναφοράς είναι άρρηκτα συνδεδεμένη με τη σημασιολογική ερμηνεία Απαιτεί γνώση της γλώσσας, της σύνταξης, της σημασιολογίας και πραγματολογίας Macy swore at Sabine then she insulted her Jim hurt him Andy put the cake on the table and ate it Sue went to Mary’s house and she cooked her dinner 10/4/2015 Γλωσσική Τεχνολογία 22 Πραγματολογική Ανάλυση Η μελέτη του πως η γνώση για τον κόσμο και οι λεκτικές συμβάσεις αλληλεπιδρούν με το κυριολεκτικό νόημα. πχ Αγόρασα ένα αυτοκίνητο. Το ραδιόφωνο ήταν χαλασμένο. αντί Αγόρασα ένα αυτοκίνητο. Είχε εγκατεστημένο ραδιόφωνο. Ήταν χαλασμένο. Οι αναφορικές σχέσεις υπάγονται στην πραγματολογική ανάλυση καθώς προϋποθέτουν γνώση του κόσμου. 10/4/2015 Γλωσσική Τεχνολογία 23 Πραγματολογική Ανάλυση Έστω το κείμενο Στις 29 Αυγούστου του 2005 η πολιτεία της Λουϊζιάνα χτυπήθηκε από τον τυφώνα Κατρίνα. Οι νεκροί από την καταστροφή ανήλθαν σε χιλιάδες. Θέτουμε την ερώτηση: Ποιά καταστροφή είχε χιλιάδες νεκρούς στη Λουϊζιάνα; Για να απαντήσουμε πρέπει να αναγνωρίσουμε ότι: 10/4/2015 Ο φράσεις «τυφώνας Κατρίνα» και «καταστροφή» αναφέρονται στην ίδια οντότητα. Γλωσσική Τεχνολογία 24 Αναγνώριση Πλάνων Μεθοδολογία αναγνώρισης του στόχου ή του πλάνου χρησιμοποιώντας: Χρονική σειρά ενεργειών Δεδομένα κειμένου Παρατηρήσεις Οργάνωση παρατηρήσεων με χρήση κανόνων σε εξήγηση Συνδυασμός των εξηγήσεων για αναγνώριση του πλάνου. 10/4/2015 Γλωσσική Τεχνολογία 25 Αναγνώριση Πλάνων - Παράδειγμα Ο χρήστης ψάχνει «φορητός σκληρός δίσκος» στη μηχανή αναζήτησης. Βλέπει κάποιες σελίδες. =>Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ψάχνει «πλαίσιο» στη μηχανή Μπαίνει στη σελίδα του Πλαισίου =>Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής 10/4/2015 =>Σχεδιάζει να αγοράσει φορητό σκληρό δίσκο Γλωσσική Τεχνολογία 26 ..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html 10/4/2015 Γλωσσική Τεχνολογία 27