ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ
Download
Report
Transcript ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ
ΓΛΩΣΣΙΚΗ
ΤΕΧΝΟΛΟΓΙΑ
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Ακαδημαϊκό Έτος 2013-2014
1
Βασισμένο στις διαλέξεις προηγούμενων ετών της Σοφίας Στάμου και
του Γιώργου Πετάση
Ακαδημαϊκό Έτος 2013-2014
2
Γλώσσα
◦ Μέσο ανταλλαγής και καταγραφής
πληροφοριών
Φυσική Γλώσσα
◦ Μέσο επικοινωνίας μεταξύ ανθρώπων
Τεχνητή γλώσσα
◦ Μέσο επικοινωνίας ανθρώπου- μηχανής
Ελληνικά vs Java
Εισαγωγικά
Ακαδημαϊκό Έτος 2013-2014
3
Ορισμός
Δημιουργία φορμαλιστικών μοντέλων
(θεωρητική)
◦ Η ανάπτυξη και μελέτη υπολογιστικών μοντέλων
επεξεργασίας πληροφορίας εκφρασμένης σε φυσική
γλώσσα
◦ Αναπαράσταση της γλωσσολογικής γνώσης
◦ Περιγραφή των μηχανισμών κατανόησης και
παραγωγής της γλώσσας από τον άνθρωπο
Ανάπτυξη συστημάτων λογισμικού για την
επεξεργασία φυσικής γλώσσας
(εφαρμοσμένη)
Τι είναι η γλωσσική τεχνολογία;
Ακαδημαϊκό Έτος 2013-2014
4
Αυτόματη ανάλυση και παραγωγή
γραπτών ή προφορικών εκφράσεων
φυσικής γλώσσας*:
◦
◦
◦
◦
◦
◦
◦
Αυτόματη διόρθωση κειμένου
Επεξεργασία λόγου(αναγνώριση-σύνθεση)
Μηχανική μετάφραση
Ανάκτηση, Εξαγωγή πληροφορίας
Αυτόματη εξαγωγή περιλήψεων
Εξόρυξη κειμένου, άποψης
...
*διάφορα μέσα την περιέχουν
Γλωσσική Τεχνολογία
Ακαδημαϊκό Έτος 2013-2014
5
Κατανόηση της ανάλυσης και της παραγωγής
της γλώσσας
Επικοινωνία
Πολύ μεγάλο μέρος της καταγεγραμένης
ανθρώπινης γνώσης είναι εκφρασμένο σε
φυσική γλώσσα
◦ Γνώση οργανισμών: νόμοι, κανονισμοί, εγχειρίδια,
οδηγίες, κλπ
◦ Πληροφορία από/για χρήστες: ιστότοποι
οργανισμών, αλληλογραφία, περιγραφές προϊόντων,
μέσα κοινωνικής δικτύωσης, κλπ
Γιατί είναι σημαντική;
Ακαδημαϊκό Έτος 2013-2014
6
Ραγδαία αύξηση του Παγκόσμιου Ιστού
◦ Μεγάλος όγκος πληροφορίας, άμεσα προσβάσιμος
Υπερ-πληροφόρηση
Γλωσσική Τεχνολογία
◦ Ανακάλυψη νέων τρόπων, καλύτερη συμβίωση με
την τεχνολογία
Συστήματα που:
◦ Αναγνωρίζουν λόγο(ομιλία-γραφή)
◦ Κατανοούν κείμενα, επιλογή πληροφοριών
◦ Μεταφράζουν από μια γλώσσα σε άλλη
◦ Συνθέτουν λόγο
◦ ...
Ακόμα..
Ακαδημαϊκό Έτος 2013-2014
7
Η φυσική γλώσσα είναι περίπλοκη...
επειδή απευθύνεται σε ανθρώπους
Η μηχανή δυσκολεύεται σημαντικά
◦
◦
◦
◦
◦
Πολλαπλοί τρόποι έκφρασης της ίδιας πληροφορίας
Ελλιπής πληροφορία
Ασάφεια
Διαφορετικό νόημα ανάλογα με το περιβάλλον
Δημιουργία νέων εκφράσεων, κλπ
◦ Χρήση της γνώσης του κόσμου και της εμπειρίας για
την κατανόηση της φυσικής γλώσσας
◦ Περιορισμένη γνώση του κόσμου
Εστίαση σε θεματικές περιοχές, χρήση οντολογιών
Γιατί είναι δύσκολη;
Ακαδημαϊκό Έτος 2013-2014
8
Φωνολογική
◦ Λύπη, λείπει, λίπη
◦ Στον ώμο, στο νόμο
Μορφοσυντακτική
◦ Οι απαντήσεις, να απαντήσεις
Σημασιολογική
◦ Ποντίκι
◦ Τόνος
Πραγματολογική
◦ - Ξέρεις τι ώρα είναι;
◦ - Μα δεν σας είπα ότι δεν θέλω πράσινο;
Ασάφεια
Ακαδημαϊκό Έτος 2013-2014
9
Επεξεργασία Φυσικής Γλώσσας(NLP - Natural
Language Processing)
◦ Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών
συστημάτων, υποτομέας της ΤΝ
Υπολογιστική Γλωσσολογία(CL – Computational
Linguistics)
◦ Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών μοντέλων
γλωσσολογικών θεωριών, πλέον συνώνυμο της ΕΦΓ
Γλωσσική Τεχνολογία
(LT – Language Technology)
◦ Λιγότερο καθιερωμένος όρος, κυρίως τεχνικές επεξεργασίας
φωνής, έμφαση στη δημιουργία υπολογιστικών συστημάτων
Συναφείς όροι
Ακαδημαϊκό Έτος 2013-2014
10
Ανάλυση και παραγωγή λόγου
Ακαδημαϊκό Έτος 2013-2014
11
Αναγνώριση λέξεων,
προτάσεων, …
Πληροφορίες για τις λέξεις,
όπως θέμα, κατάληξη,
πρόσωπο, αριθμό, γένος, …
Συντακτική δομή περιόδων,
ρόλοι των λέξεων, κλπ.
Αναγνώριση του νοήματος
των προτάσεων
Αναφορικές εκφράσεις,
σχέσεις μεταξύ προτάσεων
Σκοποί του χρήστη, σχέδια
δράσεως, …
Επίπεδα ανάλυσης λόγου
Ακαδημαϊκό Έτος 2013-2014
12
Γλωσσική τεχνολογία: τόσο παλιά όσο και οι
Η/Υ
◦ 50s: αρχή έρευνας
Επιρροή Noam Chomsky
◦ Διατύπωση θεωριών εκμάθησης της γλώσσας από
παιδιά
◦ Ιεραρχία γλωσσών, αποτελούμενη από 4 κατηγορίες
γραματικών
Κανονικές
Ανεξάρτητες από τα συμφραζόμενα
Εξαρτημένες άπό τα συμφραζόμενα
Απεριόριστες
Σύντομη αναδρομή
Ακαδημαϊκό Έτος 2013-2014
13
1950 - 1965
◦ Πρώτα βήματα, έμφαση στην μηχανική μετάφραση
1965 – 1980
◦ Έμφαση στη σημασιολογία
1980 – 1990
◦ Έμφαση στη σύνταξη, στατιστική μηχανική
μετάφραση, αναγνώριση ομιλίας
1990 – σήμερα
◦ Εργασίες χαμηλού επιπέδου, συνδυασμός με
τεχνικές μηχανικής μάθησης, εξαγωγή
πληροφορίας, αξιολόγηση
Ιστορικό
Ακαδημαϊκό Έτος 2013-2014
14
Υποστήριξη συγγραφής
Μετάφραση κειμένων
Κατηγοριοποίηση/φιλτράρισμα κειμένου
Εξαγωγή πληροφορίας – παραγωγή περίληψης
Διεπαφές σε φυσική γλώσσα
Αυτόματος υποτιτλισμός
Εξαγωγή στοιχείων για το συγγραφέα από τον
τρόπο γραφής του
Εντοπισμός συναισθήματος
Αντιστοίχηση βιογραφικών με αγγελίες ευρέσεως
εργασίας
Εφαρμογές
Ακαδημαϊκό Έτος 2013-2014
15
Αναγνώριση ομιλίας, OCR
Καθάρισμα κειμένων (π.χ. από HTML)
Αναγνώριση λέξεων/προτάσεων
Αναγνώριση μερών του λόγου
Ρηχή συντακτική ανάλυση
Αναγνώριση ονομάτων οντοτήτων
Εξαγωγή συσχετίσεων
Αναγνώριση συναισθήματος/πολικότητας
Αποσαφήνιση έννοιας λέξεων
Κοινές εργασίες
Ακαδημαϊκό Έτος 2013-2014
16
GATE - http://gate.ac.uk/
◦ Η πρώτη δημοφιλής πλατφόρμα – Java
Ellogon - http://www.ellogon.org/
◦ Η πρώτη UNICODE πλατφόρμα – C/C++/Tcl/…
NLTK - http://nltk.org/
◦ Η «εκπαιδευτική» πλατφόρμα – Python
Apache UIMA - http://uima.apache.org/
◦ Η «ανερχόμενη» πλατφόρμα – Java/C++
Πλατφόρμες
Ακαδημαϊκό Έτος 2013-2014
17