ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ

Download Report

Transcript ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ

ΓΛΩΣΣΙΚΗ
ΤΕΧΝΟΛΟΓΙΑ
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Ακαδημαϊκό Έτος 2013-2014
1
Βασισμένο στις διαλέξεις προηγούμενων ετών της Σοφίας Στάμου και
του Γιώργου Πετάση
Ακαδημαϊκό Έτος 2013-2014
2

Γλώσσα
◦ Μέσο ανταλλαγής και καταγραφής
πληροφοριών

Φυσική Γλώσσα
◦ Μέσο επικοινωνίας μεταξύ ανθρώπων

Τεχνητή γλώσσα
◦ Μέσο επικοινωνίας ανθρώπου- μηχανής

Ελληνικά vs Java
Εισαγωγικά
Ακαδημαϊκό Έτος 2013-2014
3

Ορισμός

Δημιουργία φορμαλιστικών μοντέλων
(θεωρητική)
◦ Η ανάπτυξη και μελέτη υπολογιστικών μοντέλων
επεξεργασίας πληροφορίας εκφρασμένης σε φυσική
γλώσσα
◦ Αναπαράσταση της γλωσσολογικής γνώσης
◦ Περιγραφή των μηχανισμών κατανόησης και
παραγωγής της γλώσσας από τον άνθρωπο

Ανάπτυξη συστημάτων λογισμικού για την
επεξεργασία φυσικής γλώσσας
(εφαρμοσμένη)
Τι είναι η γλωσσική τεχνολογία;
Ακαδημαϊκό Έτος 2013-2014
4

Αυτόματη ανάλυση και παραγωγή
γραπτών ή προφορικών εκφράσεων
φυσικής γλώσσας*:
◦
◦
◦
◦
◦
◦
◦
Αυτόματη διόρθωση κειμένου
Επεξεργασία λόγου(αναγνώριση-σύνθεση)
Μηχανική μετάφραση
Ανάκτηση, Εξαγωγή πληροφορίας
Αυτόματη εξαγωγή περιλήψεων
Εξόρυξη κειμένου, άποψης
...
*διάφορα μέσα την περιέχουν
Γλωσσική Τεχνολογία
Ακαδημαϊκό Έτος 2013-2014
5



Κατανόηση της ανάλυσης και της παραγωγής
της γλώσσας
Επικοινωνία
Πολύ μεγάλο μέρος της καταγεγραμένης
ανθρώπινης γνώσης είναι εκφρασμένο σε
φυσική γλώσσα
◦ Γνώση οργανισμών: νόμοι, κανονισμοί, εγχειρίδια,
οδηγίες, κλπ
◦ Πληροφορία από/για χρήστες: ιστότοποι
οργανισμών, αλληλογραφία, περιγραφές προϊόντων,
μέσα κοινωνικής δικτύωσης, κλπ
Γιατί είναι σημαντική;
Ακαδημαϊκό Έτος 2013-2014
6

Ραγδαία αύξηση του Παγκόσμιου Ιστού
◦ Μεγάλος όγκος πληροφορίας, άμεσα προσβάσιμος
 Υπερ-πληροφόρηση

Γλωσσική Τεχνολογία
◦ Ανακάλυψη νέων τρόπων, καλύτερη συμβίωση με
την τεχνολογία
 Συστήματα που:
◦ Αναγνωρίζουν λόγο(ομιλία-γραφή)
◦ Κατανοούν κείμενα, επιλογή πληροφοριών
◦ Μεταφράζουν από μια γλώσσα σε άλλη
◦ Συνθέτουν λόγο
◦ ...
Ακόμα..
Ακαδημαϊκό Έτος 2013-2014
7

Η φυσική γλώσσα είναι περίπλοκη...

επειδή απευθύνεται σε ανθρώπους

Η μηχανή δυσκολεύεται σημαντικά
◦
◦
◦
◦
◦
Πολλαπλοί τρόποι έκφρασης της ίδιας πληροφορίας
Ελλιπής πληροφορία
Ασάφεια
Διαφορετικό νόημα ανάλογα με το περιβάλλον
Δημιουργία νέων εκφράσεων, κλπ
◦ Χρήση της γνώσης του κόσμου και της εμπειρίας για
την κατανόηση της φυσικής γλώσσας
◦ Περιορισμένη γνώση του κόσμου
 Εστίαση σε θεματικές περιοχές, χρήση οντολογιών
Γιατί είναι δύσκολη;
Ακαδημαϊκό Έτος 2013-2014
8

Φωνολογική
◦ Λύπη, λείπει, λίπη
◦ Στον ώμο, στο νόμο

Μορφοσυντακτική
◦ Οι απαντήσεις, να απαντήσεις

Σημασιολογική
◦ Ποντίκι
◦ Τόνος

Πραγματολογική
◦ - Ξέρεις τι ώρα είναι;
◦ - Μα δεν σας είπα ότι δεν θέλω πράσινο;
Ασάφεια
Ακαδημαϊκό Έτος 2013-2014
9

Επεξεργασία Φυσικής Γλώσσας(NLP - Natural
Language Processing)
◦ Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών
συστημάτων, υποτομέας της ΤΝ

Υπολογιστική Γλωσσολογία(CL – Computational
Linguistics)
◦ Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών μοντέλων
γλωσσολογικών θεωριών, πλέον συνώνυμο της ΕΦΓ

Γλωσσική Τεχνολογία
(LT – Language Technology)
◦ Λιγότερο καθιερωμένος όρος, κυρίως τεχνικές επεξεργασίας
φωνής, έμφαση στη δημιουργία υπολογιστικών συστημάτων
Συναφείς όροι
Ακαδημαϊκό Έτος 2013-2014
10
Ανάλυση και παραγωγή λόγου
Ακαδημαϊκό Έτος 2013-2014
11





Αναγνώριση λέξεων,
προτάσεων, …
Πληροφορίες για τις λέξεις,
όπως θέμα, κατάληξη,
πρόσωπο, αριθμό, γένος, …
Συντακτική δομή περιόδων,
ρόλοι των λέξεων, κλπ.
Αναγνώριση του νοήματος
των προτάσεων
Αναφορικές εκφράσεις,
σχέσεις μεταξύ προτάσεων
Σκοποί του χρήστη, σχέδια
δράσεως, …
Επίπεδα ανάλυσης λόγου
Ακαδημαϊκό Έτος 2013-2014
12

Γλωσσική τεχνολογία: τόσο παλιά όσο και οι
Η/Υ
◦ 50s: αρχή έρευνας

Επιρροή Noam Chomsky
◦ Διατύπωση θεωριών εκμάθησης της γλώσσας από
παιδιά
◦ Ιεραρχία γλωσσών, αποτελούμενη από 4 κατηγορίες
γραματικών




Κανονικές
Ανεξάρτητες από τα συμφραζόμενα
Εξαρτημένες άπό τα συμφραζόμενα
Απεριόριστες
Σύντομη αναδρομή
Ακαδημαϊκό Έτος 2013-2014
13

1950 - 1965
◦ Πρώτα βήματα, έμφαση στην μηχανική μετάφραση

1965 – 1980
◦ Έμφαση στη σημασιολογία

1980 – 1990
◦ Έμφαση στη σύνταξη, στατιστική μηχανική
μετάφραση, αναγνώριση ομιλίας

1990 – σήμερα
◦ Εργασίες χαμηλού επιπέδου, συνδυασμός με
τεχνικές μηχανικής μάθησης, εξαγωγή
πληροφορίας, αξιολόγηση
Ιστορικό
Ακαδημαϊκό Έτος 2013-2014
14
Υποστήριξη συγγραφής
 Μετάφραση κειμένων
 Κατηγοριοποίηση/φιλτράρισμα κειμένου
 Εξαγωγή πληροφορίας – παραγωγή περίληψης
 Διεπαφές σε φυσική γλώσσα
 Αυτόματος υποτιτλισμός
 Εξαγωγή στοιχείων για το συγγραφέα από τον
τρόπο γραφής του
 Εντοπισμός συναισθήματος
 Αντιστοίχηση βιογραφικών με αγγελίες ευρέσεως
εργασίας

Εφαρμογές
Ακαδημαϊκό Έτος 2013-2014
15









Αναγνώριση ομιλίας, OCR
Καθάρισμα κειμένων (π.χ. από HTML)
Αναγνώριση λέξεων/προτάσεων
Αναγνώριση μερών του λόγου
Ρηχή συντακτική ανάλυση
Αναγνώριση ονομάτων οντοτήτων
Εξαγωγή συσχετίσεων
Αναγνώριση συναισθήματος/πολικότητας
Αποσαφήνιση έννοιας λέξεων
Κοινές εργασίες
Ακαδημαϊκό Έτος 2013-2014
16

GATE - http://gate.ac.uk/
◦ Η πρώτη δημοφιλής πλατφόρμα – Java

Ellogon - http://www.ellogon.org/
◦ Η πρώτη UNICODE πλατφόρμα – C/C++/Tcl/…

NLTK - http://nltk.org/
◦ Η «εκπαιδευτική» πλατφόρμα – Python

Apache UIMA - http://uima.apache.org/
◦ Η «ανερχόμενη» πλατφόρμα – Java/C++
Πλατφόρμες
Ακαδημαϊκό Έτος 2013-2014
17