Output - ΤΕΙ Κρήτης

Download Report

Transcript Output - ΤΕΙ Κρήτης

Η αυτόματη επεξεργασία των
φυσικών γλωσσών:
Μέθοδοι και εφαρμογές
Αναστασία Γιαννακοπούλου
Δρ Υπολογιστικής Γλωσσολογίας
Εργαστήριο ΤΝΤΛ Τομέα ΕΥ
Γενικό Τμήμα Θετικών Επιστημών
ΤΕΙ Κρήτης
Πλάνο
O Τι είναι η Υπολογιστική Γλωσσολογία
O Πεδία εφαρμογής
O Αυτόματη Μετάφραση
O Βασική έρευνα
O Εφαρμογές
O Συστήματα ερωταποκρίσεων στα
ελληνικά
Αυτόματη επεξεργασία των
φυσικών γλωσσών: ορισμός
O Αυτόματη επεξεργασία των φυσικών
γλωσσών = NLP: Natural Language Processing
O Είναι μια επιστήμη που συνδυάζει την
Πληροφορική, τη Γλωσσολογία και
την Τεχνητή Νοημοσύνη.
O Φυσική γλώσσα = ανθρώπινη γλώσσα
O Απώτερος στόχος = κατανόηση της
ανθρώπινης γλώσσας από τον υπολογιστή
Πεδία εφαρμογής
O Αυτόματη μετάφραση – MT: Machine Translation
O Ανάκτηση πληροφορίας – IR: Information Retrieval
O Εξαγωγή πληροφορίας – IE: Information Extraction
O Εξόρυξη δεδομένων – DM: Data Mining
O Αναγνώριση μερών του λόγου – Part-of-speech (POS)
O
O
O
O
O
O
tagging
Συντακτική ανάλυση – Parsing
Αναγνώριση ονοματικών οντοτήτων – NER: Named Entities
Recognition
Μηχανική μάθηση – ML: Machine Learning
Αυτόματη αναπαραγωγή κειμένων – NLG: Natural
Language Generation
Αναγνώριση προφορικού λόγου – Speech Recognition
(Text-to-speech and Speech-to-text systems)
…
Αυτόματη Μετάφραση
http://translate.google.com/
Αυτόματη Μετάφραση
O Ruled-based machine translation (RBMT) – SYSTRAN
Σημασιολογία Μεταφορά
Σύνταξη
Μορφολογία
Κείμενο-πηγή
Ανάλυση
Σημασιολογία
Σύνταξη
Μορφολογία
Κείμενο-στόχος
Σύνθεση
Αυτόματη Μετάφραση
O Statistical Machine Translation (SMT)
O Παράλληλα σώματα κειμένων (parallel corpus) –
+1.000.000 λέξεις
O 2 μονόγλωσσα σώματα κειμένων –
+1δις λέξεις το καθένα
Στατιστικά μοντέλα
Προβλήματα:
O Ευθυγράμμιση προτάσεων (Sentence alignement)
O Σύνθετες λέξεις και ιδιωματικές εκφράσεις
O Μορφολογικοί τύποι
O Σύνταξη
Αυτόματη Μετάφραση
O Υβριδικά μοντέλα
SMT
System(Moses)
Phrase Table
Input
Text
RBMT System
Output
Text
Hybrid
Output
Phrase
substitution
Output
Text
Βασική έρευνα
O Δημιουργία ηλεκτρονικών λεξικών
O Εμπλουτισμός και διαχείριση ηλεκτρονικών
O
O
O
O
λεξικών
Συντακτικο-σημασιολογική περιγραφή των
ιδιοτήτων των ρημάτων με συμπλήρωμα που
δηλώνει τον τόπο.
Δημιουργία γραμματικών για τη συντακτική
ανάλυση, μερική ή πλήρη, δομών
Ονοματικές Οντότητες (NER)
Κυρίως γλώσσες: αγγλικά, γαλλικά, ελληνικά
Γλωσσολογικά δεδομένα
Χρησιμοποιούμε τα γλωσσολογικά δεδομένα για
να αναλύσουμε τα κείμενα (parsing), δηλαδή:
O μορφολογική ανάλυση των κειμένων, με την
εφαρμογή ηλεκτρονικών λεξικών
(electronic dictionaries)
O συντακτική και σημασιολογική ανάλυση των
κειμένων, με την εφαρμογή γραμματικών
(local grammars)
Ηλεκτρονικά λεξικά
O Με τον όρο «ηλεκτρονικά λεξικά»
εννοούμε τα λεξικά που έχουν μια
συγκεκριμένη δομή, η πληροφορία είναι
κωδικοποιημένη και μπορούν να
χρησιμοποιηθούν σε αναλυτές κειμένων
(parsers).
O Διαφορά ηλεκτρονικών λεξικών και
λεξικών σε ηλεκτρονική μορφή.
Ηλεκτρονικά λεξικά
O
Παράδειγμα ηλεκτρονικού λεξικού:
book,.N+Conc:s
book,.V:W:P1s:P2s:P1p:P2p:P3p
booking office,.N+XN+Conc+z1:s
booking offices,booking office.N+XN+Conc+z1:p
booking,.N:s
booking,book.V:G
bookings,booking.N:p
books,book.N+Conc:p
books,book.V:P3s
bookseller,.N+Hum:s
booksellers,bookseller.N+Hum:p
Μορφή:
κλιτός_τύπος,λημματικός_τύπος.γραμμ_κατ+ΣΣ_πλρφ+…:κλιτ_πλρφ:…
O
Γραμματικές
O Γενικά, μια γραμματική περιγράφει έναν ή
περισσότερους κανόνες.
O Για τη διατύπωσή της, χρησιμοποιούμε τη
μορφή πεπερασμένων αυτομάτων
(Finite-State Automata, Roche 1997).
Γραμματικές
Ανάλυση σε XML
Input:
for an hour and a half
Output: <duration hour=“1” min=“30”/>
UNITEX
Πολύγλωσσος οpen-source parser που
κατασκευάστηκε από τον Sébastien Paumier στο
Εργαστήριο Υπολογιστικής Γλωσσολογίας του Institut
Garspard Monge (IGM) στο Πανεπιστήμιο Paris-Est
Marne-la-Vallée. http://www-igm.univ-mlv.fr/~unitex/
O Χρησιμoποιούμε την επιφάνεια διεπαφής για να
κατασκευάσουμε, να εμπλουτίσουμε και να
διορθώσουμε τις τοπικές γραμματικές.
O Χρησιμοποιούμε τα εργαλεία του Unitex για να
κάνουμε την ανάλυση κειμένων.
O Οι πηγές του UNITEX διατίθενται με την άδεια LGPLRS.
O
Convex
Convex
O Natural Language Processing module
Output:
<note><conversion>
<convert-from value="7.1" unit="l/100km"/>
<convert-to unit="mpg"/></conversion></note>
Convex
O Γλωσσολογικά δεδομένα
O Ηλεκτρονικά λεξικά
O Γραμματικές αναγνώρισης δομών
O
Αναπαράσταση της πληροφορίας σε
XML
O Επιδόσεις
O PAF = Packed Array File
O Αναγνώριση σε πραγματικό χρόνο
Αναγνώριση
ονοματικών οντοτήτων
O Systran
O Κώδικας σε C++ για την αυτόματη
μετάφραση των ημερομηνιών σε 14 ζεύγη
γλωσσών.
O Ergonotics
O ημερομηνίες
O κύρια ονόματα προσώπων
O τοπωνύμια και διευθύνσεις
O url, email
O τηλεφωνικοί αριθμοί και αριθμοί
O μονάδες μέτρησης
Συστήματα
ερωταποκρίσεων
Συστήματα
ερωταποκρίσεων
Συστήματα
ερωταποκρίσεων
O Ομάδα Επεξεργασίας Φυσικής Γλώσσας, Τμήμα
Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών
(Ιων Ανδουτσόπουλος) (URL)
O «Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία
ελληνικών εφημερίδων» (URL)
O «Αυτόματη κατάταξη ελληνικών ερωτήσεων σε
κατηγορίες» (URL)
O «Χειρισµός Ερωτήσεων Ορισµού σε Συστήµατα
Ερωταποκρίσεων» (URL)
Συστήματα
ερωταποκρίσεων
O Πολυτεχνείο Κρήτης (Σ. Χριστοδουλάκης)
O «Συντακτικός αναλυτής ελληνικής γλώσσας και εφαρμογές
ανάληψης πληροφορίας” (URL)
O TEI Κρήτης (Μ. Μαρακάκης)
«Ανάπτυξη συστήµατος ανάλυσης προτάσεων – ερωτήσεων
της Ελληνικής γλώσσας, µετατροπή τους σε στόχους Prolog και
επεξεργασία τους από σχεσιακή βάση δεδοµένων».
O Ανάπτυξη συστήματος δημιουργίας προτάσεων στην Ελληνική
γλώσσα σαν απάντηση από την επεξεργασία ερωτήσεων σε
σχεσιακή βάση δεδομένων.
O
O Καναδά:
O
“Working Towards a Greek-English Cross-Language QuestionAnswering System” (URL)
Συστήματα
ερωταποκρίσεων
O Ερωτήσεις των οποίων η απάντηση είναι αυστηρά
καθορισµένη (factual questions)
O όνοµα προσώπου
O όνομα οργανισμού
O χρονική έκφραση
O τοποθεσία
O ποσότητα
O ορισμός
O Ερωτήσεις γνώμης (opinion questions)
O Eρωτήσεις περίληψης (summary questions)
Συστήματα
ερωταποκρίσεων
Συστήματα
ερωταποκρίσεων
 Σύστημα αναγνώρισης μερών του λόγου
(POS tagger)
 Σύστημα αναγνώρισης ονοματικών οντοτήτων
(NER)
Ευχαριστώ!
[email protected]
http://www.linkedin.com/in/anastasiayannacopoulou
Βιβλιογραφία
Emmanuel Roche. 1997. Parsing with finite state
transducers. In E. Roche & Y. Schabes (eds), Finite-State
Language Processing, Cambridge, Mass./London, The MIT
Press, pp. 241-281.