Γλωσσική Τεχνολογία

Download Report

Transcript Γλωσσική Τεχνολογία

Γλωσσική Τεχνολογία
Μάθημα 3ο
Επεξεργασία Κειμένου και Δεικτοδότηση
Σοφία Στάμου
Άκ.Έτος 2009-10
Τι είναι το ευρετήριο;
 Συστηματική οργάνωση δεδομένων με στόχο τη
διευκόλυνση των χρηστών για τον εντοπισμό
πληροφορίας σε ένα κείμενο
 Τύποι οργάνωσης




10/4/2015
Αλφαβητική (Α-Ω)
Δευτερευόντων όρων (υπο-καταχωρήσεων)
Διαφόρων όρων (πολλαπλές καταχωρήσεις)
Ετερο-αναφορών
Γλωσσική Τεχνολογία
2
Κανόνες ευρετηρίασης
 Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν
οι χρήστες για να διατυπώσουν ερωτήματα
 Επιλέγουμε και τροποποιούμε (όπου χρειάζεται)
τους όρους βάσει των αναγκών του χρήστη
 Συνέπεια στη μεθοδολογία επιλογής, απόδοσης
και οργάνωσης θεματικών όρων
10/4/2015
Γλωσσική Τεχνολογία
3
Δημιουργώντας το ευρετήριο
Αρχείο
Ευρετηρίου
10/4/2015
Αρχείο
κειμένων
Γλωσσική Τεχνολογία
4
Αξιολόγηση της Ανάκτησης
 Ακρίβεια
 Ποσοστό σχετικών κειμένων στα ανακτηθέντα
 Ακρίβεια(P) = |σχετικά ανακτηθέντα| ÷ |ανακτηθέντα|
= P( σχετικά| ανακτηθέντα )
 Ανάκληση
 Ποσοστό σχετικών ανακτηθέντων στο σύνολο
σχετικών
 Ανάκληση(R) = |σχετικά ανακτηθέντα| ÷ |σχετικά|
= R( ανακτηθέντα| σχετικά )
 F1 Μετρική
 F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης
και ακρίβειας
10/4/2015
Γλωσσική Τεχνολογία
5
Λόγος Ακρίβειας/Ανάκλησης
Κείμενα
Ανακτηθέντα σχετικά!
P
Ra R
Ακρίβεια
Σχετικά κείμενα
Ανάκληση
Recall
0.2
0.2
0.4
0.4
0.4
0.6
0.6
Precis. 1.0
0.5
0.67 0.5
0.4
0.5
0.43 0.38 0.44 0.5
10/4/2015
0.6
0.8
1.0
Γλωσσική Τεχνολογία
Μέση Ακρίβεια = 0.62
(1 + .67 + .5 + .44 + .5) / 5
6
Θεματικά Ευρετήρια
 Για κάθε θεματική κατηγορία δημιουργείται μια
λίστα όλων των όρων που την περιγράφουν
Αναγνωριστικά
κειμένων
Μουσική
2
Θέατρο
1
Τέχνη
10/4/2015
4
2
8
16 32 64 128
3
5
8
13 21 34
13 16
Γλωσσική Τεχνολογία
7
Πολλαπλά ευρετήρια
 Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό
ευρετήριο μπορούν να συγχωνευθούν για τη
σύνθεση του τελικού ευρετηρίου
Θεματικά
Ευρετήρια
Κεντρικό
ευρετήριο
αναζητήσεων
10/4/2015
Γλωσσική Τεχνολογία
8
Αναζήτηση κειμένων
Λεξικό
Μουσική
–0
Τέχνη
–1
Πιάνο
–2
Ευρετήριο
Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής”
Τομή των IDs κειμένων που βρίσκονται και
στις 2 λίστες (boolean AND):
0 (Μουσική)
1 (Τέχνη)
Αποτέλεσμα
0
0
Βρέθηκε!
1
n/a
Δεν Βρέθηκε!
n/a
2
Δεν Βρέθηκε!
IDs λέξεων : 0, 1
0 -> 0, 1
1 -> 0, 2
2 -> 1
10/4/2015
Γλωσσική Τεχνολογία
9
Είδη Ευρετηρίων
 Θεματικά
 Συγγραφέων
 Ονομάτων
 Γεωγραφικά
 Τίτλων
 Αριθμών και κωδικών
10/4/2015
Γλωσσική Τεχνολογία
10
Ευρετήρια Τίτλων
KWIC (KeyWord-in-Context)
 Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο
και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά.
Π.χ.
Descent of Man
The Ascent of Man
The Old Man and The Sea
A Portrait of the Artist As a Young :
a portrait of the ARTIST as a young man
the ASCENT of man
DESCENT of man
descent of
MAN
the ascent of MAN
the old
10/4/2015
MAN and the sea
Γλωσσική Τεχνολογία
11
Ευρετήρια Τίτλων
KWOC (KeyWord-out-of-Context)
Κάθε σημαντική λέξη αποσπάται από τον τίτλο
και τοποθετείται με αλφαβητική σειρά στο
αριστερό τμήμα της σελίδας και ακολουθείται
από τις υπόλοιπες λέξεις του τίτλου:
Library
Library
Library
Library
Library
10/4/2015
A modern outline of library classification
Introduction to library classification
Library education
Public library administration
National Library of Canada
Γλωσσική Τεχνολογία
12
KWIC vs. KWOC
 Απαλοιφή τερματικών όρων
 Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης
εξαρτάται από τις επιλογές του ειδικού
 Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης
εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι
Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική
από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις
Κοινωνικές Επιστήμες
10/4/2015
Γλωσσική Τεχνολογία
13
Λέξεις - Κλειδιά
Πλεονεκτήματα
 Παρέχουν πρόσβαση στις λέξεις που
χρησιμοποιούνται στα ευρετήρια συλλογών
Μειονεκτήματα
 Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα
των φυσικών γλωσσών
 Δεν μπορούν να υποκαταστήσουν πλήρως το
περιεχόμενο
Η αναζήτηση
με λέξεις-κλειδιά διευκολύνεται
όταν η ευρετηρίαση είναι
Γλωσσική Τεχνολογία
14
10/4/2015
ελεγχόμενου λεξιλογίου
Επιλέγοντας τις λέξεις-κλειδιά
Βήματα επεξεργασίας κειμένου:
1. Αναγνώριση προτάσεων και λέξεων
2. Μορφοσυντακτική ανάλυση
3. Απαλοιφή τερματικών όρων
4. Μετρική βαθμολόγησης σπουδαιότητας
5. Επιλογή σημαντικών όρων
10/4/2015
Γλωσσική Τεχνολογία
15
Μορφοσυντακτική ανάλυση
 Κρυφά Μοντέλα Markov
 Νευρωνικά Δίκτυα
 Μετασχηματιστικοί Κανόνες
 Δέντρα Απόφασης
 Μοντέλα Μέγιστης Εντροπίας
10/4/2015
Γλωσσική Τεχνολογία
16
Μορφοσυντακτική ανάλυση
 Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει
κάθε λέξη του κειμένου
Λέξεις
Ετικέτες
the
koala
put
the
keys
on
the
table
10/4/2015
N
V
P
DET
Πώς θα βρούμε
την POS ετικέτα;
Γλωσσική Τεχνολογία
17
Μορφοσυντακτική ανάλυση
A S C II κείμ ενο
α να γ νω ρισ τή ς
σ υ μ βόλ ω ν κ α ι
π ροτά σ εω ν
λ έξεις μ ε
λ έξεις
μ ορφ ολ ογ ικ ό
α σ ά φ εια
λ εξικ ό
ά γ νω σ τες
α π οσ α φ η νισ τή ς
λ έξεις
λ έξεις, σ η μ εία σ τίξη ς,
μ ορφ οσ υ ντα κτική
α ριθμ οί, κτλ .
πλ η ροφ ορία
σ υ μ φ ρα ζόμ ενα
α ποσ α φ η νισ μ ένη
μ ορφ οσ υ ντα κτική
πλ η ροφ ορία
α κολ ου θία σ υ μ β όλ ω ν κα ι προτά σ εω ν
m ark-u p
κείμ ενο μ ε
μ ορφ οσ υ ντα κτικό
φ ορμ α λ ισ μ ός
σ χολ ια σ μ ό
10/4/2015
Γλωσσική Τεχνολογία
(X M L )
18
Πού θα βρούμε τις ετικέτες;
10/4/2015
Γλωσσική Τεχνολογία
19
Μετασχηματιστικοί Κανόνες
1. Μορφοσυντακτική ετικέτα μεγαλύτερης
συχνότητας (άγνωστες λέξεις = ουσιαστικό)

Charniak: 90% σωστές επιλογές ως εδώ!
2. Χρήση μετασχηματιστικών κανόνων
3. Διόρθωση ετικετών που είναι ασύμβατες με
τα συμφραζόμενα
10/4/2015
Γλωσσική Τεχνολογία
20
Μηχανική Μάθηση Κανόνων
Σώ μα
Κ ειμ ένω ν
Α ρ χ ικό ς
Μ ο ρ φ ο σ υ ντα κτικό ς
Σ χ ο λια σ μ ό ς
Σ χ ο λια σ μ ένο
Σ χ ο λια σ μ ένο
Σ ώ μ α Κ ειμ ένω ν
Σ ώ μ α Κ ειμ ένω ν
(μ ε λά θ η )
χ ω ρ ίς λά θ η
Ε κπ α ίδ ευ σ η
10/4/2015
Γλωσσική Τεχνολογία
Κ α νό νες
21
Μηχανική Μάθηση Κανόνων
 Είσοδος:
 Σώμα κειμένων C1 χωρίς ετικέττες (tags)
 Ακριβές αντίγραφό του C2, μορφοσυντακτικά
σχολιασμένο από ειδικούς.
 Πρότυπα κανόνων
 Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον
αρχικό tagger  Παραγωγή του C1a.
 Βήμα 2:



10/4/2015
Σύγκριση του σώματος C1a με το ιδανικό C2.
Καθορισμός της λίστας των λανθασμένων επιλογών.
Από τη λίστα των λαθών, κατασκευάζονται με χρήση
προτύπων κανόνων όλοι οι πιθανοί κανόνες που
μπορούν να εφαρμοστούν.
Γλωσσική Τεχνολογία
22
Μηχανική Μάθηση Κανόνων
 Βήμα 3:
 Εφαρμογή των κανόνων και ανάθεση ενός σκορ
σε κάθε κανόνα.

Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών

Επιλογή κανόνα με το καλύτερο σκορ
 Βήμα 4: Ανανέωση του C1a με εφαρμογή του
επιλεγμένου κανόνα.
 Βήμα 5:


Τερματισμός αν η βελτίωση είναι μικρότερη από
ένα κατώφλι
Αλλιώς: επανάληψη από το βήμα 2
 Έξοδος: Διατεταγμένο σύνολο κανόνων.
10/4/2015
Γλωσσική Τεχνολογία
23
Μετασχηματιστικοί Κανόνες
ΑΛΛΑΞΕ την ετικέτα της τρέχουσας λέξης ΑΠΟ a ΣΕ b ΑΝ:
1. Η προηγούμενη/επόμενη λέξη έχει την ετικέτα t
2. Η προ-προηγούμενη/μεθεπόμενη λέξη έχει την ετικέτα t
3. Μία από τις δύο προηγούμενες/επόμενες λέξεις έχει την ετικέτα t
4. Μία από τις τρεις προηγ ούμενες/επόμενες λέξεις έχει την ετικέτα t
5. Η προηγούμενη λέξη έχει την ετικέτα t1 και η επόμενη την ετικέτα t 2
6. Η προηγούμενη/επόμενη λέξη έχει την ετικέτα t1 και η προ-προηγούμενη την ετικέτα t 2
7. Η προηγούμενη/επόμενη λέξη είναι η w
8. Η προ-προηγούμενη/μεθεπόμενη λέξη είναι η w
9. Μία από τις δύο προηγούμενες/επόμενες λέξεις είναι η w
10. Η τρέχουσα λέξη είναι η w1 και η προηγούμενη/επόμενη λέξη είναι η w2
11. Η τρέχουσα λέξη είναι η w και η προηγούμενη/επόμενη λέξη έχει την ετικέτα t
12. Η τρέχουσα λέξη είναι η w
13. Η προηγούμενη/επόμενη λέξη είναι η w και η προηγούμενη/επόμενη λέξη έχει την
ετικέτα t
14. Η τρέχουσα λέξη είναι η w1 , η προηγούμενη/επόμενη λέξη είναι η w2 και η
προηγούμενη/επόμενη λέξη έχει την ετικέτα t
10/4/2015
Γλωσσική Τεχνολογία
24
Ο Βάκης αισθάνθηκε το αίμα να χτυπάει με ορμή στις φλέβες του,
μυρμηγκιάζοντας στις κλειδώσεις.
Μορφοσυντακτική Ανάλυση
Ο/[ο:Άρθ(ΑρσΕνιΟνο)] Βάκης/[Βακης:Ουσ(ΑρσΕνιΟνο)]
αισθάνθηκε/[αισθάνομαι:Ρήμ(ΠαθΑορΟριΕνιΓ’)]
το/[ο:Άρθ(ΟυδΕνιΑιτ)] αίμα/[αίμα:Ουσ(ΟυδΕνιΑιτ)]
να/[να:Μορ] χτυπάει/[χτυπώ:Ρήμ(ΕνρΕνεΥποΕνιΓ’)]
με/[με:Προ] ορμή/[ορμή:Ουσ(ΘηλΕνιΑιτ)]
στις/[στον:ΠροΆρθ(ΘηλΠληΑιτ)]
φλέβες/[φλέβα:Ουσ(ΘηλΠληΑιτ)]
του/[μου:ΚτΑντ(Γ'ΑρσΕνιΓεν)] ,/Κόμμα
μυρμηγκιάζοντας/[μυρμηγκιάζω:Μετ(ΕνρΕνε)]
στις/[στον:ΕμΆρθ(ΘηλΠληΑιτ)]
κλειδώσεις/[κλείδωση:Ουσ(ΘηλΠληΑιτ)] ./Τελεία
10/4/2015
Γλωσσική Τεχνολογία
25
Ένα ταξίδι στα σχολειά της Ελλάδας ξεκινούν οι Γιατροί Χωρίς Σύνορα
έχοντας ως πλοηγό το καινούργιο εκπαιδευτικό τους πρόγραμμα.
Μορφοσυντακτική Ανάλυση
Ένα/[ένας:Άρθ(ΟυδΕνιΑιτ)] ταξίδι/[ταξίδι:Ουσ(ΟυδΕνιΑιτ)]
στα/[ο:ΠροΆρθ(ΟυδΠληΑιτ)]
σχολειά/[σχολείο:Ουσ(ΟυδΠληΑιτ)] της/[ο:Άρθ(ΘηλΕνιΓεν)]
Ελλάδας/[Ελλάδα:Ουσ(ΘηλΕνιΓεν)]
ξεκινούν/[ξεκινώ:Ρήμ(ΕνεΕνσΟριΠληΓ’)]
οι/[ο:Άρθ(ΑρσΠληΟνο)] Γιατροί/[γιατρός:Ουσ(ΑρσΠληΟνο)]
Χωρίς/[χωρίς:Προ] Σύνορα/[σύνορο:Ουσ(ΟυδΠληΑιτ)]
έχοντας/[έχω:Μτχ(ΕνεΕνσ)] ως/[ως:Μόρ]
πλοηγό/[πλοηγός:Ουσ(ΑρσΕνιΑιτ)] το/[ο:Άρθ(ΟυδΕνιΑιτ)]
καινούργιο/[καινούργιος:Επθ(ΟυδΕνιΑιτ)]
εκπαιδευτικό/[εκπαιδευτικός:Επθ(ΟυδΕνιΕιτ)]
τους/[μου:ΚτΑντ(Γ’ΑρσΠληΑιτ)]
πρόγραμμα/[πρόγραμμα:Ουσ(ΟυδΕνιΑιτ)] . /Τελεία
Επιλογή λεξημάτων (αποκλεισμός άρθρων, αντωνυμιών, μορίων
κτλ.)
ταξίδι σχολείο Ελλάδα ξεκινώ γιατρός σύνορο πλοηγός καινούργιος
εκπαιδευτικός πρόγραμμα
10/4/2015
Γλωσσική Τεχνολογία
26
Επιλέγοντας λέξεις κλειδιά
F requency/Inform ativity
frequency
inform ativity
M ax .
M in.
123…
10/4/2015
R an k
Γλωσσική Τεχνολογία
27
tf*idf Βαθμολόγηση
tf = term frequency

Συχνότητα όρου σε ένα κείμενο.
df = document frequency

Πόσα κείμενα περιέχουν τον όρο;

Κατανομή του όρου
idf = inverse document frequency

Η άνιση κατανομή του όρου στο κείμενο

Πόσο συγκεκριμένος είναι ο όρος για το κείμενο
Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή
τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο
weight(t,D) = tf(t,D) * idf(t)
10/4/2015
Γλωσσική Τεχνολογία
28
Ευρετηρίαση
Index
#1: The brown cat purred.
Search
Brown
Cat
#2: Cats like brown chairs.
#3: Tommy likes cats.
10/4/2015
Γλωσσική Τεχνολογία
1, 3
1, 2, 3
Chair
2
Like
2, 3
Purr
1
Tommy
3
29
Στο επόμενο μάθημα....
 Ποια είδη ευρετηρίων υπάρχουν;
 Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου
10/4/2015
Γλωσσική Τεχνολογία
30
.....
http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html
10/4/2015
Γλωσσική Τεχνολογία
31