Transcript Πολυγλωσσικότητα και ψηφιακές βιβλιοθή
Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες
Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής
Πολυγλωσσική ψηφιακή βιβλιοθήκη (Βασικός ορισμός)
Μια ψηφιακή βιβλιοθήκη, η οποία περιέχει τεκμήρια σε περισσότερες από μία γλώσσες
Δια-γλωσσική ανάκτηση πληροφοριών (Cross-Language Information Retrieval - CLIR) Η πρακτική κατά την οποία ο χρήστης συντάσσει το ερωτηματολόγιο (Query) σε μια γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.
Αναγκαιότητα της CLIR
Ο χρήστης πρέπει να έχει πρόσβαση σε όσο το δυνατόν περισσότερες πληροφορίες, χωρίς η γλώσσα ν’ αποτελεί φραγμό Ο δημιουργός πρέπει να κάνει τις εργασίες του, απόψεις, ιδέες του κλπ. διαθέσιμα ευρέως, χωρίς τον περιορισμό της γλώσσας
Προσεγγίσεις για την εκτέλεση μιας CLIR 1η Προσέγγιση: Μετάφραση των τεκμηρίων στόχων στη γλώσσα αναζήτησης o Πολύ βολική για τον χρήστη Αλλά: o Μη ρεαλιστική (Πολύ δαπανηρή και απαιτητική δραστηριότητα) o o Τα προγράμματα αυτόματης μετάφρασης (MT) έχουν αποδειχθεί αναποτελεσματικά Ένα μικρό ποσοστό της συλλογής μπορεί να ενδιαφέρει τον χρήστη. Γιατί να μεταφράζονται τα παντα;
Προσεγγίσεις για την εκτέλεση μιας CLIR (συνέχεια)
2η
Προσέγγιση: Μετάφραση του querie στη γλώσσα των αντίστοιχων τεκμηρίων Τεχνικές knowledge-based Με χρήση λεξικών Με χρήση θησαυρών Με χρήση οντολογιών (π.χ. Euro Wordnet) Τεχνικές corpus-based Βασίζονται στην ίδια τη συλλογή Χρησιμοποιούνται στατιστικά στοιχεία σχετικά με τη χρήση των όρων για εξαγωγή συμπερασμάτων Βάσει των συμπερασμάτων δημιουργούνται τεχνικές μετάφρασης του querie, ειδικές για κάθε ξεχωριστή συλλογή Εφαρμόζονται για την αναζήτηση μεταξύ παράλληλων (μεταφραστικά ισοδύναμων) ή συγκρίσιμων (με σχετικό περιεχόμενο) συλλογών
Απαιτήσεις εφαρμογής για μια πολυγλωσσική ψηφιακή βιβλιοθήκη
Αναγνώριση, χειρισμός και εμφάνιση των διάφορων περιεχόμενων γλωσσών.
των σετ χαρακτήρων και κωδικοποιήσεων για την αναπαράσταση της πληροφορίας)
τοπικούς ή γλωσσικούς φραγμούς)
( Υποστήριξη
Επίτευξη Internationalization (Δυνατότητα πρόσβασης και χρήσης ανεξάρτητα από
Εφαρμογή οδηγιών του HTTP και της HTML (ως προς την κωδικοποίηση χαρακτήρων)
Επίτευξη Localization (Προσαρμογή στις τοπικές ιδιαιτερότητες)
Δυνατότητα εφοδιασμού με ειδικά fonts
Δυναμικό inrerface
Σε ένα interface μιας πολυγλωσσικής βιβλιοθήκης είναι απαραίτητο: Όλα τα επιμέρους interfaces να εμφανίζονται σε κάθε προτιμώμενη γλώσσα Όλα τα μηνύματα να εμφανίζονται σε κάθε προτιμώμενη γλώσσα Όλα τα στοιχεία των επιμέρους πινάκων να εμφανίζονται σε κάθε προτιμώμενη γλώσσα
Πολυγλωσσική ψηφιακή βιβλιοθήκη (Ευρύς ορισμός)
«Μια πολυγλωσσική ψηφιακή βιβλιοθήκη, είναι μια ψηφιακή βιβλιοθήκη, όλες οι λειτουργίες της οποίας εφαρμόζονται ταυτόχρονα σε όσες γλώσσες είναι επιθυμητό και της οποίας οι λειτουργίες αναζήτησης και ανάκτησης είναι ανεξάρτητες από τη γλώσσα».
[1] [1] Pavani, Ana M. B. ,
A model of Multilingual Digital Libray,
Ci. Inf., Brasília, v. 30, n. 3, p. 73-81, set./dez. 2001
Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble
Corpus-based μέθοδος πολυγλωσσικής ανάκτησης πληροφοριών κατά την οποία ο χρήστης συνθέτει το querie σε μια προτιμώμενη γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.
Βάση εργασίας:
Συλλογή του Associated Press (AP) με αγγλικά κείμενα Συλλογή του Schweizerische Depeschenagentur (SDA) με γερμανικά και γαλλικά κείμενα
Τεχνική ευθυγράμμισης τεκμηρίων (Document alignment)
Διαδικασία κατά την οποία τεκμήρια με σχετικό περιεχόμενο οργανώνονται σε ζεύγη (alignments), παράγοντας ένα mapping των σχετιζόμενων μεταξύ τους τεκμηρίων διαφορετικών συλλογών
Παράδειγμα ευθυγράμμισης (SDA)
Condor-Maschine bei Izmir abgestürzt: Mutmasslisc 16 Tote.
(Condor plane crashed near Izmir: probably 16 dead) Un avion ouest-allemand s'écrase près d'Izmir: 16 morts.
(A Western German plane crashes near Izmir: 16 dead)
Δείκτες για τον εντοπισμό της συνάφειας Τα τεκμήρια περιέχουν κοινά κύρια ονόματα (Η ορθογραφία των ονομάτων σε παρόμοιες γλώσσες είναι συνήθως σταθερή) Τα τεκμήρια περιέχουν κοινούς αριθμούς (Οι αριθμοί σε μεγάλο βαθμό δεν εξαρτώνται απ’ τη γλώσσα) Αν στα τεκμήρια έχουν αποδοθεί συμβατοί ταξινομητές (classifiers), αυτοί μπορούν να χρησιμοποιηθούν Η ίδια ιστορία ή είδηση συνήθως δημοσιεύεται σε κοντινές ημερομηνίες από τα ειδησεογραφικά πρακτορεία. Κατά συνέπεια, οι ημερομηνίες μπορούν να χρησιμοποιηθούν σαν δείκτες Λέξεις που περιέχονται και στα δύο τεκμήρια μπορούν να χρησιμοποιηθούν σαν ένδειξη συνάφειας. Ειδικά γι αυτό, μπορεί να χρησιμοποιηθεί λεξικό για τη μετάφραση των όρων από γλώσσα σε γλώσσα.
Βασική σύλληψη της διαδικασίας ευθυγράμμισης Τα κείμενα της πρώτης συλλογής μετατρέπονται σε queries με την εξαγωγή όρων απ’ αυτά Τα queries μεταφράζονται στη γλώσσα στόχο και «τρέχουν» πάνω στη δεύτερη συλλογή
Ευθυγράμμιση συλλογών AP – German SDA
Χρήση όρων «μετρίας» συχνότητας Χρήση wordlist (Απλοποιημένο λεξικό) Χρήση τεχνικής Thresholding (Κατώτατου ορίου ή κατωφλίου) Χρήση τεχνικής Date normalization (Κανονικοποίησης ημερομηνίας )
Απεικόνιση των ευθυγραμμίσεων AP-German SDA (1)
Απεικόνιση των ευθυγραμμίσεων AP-German SDA (2)
Παράθυρο ημερομηνίας (Date window): Μπορεί να χρησιμοποιηθεί για τον περιορισμό της έκτασης προς αναζήτηση
Ευθυγράμμιση συλλογών French SDA – German SDA
Χρήση των αποδοθέντων Classifiers Χρήση κυρίων ονομάτων και αριθμών σαν δείκτες Δεν είναι απαραίτητη η χρήση γλωσσικών εργαλείων
Αξιολόγηση των ευθυγραμμίσεων
Αξιολόγηση ανεξάρτητα από την εφαρμογή Αξιολόγηση εφαρμογής που χρησιμοποιεί τις ευθυγραμμίσεις
Αξιολόγηση ανεξάρτητα από την εφαρμογή
Πώς θα κριθεί η ποιότητα; Απαιτείται άνθρωπος κριτής που θα πρέπει να διαβάσει
ολόκληρη τη συλλογή
για να σιγουρευτεί ότι δεν υπάρχει κάποιο πιο συναφές κείμενο, πράγμα καθαρά μη πρακτικό.
Πώς θα εκτιμηθεί το ποσοστό συνάφειας σ’ ένα ζεύγος όταν το query είναι στην ουσία ένα ολόκληρο κείμενο; (Εφαρμογή πίνακα 5 κατηγοριών) Ο άνθρωπος κριτής θα πρέπει να διαβάζει δύο τεκμήρια για κάθε αποτίμηση σχετικότητας αντί για ένα (όπως συμβαίνει στην αποτίμηση απλών διαδικασιών ανάκτησης). Αυτό συμβαίνει, γιατί το query είναι διαφορετικό για κάθε ευθυγραμμισμένο ζεύγος.
Κατηγορίες για την αποτίμηση των ευθυγραμμισμένων ζευγών
Αποτελέσματα αποτίμησης δείγματος 1% επί του συνόλου
Εφαρμογή των ευθυγραμμίσεων για την ανάκτηση πληροφοριών Δια-γλωσσική ανάκτηση πληροφοριών από παράλληλες ή συγκρίσιμες συλλογές Για συγκρίσιμες συλλογές μπορεί να εφαρμοστεί η τεχνική του pseudo relevance feedback σε συνδυασμό με χρήση wordlist Πρακτική εφαρμογή στη συλλογή CLIR του TREC-6
Σύγκριση των διαφόρων τεχνικών στη συλλογή του TREC-6
Λογισμικά εφαρμογής της CLIR CINDOR της TextWise ( http://www.cindorsearch.com
) TwentyOne της Irion Technologies ( http://www.irion.nl/products/index.html
) Pidgin της Irion Technologies ( http://www.pidgin.nl
) AnswerWorks της WexTech ( http://www.wextech.com/products.html
) Lirix της Xerox ( http://www.xrce.xerox.com/programs/lirix/ ) Relevancy της Eurospider ( http://www.eurospider.com/en/relevancy/relevancy.htm
Προβληματισμοί σχετικά με την CLIR Πώς επιλέγονται οι σωστοί όροι για τη σύνταξη ενός query; Έχει ξεπεραστεί πραγματικά ικανοποιητικά το φράγμα του «ζεύγους γλωσσών»; Αν η αυτοποιημένη μετάφραση (MT) χρησιμοποιείται για να μεταφραστούν τα ανακτηθέντα τεκμήρια, γιατί να μη χρησιμοποιείται για τη μετάφραση όλων των τεκμηρίων μιας συλλογής; Πόσο μπορεί να εφαρμοστεί η CLIR σε μεγάλες μηχανές αναζήτησης; (Ας μην ξεχνάμε οτι τα γλωσσικά εργαλεία που κατασκευάζονται είναι ειδικά για κάθε εφαρμογή) Η φιλοσοφία του semantic web μπορεί να επεκταθεί και για την CLIR;