04-2014-15-IR-indici.. - DEI, UniPD

Download Report

Transcript 04-2014-15-IR-indici.. - DEI, UniPD

Reperimento dell’informazione (IR) - aa 2014-2015
Indicizzazione – prima parte
Maristella Agosti
Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS)
Dipartimento di Ingegneria dell Informazione
Università degli Studi di Padova
Indice della lezione del 9.10.2014
!   Elementi di base per una visione d’insieme dell’IR
e per l’acquisizione della terminologia
specialistica:
!   Reperimento
!   Valutazione
!   Introduzione alla rappresentazione del
contenuto di un documento testuale
IR – aa 2014-2015
Maristella Agosti
2
Indice
!   Completamento della parte relativa alla
rappresentazione del contenuto di un
documento testuale
!   Indicizzazione – prima parte
IR – aa 2014-2015
Maristella Agosti
3
Capacità di discriminare il contenuto in funzione della frequenza
C. J. van Rijsbergen. Information Retrieval. Butterworth 1979, ISBN 0-408-70929-4, pag. 16
IR – aa 2014-2015
Maristella Agosti
4
Esempio: distribuzione di parole frequenti in un testo su
MySQL
IR – aa 2014-2015
Maristella Agosti
5
Passi per applicare le indicazioni di H.P. Luhn - 1
I descrittori discriminanti e descrittivi sono quelli
di mezzo, ovvero con frequenza superiore alla
minima (Lower cut-off) e inferiore alla massima
(Upper cut-off).
1.  si calcoli la frequenza di ogni descrittore in ogni
documento
2.  si calcoli la frequenza totale di ogni descrittore
3.  si ordinino i descrittori per frequenza
decrescente
IR – aa 2014-2015
Maristella Agosti
6
Passi per applicare le indicazioni di H.P. Luhn - 2
4.  si scelga una soglia (Upper cut-off) e si rimuovano dalla lista i
descrittori con frequenza superiore al valore di soglia:
• 
in questo modo, si rimuovono i descrittori, come ad esempio le parolefunzione (articoli, preposizioni, avverbi di largo uso), che non descrivono
aspetti di contenuto
5.  si scelga un’altra soglia (Lower cut-off) e si rimuovano dalla lista i
descrittori con frequenza inferiore al valore di soglia:
• 
in questo modo, si rimuovono i descrittori che appaiono così raramente da
costituire “rumore” o da non apportare alcun contributo alla descrizione del
contenuto; si possono rimuovere anche i descrittori scritti in modo errato
Le soglie sono determinate in modo euristico, il procedimento che
porta a fissare i valori delle soglie deve tenere conto della
collezione.
IR – aa 2014-2015
Maristella Agosti
7
I descrittori con frequenza superiore al valore di Upper
cut-off
!   Le parole molto frequenti nell’insieme di
tutti i documenti portano poca
informazione sul contenuto dei singoli
documenti
!   Tali parole vanno individuate per essere
eliminate dalla lista dei termini
!   Tali parole sono denominate stop word
!   L’elenco, o lista, delle stop word è
denominato stop list
IR – aa 2014-2015
Maristella Agosti
8
Indicizzazione
IR – aa 2014-2015
Maristella Agosti
9
Indicizzazione
!
!
L’indicizzazione consente di rappresentare il contenuto
semantico di un documento
! 
Il documento viene rappresentato da dei descrittori, che vengono utilizzati
per la costruzione degli indici, utili al reperimento dell’informazione
! 
Un caso molto importante è l’indicizzazione dei documenti testuali, tramite l’estrazione di termini
denominati anche parole chiave o keyword
L’indicizzazione può essere svolta
!
!
!
Estraendo l’informazione direttamente dal documento o utilizzando altre
fonti, come dizionari o metainformazioni
L’indicizzazione fornisce una rappresentazione più compatta e
direttamente utilizzabile automaticamente del contenuto
informativo del documento
!
IR – aa 2014-2015
Manualmente, in modo automatico o semiautomatico
Gli indici sono utilizzati come surrogati del contenuto informativo del
documento durante la fase di reperimento
Maristella Agosti
10
Indicizzazione automatica di testi - 1
!
L’indicizzazione automatica (automatic indexing) di un
documento testuale è il processo che:
! Esamina automaticamente gli oggetti informativi che compongono il
documento
! Gli oggetti sono le parole, o le frasi, che compongono il
! 
testo
Produce una lista dei termini indice (index term) presenti nell’intera
collezione di documenti
! L’estrazione di termini indice viene fatta da appositi algoritmi
!   I termini indice sono collegati ai diversi documenti che li contengono
!   Durante il reperimento sarà quindi sufficiente fare riferimento alla sola lista dei termini
indice, e non all’intera collezione
!
IR – aa 2014-2015
L’uso degli indici semplifica ed accelera il reperimento
! L’indice analitico di un libro ne è un esempio
Maristella Agosti
11
Indicizzazione automatica di testi - 2
!   Esempio di passaggio da una collezione di
documenti testuali alla lista dei termini indice
Output
Input
Termini indice
Documenti
testuali originali
Indicizzazione
automatica (automatic
indexing)
Documenti in
formato digitale
Documenti in
formato digitale
IR – aa 2014-2015
Maristella Agosti
12
Indicizzazione automatica di testi - 3
!
L’indicizzazione automatica di documenti testuali viene
eseguita in più fasi, che devono essere attuate in sequenza
!
!
!
!
!
! 
IR – aa 2014-2015
Analisi lessicale e selezione delle parole
Rimozione delle parole molto comuni o stop word
Riduzione delle parole originali alle rispettive radici semantiche
Creazione dell’indice
Eventuale pesatura degli elementi dell’indice
I motori di ricerca disponibili in rete, e i sistemi commerciali in
genere, non implementano necessariamente tutte queste fasi
!
Ogni fase necessita di calcoli aggiuntivi, il cui costo può non essere
compensato da un effettivo miglioramento
! 
La ricerca nel settore del reperimento dell’informazione si occupa anche di
trovare nuove metodologie per l’indicizzazione automatica
Maristella Agosti
13
Esempio “guida” di collezione di documenti
D1
L’enorme quantità di informazioni presenti
nelle pagine Web rende necessario l’uso di strumenti
automatici per il recupero di informazioni
D2
I presenti hanno descritto le fasi del recupero
dell’enorme relitto ma le informazioni non
concordano su tipo e quantità di strumenti in uso
D3
E’ stato presentato nel Web un documento che
informa sulle enormi difficoltà che incontra chi usa
uno strumento informativo automatico
IR – aa 2014-2015
Maristella Agosti
14
Fasi del processo di indicizzazione
Documenti
Analisi
lessicale
Stringe
rilevate
Rimozione
stop word
Parole
significative
Radici
Stemming
Composizione
termini
Termini
Indice
IR – aa 2014-2015
Maristella Agosti
15
Analisi lessicale
!
Scansione dei documenti al fine di estrarre i token, cioè i
potenziali descrittori del documento
! 
I token corrispondono alle parole, riconosciute tramite i
caratteri di separazione quali spazio, tabulazioni, segni
di punteggiatura
!
L’analisi lessicale dipende fortemente dalla lingua dei
documenti che determina, ad esempio, cosa viene
considerato essere un carattere di separazione
!
Documenti di media diversi, come ad esempio musica e
immagini, possono determinare criteri diversi per l’analisi
lessicale, cambiando il concetto di cosa sia un token
IR – aa 2014-2015
Maristella Agosti
16
Analisi lessicale e selezione dei token
! 
Un testo è rappresentato da una successione di
simboli
!
L’analisi lessicale è il processo di trasformazione del flusso di
simboli in un flusso di parole (dette token)
!   Le parole vengono facilmente identificate grazie alla presenza di spazi, a capo e
segni di interpunzione
! 
!
Le parole hanno un significato a prescindere dal loro ordine
Dopo l’analisi lessicale (AL) e dopo averle messe in ordine
alfabetico, le parole di ciascun documento dell’esempio sono:
!   D1-dopo AL: automatici di di di enorme il informazioni informazioni l' l' necessario
nelle pagine per presenti quantità recupero rende strumenti uso web
IR – aa 2014-2015
! 
D2-dopo AL: concordano del dell' descritto di e enorme fasi hanno i in
informazioni le le ma non presenti quantità recupero relitto strumenti su tipo uso
! 
D3-dopo AL: automatico che che chi difficoltà documento è enormi informa
informativo incontra nel presentato sulle stato strumento un uno usa web
Maristella Agosti
17
Analisi lessicale del testo: problematiche
!
Codifica dei caratteri
! 
!
Lettura del file di testo come flusso di byte (si devono
ricostruire i caratteri) o flusso di caratteri
!
!
maiuscole e minuscole, notazioni particolari (lettere accentate – in italiano,
ad esempio, l’apice può servire anche per indicare l’accento, le virgolette),
notazione per i numeri (in italiano la virgola decimale, in inglese il punto),
notazione per le date (GMA, MGA, standard ISO, …)
Efficienza
! 
IR – aa 2014-2015
Supporto per i caratteri multi-byte
Peculiarità di una lingua
!
!
ASCII (7 bit), ASCII esteso (8 bit), UNICODE (16, 32 o 64 bit), UTF
(encoding di UNICODE: 8, 16 o 32 bit)
tipi di dati utilizzati, uso di buffer per la lettura da disco, quantità di
memoria impiegata
Maristella Agosti
18
Collezione CACM (rielaborata)
1
Preliminary Report International Algebraic
Language
2
Extraction of Roots by Repeated Subtractions for
Digital Computers
3
Techniques Department on Matrix Program Schemes
4
Glossary of Computer Engineering and Programming
Terminology
5
Two Square Root Approximations
6
The Use of Computers in Inspection Procedures
7
Glossary of Computer Engineering and Programming
Terminology
… … … … … … … … …
IR – aa 2014-2015
Maristella Agosti
19
CLEF: esempi di collezioni storiche
La Stampa 1994
! formato documento: SGML
! codifica caratteri: ISO-8859-1
!   58.051 documenti
!   198.409.571 bytes
!   356 file
!
!
dimensione media di un file: 557.330 bytes
numero medio di documenti per file: 163
SDA Italian 1994
! formato documento: SGML
! codifica caratteri: ISO-8859-1
!   50.527 documenti
!   85.376.352 bytes
!   365 file
!
!
IR – aa 2014-2015
dimensione media di un file: 233.908 bytes
numero medio di documenti per file: 138
Maristella Agosti
20