Fondamenti di Linguistica 25 Novembre 2009

Download Report

Transcript Fondamenti di Linguistica 25 Novembre 2009

Fondamenti di Linguistica
25 Novembre 2009
Malvina Nissim
[email protected]
Parole nel contesto
• Firth (anni ‘50): you shall know a word by the
company it keeps
• concordanze
• collocazioni
• liste di frequenza
• polisemia
• …
Rinascimento
• Petrus Ramus (grammatico rinascimentale):
Principio: piuttosto che speculare
filosoficamente sulla grammatica, è
necessario osservare:
 la lingua in uso nelle opere degli autori classici
 l’uso della lingua nei parlanti nativi
Storia
Storia
PRIMA
approcci
abbastanza
empirici,
osservazione
lingua in uso
DOPO
privilegiata
astrazione,
esempi ad
hoc, piccoli
frammenti
Inizi
• Computer non largamente disponibili e non
potenti, quindi difficile acquisire e analizzare
grandi collezioni di dati
• Studi su diari di bambini tenuti dai genitori per
analisi lingua infantile
• Studi su carta su singoli testi (es. uso di certi
termini in una data opera di un dato autore)
Chomsky
• Fine anni ‘50, primi anni ‘60: Chomsky sposta
l’attenzione linguistica dall’empiricismo al
razionalismo (e astrazione)
“Any natural corpus will be skewed. Some sentences won’t
occur because they are obvious, other because they are false,
still others because they are impolite. The corpus, if natural, will
be so wildly skewed that the description would be no more than
a mere list” (Chomsky, 1962)
• Si privilegiano l’intuizione del parlante e la
“creazione ad hoc”
 si può dire / non si può dire
 si trova, è frequente / non si trova, è raro
Problemi dell’intuizione
• Testi che occorrono naturalmente sono
osservabili e verificabili da chiunque.
• Frasi/testi creati ad hoc e basati
sull’intuizione sono artificiali e potenzialmente
soggettivi e discutibili (“secondo me non si
dice…”)
• I parlanti hanno solo vaghe intuizioni
relativamente alla (nozione di) frequenza di
un’espressione o una costruzione.
Anni Sessanta
• Linguisticamente:
 critiche a linguistica formale ed esempi ad hoc
 interesse per linguistica testuale/discorso
• Tecnologicamente:
 Disk space costa sempre meno
 Testi digitali sempre più diffusi
• Economicamente:
 USA: fondi per valutazione sistemi su larga
scala e su dati reali
Nascita di “grandi” corpora
•
•
•
•
•
1960s Brown Corpus, 1M di parole
1970s LOB corpus – British English
1980s COBUILD, 8M di parole
1990s BNC, 100M di parole
…
Cos’è un corpus?
• “A corpus is a collection of naturally-occurring
language text, chosen to characterize a state
or variety of a language.” (Sinclair)
• Una collezione di materiale linguistico, che
possono essere testi scritti o trascrizioni di
registrazioni che può essere utilizzata come
punto di partenza per una descrizione o
analisi linguistica o come uno strumento per
verificare una data ipotesi linguistica relativa
ad una certa lingua (Dictionary of linguistics
and phonetics)
Cos’è un corpus?
• Una grande quantità di dati solitamente
composti da lingua attestata (McEnery)
• Solitamente un corpus è in formato
elettronico e, idealmente, è visualizzabile e
analizzabile attraverso un software apposito
• La parola corpus viene dal latino e il plurale è
corpora (!)
Il valore dei corpora
• Anche parlanti nativi esperti hanno una
conoscenza parziale/individuale di una lingua, un
corpus può essere più esaustivo e bilanciato
• Anche parlanti nativi esperti tendono a notare
aspetti meno usuali e pensare a ciò che potrebbe
essere possibile, un corpus mostra ciò che è
tipico e comune
• Anche parlanti nativi esperti non sono in grado di
quantificare le loro conoscenze linguistiche, un
corpus può fornire stastiche accurate
Il valore dei corpora
• Anche parlanti nativi esperti non possono
ricordare tutto ciò che sanno, un corpus
contiene e può richiamare tutta l’informazione
che è stata immessa
• Anche parlanti nativi esperti possono essere in
difficoltà nel creare esempi naturali, un corpus
fornisce un gran numero di esempi realmente
occorrenti
• Anche parlanti nativi esperti hanno pregiudizi e
preferenze, connotazioni culturali e ideologiche,
un corpus può fornire evidenza più oggettiva
Caratteristiche dell’analisi su
corpora (Biber, 1998)
• it is empirical, analysing the actual pattern of use
in natural texts;
• it utilizes a large and principled collection of
natural texts, known as a “corpus”, as the basis
for analysis;
• it makes extensive use of computers for
analysis, using both automatic and interactive
techniques;
• it depends on both quantitative and qualitative
techniques.
Cosa possiamo fare con un corpus?
• International Journal of Corpus
Linguistics
• Corpus Linguistics and Linguistic
Theory
Campi in cui si usano corpora
• Lessicografia -> dizionari
• Studi a tutti i livelli di analisi linguistica
che abbiamo visto
• Linguistica computazionale (per
esempio in apprendimento automatico)
• Language teaching (learner’s corpora)
• Sociolinguistica (variazioni di diversi tipi)
• …
Corpus-based e Corpus-driven
• approcci corpus-based: ipotesi
linguistiche preformulate su base
teorica vengono verificate su un corpus
• approcci corpus-driven: ipotesi
linguistiche vengono derivate
direttamente dall’osservazione di dati
Parametri di un corpus (1)
• Lingua:
 Monolingue
 Multilingui (corpora confrontabili)
 Paralleli
• Tipi di sorgenti:
 Scritto (generi)
 Parlato (radio, spontaneo, …)
 Misto
Parametri di un corpus (2)
• Dimensioni
 corpus size (= numero di token)
 vocabulary size (= numero di type)
• Dinamicità: statico/monitor
• Informazione aggiuntiva (annotazione/markup)
 annotato/non annotato
 livello di annotazione
 tipo di codifica (testo, SGML/XML)
Modi di usare un corpus
•
•
•
•
Concordanze
Liste di frequenza (token/type)
Collocazioni
Programmi appositi per la ricerca
(specialmente laddove il corpus è
annotato)
Concordanze
• mostrano le parole nel contesto in cui
compaiono (estensione di norma
personalizzabile)
• di norma si sfruttano programmi appositi
che consentono di visualizzare e
manipolare liste di concordanze
 KWIC (Key Word In Context) è lo
strumento/formato più frequente
Dimensioni: type e token
Type e token
• Brown corpus:
 1M tokens
 50,406 types
• Birmingham/Cobuild corpora:
 1M tokens (spoken only)
 36,807 types
 17,459 occorrono una volta sola
• Times newspapers
 4M tokens
 122,773 types
 54,144 occorrono una volta sola
• general corpus of English
 18m tokens
 228,323 types
 131,299 occorrono una volta sola
Type e token
• 121m tokens
 475,633 types
 213,684 occorrenze singole
• 211m tokens
 638,901 types
• 323m tokens
 812,467 types
• 418m tokens
 938,914 types
 438,647 occorrenze singole
Liste di frequenza
• liste che indicano le parole che compaiono in
un corpus e la loro frequenza
• danno un’immagine quantitativa del corpus
• una lista di frequenza ottenuta su un dato
corpus può essere confrontata con quella
ottenuta su dati diversi
• NB: ciascuna parola è isolata dal contesto
N-grammi
• gruppi di N parole che appaiono in sequenza
nel testo
• si presentano come liste di frequenza (a
ciascun N-gramma è associato il numero di
occorrenze)
• utili per identificare espressioni specifiche e
ricorrenti in un corpus
• la parola non è completamente avulsa dal
contesto
Collocazioni
• collocazione = N-gramma significativo
(ricordate le misure di associazione?)
• collocati estratti data una cera finestra
alla sinistra (w-x) e destra (w+x) di una
data parola (w)
• utili per identificare espressioni
polirematiche e per studiare l’immediato
contesto di una parola (frames etc.)
Costruire corpora
• Modi di acquisire/costruire corpora:
 Già in formato elettronico: conversione
diretta
 Scansione da cartaceo
 Digitazione manuale
 Trascrizione di registrazioni (parlato)
Costruire corpora
• Lingua
•
•
•
•
Dimensioni
Genere (dominio, distribuzione, …)
Dinamicità (statico/monitor)
Annotazione
Costruire corpora è impegnativo!
• Selezione del materiale, permessi,
acquisizione
• Pulizia, spell-checking, annotazione,
indicizzazione
• Documentazione
• Valutazione
• Distribuzione
Web = corpus?
Web = corpus?
• Il Web può essere una sorgente di testi
estremamente utile (enorme)
• Può essere di grande aiuto
specialmente per lingue diverse
dall’Inglese (e lingue per cui corpora
controllati già esistono)
• Non è bilanciato, non è pulito, non si sa
esattamente cosa c’è dentro…
Wacky!
• corpora creati dal Web ma “ripuliti” e
annotati
• circa 2% di materiale tenuto
• ItWac, UkWac, …
Annotazione
• Arricchimento di un corpus con informazione
di vario tipo (sostanzialmente tutti i livelli di
analisi linguistica che abbiamo discusso)




speech (fonetica)
parola: part of speech, classi, sensi, …
frasi: confini, alberi sintattici, dipendenze, …
discorso: segmenti, anafora, relazioni di coerenza,
…
 oltre: variazioni, opinioni, sentimenti, …
Schema di annotazione
• rappresentazione di un dato fenomeno
linguistico da annotare
• teorico + pratico
• accompagnato solitamente da un
insieme di istruzioni per guidare
l’annotatore nelle scelte
Esempio
• <P><S><W POS="PRON" NUM="PL“
LEMMA="we">We</W><W POS="V"
LEMMA="have">have</W><W POS="EN"
LEMMA="develop">developed</W><NP><
W POS="DET" LEMMA="a">a</W><W
POS="A“ LEMMA="computational">
computational</W><W POS="N"
NUM="SG" LEMMA="paradigm">
paradigm</W><W POS="PUNCT">,</W>
...</NP> ... </S></P>
Esempio schema
Principi di annotazione (Leech 93)
• l'annotazione deve poter essere rimossa
• lo schema per l'annotazione deve essere basato su regole
precise ed essere anche a disposizione dell'utente
• deve essere sempre chiaro chi (quanti annotatori e con
quali caratteristiche) e come (manualmente semiautomaticamente e con quali strumenti) ha annotato
• l'utente deve essere consapevole che l'annotazione non è
``oro" né infallibile e deve essere semplicemente
considerata come strumento di lavoro
• lo schema di annotazione dovrebbe essere basato su
principi il più possibile condivisi
Come annotare in pratica
• manualmente, attraverso strumenti di
sostegno appositi:
 sveltiscono il processo
 riducono l’errore umano
• automaticamente (per esempio POS)
• semi-automaticamente: primo passo
automatico seguito da correzione
(spesso di una porzione) manuale
Alcuni corpora esistenti
• Brown Corpus/LOB corpus
• Bank of English
• Wall Street Journal, Penn Tree Bank, BNC, ANC,
ICE, WBE, Reuters Corpus
• Canadian Hansard: corpus parallelo inglese-francese
• York-Helsinki Parsed corpus of Old Poetry
• Tiger corpus – tedesco
• Europarl - corpora paralleli (lingue della Comunità
Europea)
• …
Distributori di corpora
• LDC (Linguistic Data Consortium)
• ELRA (European Language Resources
Association)
• TRACTOR (TELRI Research Archive of
Computational Tools and Resources)
• ICAME (International Computer Archive
of Modern and Medieval English)
Per l’Italiano
•
•
•
•
•
•
CORIS/CODIS (POS)
La Repubblica (POS+lemma)
ItWac (POS+lemma)
TuT (Turin Treebank)
VIT (Venice Italian Treebank)
VENEX (anafora)
Riferimenti
• Karin Aijmer and Bengt Altenberg (1991) English corpus
linguistics, Longman
• Tony McEnery and Andrew Wilson (1996) Corpus linguistics,
Edinburgh University Press
• Geoff Barnbrook (1996) Language and Computers, Edinburgh
University Press
• Michael Oates (1998) Statistics for Corpus Linguistics,
Edinburgh University Press
• Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus
linguistics, Cambridge University Press
• Graeme D. Kennedy (1998) An introduction to corpus linguistics,
Longman
• Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.)
The Oxford Handbook of Computational Linguistics, Oxford
University Press