Progetti sperimentali - Cognizione e Linguaggio

Download Report

Transcript Progetti sperimentali - Cognizione e Linguaggio

Corpus e Lessico di Frequenza
Mirta Vernice
20-3-12
In questa lezione
• Corpus
– L’uso dei corpora nella lessicografia
• Contare le parole
– types vs. tokens
– Lemma vs. lessema
– Frequenza
Applicazioni studio dei corpora
• Occorrenze delle parole in strutture sintattiche
– E.g. Diatesi verbali:
• Alcuni verbi possono avere sia uso transitivo che intransitivo.
• Variazioni regionali dell’uso della parola
Applicazioni studio dei corpora - II
• Identificare quando occorrono omografi, e.g. abbraccio
(Verbo o sostantivo)
– Esaminare il contesto in cui occorre
• Identificare quanto è comune una parola mediante il
conteggio di frequenza.
– Molti corpus includono il lessico di frequenza
– Sarà il nostro punto di partenza
Come contare le parole: types vs. tokens
• token = ogni parola nel corpus
– (anche se occorre più di una volta)
• type = tutte le singole parole presenti nel corpus
– (raggruppamento di tutte le singole parole che occorrono nel
corpus )
• Esempio:
– Marco parla al bambino che parla al pupazzo
– 8 tokens
– 6 types (Marco, parla, al, bambino, che, pupazzo)
types & tokens
• Il numero di tokens è una stima della
grandezza del corpus
– BADIP: 340.000 tokens
• Il numero di types è una stima della grandezza
lessicale del corpus
Type/token ratio
• Un modo per misurare la ricchezza di
vocabolario:
n. types
n. tokens
• Può essere interpretato come “numero di
nuovi types introdotti in funzione del numero
di tokens”
• Viene usata nella valutazione dell’eloquio spontaneo
del bambino
Esempio: Promessi sposi (A. Manzoni)
Quel ramo del lago di Como, che volge a mezzogiorno, tra
due catene non interrotte di monti, tutto a seni e a golfi,
a seconda dello sporgere e del rientrare di quelli, vien,
quasi a un tratto, a ristringersi, e a prender corso e figura
di fiume, tra un promontorio a destra, e un’ampia
costiera dall’altra parte; e il ponte, che ivi congiunge le
due rive, par che renda ancor più sensibile all’occhio
questa trasformazione, e segni il punto in cui il lago
cessa, e l’Adda rincomincia, per ripigliar poi nome di lago
dove le rive, allontanandosi di nuovo, lascian l’acqua
distendersi e rallentarsi in nuovi golfi e in nuovi seni.
Types tokens ratio
• 116 tokens
• 76 types
• E (congiunzione) occorre 10 volte, quindi 1
type e 10 tokens.
• LAGO occorre tre volte, quindi 1 type e 3
tokens.
Lessemi e lemmi
• I lessemi : entità linguistiche astratte che
includono tutte le forme flesse di una parola.
• amò, amava, facevi, faccio, bella, cavallo, ecc.
• I lemmi: forma di citazione dei lessemi nei
dizionari/lessico di frequenza.
• infinito per i verbi (amare, fare), maschile
singolare per gli aggettivi e sostantivi (bello).
La lemmatizzazione
• ridurre le forme flesse di uno stesso lessema a
una forma di citazione (lemma)
• la lista di frequenza conterrà solo le diverse
forme di citazione come lemmi:
• essere, fare, libro, bello, ecc.
Esempio di lemmatizzazione di una
frase:
• “Il dottore mi raccomandò di non ostinarmi”
Il
dottore
mi
raccomandò
di
non
ostinarmi
DET:def
NOM
PRO:pers
VER:remo
PRE
ADV
VER:infi
Il
dottore
mi
raccomandare
di
non
ostinarsi
Come riportare le frequenze
delle parole
Lista di Frequenze
• Associare ad ogni parola la frequenza del lemma
parola
capitano
cappotto
essere
sicuramente
buonasera
appartamento
frequenza
4
1
15679
132
98
21
Elenco corpus
1) BADIP (Banca dati italiano parlato)
http://badip.uni-graz.at/
con link al corpus LIP (Lessico di frequenza
dell'italiano parlato)
2) COLFIS (scritto)
http://www.ge.ilc.cnr.it/page.php?ID=archCoL
FIS&lingua=it