Altri corpora e strumenti di analisi disponibili in dipartimento

Download Report

Transcript Altri corpora e strumenti di analisi disponibili in dipartimento

Corpora e strumenti d’analisi
non prodotti in Dipartimento
Corpora a cui si ha accesso






Italiano
Inglese
Inglese antico e medio
Tedesco
Provenzale
Spagnolo
Strumenti d’analisi

Programmi di concordanze
- MonoConc versione 1.0 (Lombardi Vallauri)
- DBT

Programmi di gestione del suono e
analisi acustica
- Goldwave
- Winpitch (Mereu)
- Wavesurfer
Corpora di italiano

Archivio API (Frascarelli)

Corpus Coris (Nuccorini)

Corpus Lablita
Corpora di inglese contemporaneo



The Bank of English (Nuccorini)
The British National Corpus (Nuccorini)
The International Corpus of English
(Nuccorini)
Corpora di inglese antico e medio

The Helsinki Corpus of English Texts:
Diachronic and Dialectal (Hart)
Corpora di tedesco

Corpus Koesters

Kiel Corpus of Read and Spontaneous
Speech
Corpora di spagnolo

Corpus oral de referencia del español
contemporáneo
Corpora di provenzale

Trobadors (Giannetti)
L’Archivio API
L’Archivio di Parlato Italiano) è il prodotto di un progetto cofinanziato
iniziato nel 1999 e
conclusosi nel 2001, coordinato da Federico Albano Leoni dell’Università di Napoli. L’API è
costituito da un corpus di italiano parlato, l’AVIP (Archivio delle Varietà di Italiano Parlato)
analizzato da strumenti software per l'etichettatura fonetica, morfosintattica e pragmatico-testuale. Il
corpus AVIP è costituito da testi di parlato semi-spontaneo raccolto attraverso la tecnica del Map
Task e di italiano parlato elicitato mediante immagini in bambini udenti e sordi, per un totale di 3,5
ore. I dati sono stati raccolti a Pisa, Napoli e Bari. Le trascrizioni e le annotazioni, nonché le
registrazioni delle sessioni di elicitazione sono raccolte in un DVD di cui il dipartimento ha diverse
copie.
Per altre informazioni e per accedere all’API ci si può rivolgere alla dottoressa Paola Pietrandrea.
Il Corpus Coris
Il CORpus di Italiano Scritto (CORIS), nato da un progetto dell’Università di Bologna
coordinato a partire dal 1998 da Rema Rossini Favretti, è un corpus generale di italiano
scritto che contiene 100 milioni di parole ed è aggiornato tramite un corpus di
monitoraggio inglobato con cadenza biennale. E' costituito da una raccolta di testi,
autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi
dell'italiano attuale. Il corpus include testi tratti dalla nazionale e locale, specialistica e
non specialistica, testi di narrativa italiana o tradotta in italiano, per adulti, per ragazzi,
testi di prosa accademica, di prosa giuridico-amministrativa, miscellanea e ephemera. Il
corpus è accessibile su Internet e interrogabile attraverso un programma di concordanze.
Il dipartimento dispone di diverse password di accesso al corpus. Per altre informazioni e
per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.
Il Corpus LABLITA
Il LABoratorio Linguistico del Dipartimento di ITAlianistica dell’Università di Firenze diretto da
Emanuela Cresti, raccoglie dal 1973 corpora di italiano parlato da adulti e da bambini e corpora di
italiano trasmesso. In particolare ha:
- 5 corpora di monologhi, dialoghi e conversazioni tra adulti con presa di turno libera o regolata
per un totale di 62 ore di registrazione e 130 testi di lunghezza variabile dalle 2 ore ai 5 minuti;
- 3 corpora di dialoghi tra adulti e bambini di età compresa tra i 12 e i 36 mesi, per un totale di circa
95 ore di registrazione e 293 testi;
- 2 corpora di parlato trasmesso, uno dei quali costituito dalla trascrizione integrale di 12 film per
un totale di 21 ore e l’altro dal costituito dal campionamento di 20 ore di lingua radiofonica e
televisiva.
Il Corpus LABLITA
I corpora di LABLITA sono consultabili presso il laboratorio dietro accettazione di condizioni
esplicite relative alle modalità di citazione e di utilizzo all'interno di programmi di ricerca
formalizzati.
Il dipartimento dispone, però di un accesso diretto ad una selezione dei corpora LABLITA, quella
pubblicata nel libro “Corpus di Italiano Parlato” di Emanuela Cresti, Accademia della Crusca,
Firenze, 2000. Si tratta di un’antologia di monologhi, dialoghi e conversazioni, raccolte per lo più a
Firenze, per un totale di 7 ore, 11 minuti e 54 secondi. Il corpus è disponibile nella trascrizione in un
formato CHAT implementato per la rappresentazione dell’articolazione dell’informazione. Di alcuni
testi è disponibile anche la registrazione audio su CD-ROM.
Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.
The Bank of English
E’ un corpus di inglese contemporaneo scritto e parlato. Conta ad oggi circa 450 milioni di parole, ma è
continuamente aggiornato ed ampliato. Il progetto è stato lanciato nel 1991 da COBUILD (una divisione
di Harper Collins Publishers) e dalla University of Birmingham. Ed è diretto da John Sinclair della
University of Birmingham e Fred Karlsson dell’università di Helsinki. I testi scritti sono tratti da
giornali, riviste, libri di narrativa o saggistica, brochures, volantini, relazioni, lettere, ecc. I testi parlati
sono rappresentati da trascrizioni di conversazioni spontanee, trasmissioni radiofoniche, riunioni,
interviste, discussioni, ecc. La gran parte dei testi sono stati raccolti dopo il 1990. Il corpus è etichettato a
livello morfologico e sintattico. E’ possibile accedere all’intero corpus solo a Birmingham, esiste però
una versione on-line ridotta e non etichettata che conta 52 milioni di parole a cui il dipartimento ha
accesso. E’ possibile interrogare ciascuno dei 12 sottocorpora che formano la versione ridotta,
selezionare varietà diverse di lingua, ottenere stringhe con circa 5 o 6 righe di contesto.
Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.
The British National Corpus
E’ un corpus di inglese contemporaneo scritto e parlato. Conta 100.106.008 parole. Creato da un
consorzio tra Oxford University Press, Addison-Wesley Longman, Larousse Kingfisher Chambers e i
centri di ricerca Oxford University Computing Services, Centre for Computer Research on the English
Language della Lancaster University e il Research and Innovation Centre della British Library, il corpus
è stato completato nel 1994 e pubblicato nel 1995. Scopo del corpus è rappresentare il maggior numero
possibile di varietà dell’inglese contemporaneo. La parte scritta (90%) include, fra gli altri, estratti di
giornali regionali e nazionali, periodici specialistici per ogni età ed interesse, libri accademici, lettere
pubblicate e non pubblicate, note, saggi scolastici ed universitari.
The British National Corpus
La parte parlata (10%) include conversazioni spontanee tra parlanti di diverse età e classi sociali, accanto
a produzioni parlate raccolte in contesti che vanno da incontri politici o di affari, a trasmissioni
radiofoniche e conversazioni telefoniche. I 4124 testi da cui è composto sono etichettati per classe di
parola. E’ integrato con il sofisticato software di ricerca SARA. Il dipartimento dispone di una copia in
CD da utilizzarsi su piattaforma Linux. E’ inoltre disponibile la guida di G. Aston e L. Burnard, The BNC
Handbook. Exploring the British National Corpus with SARA, Edinburgh Textbooks in Empirical
Linguistics, Cambridge 1998. Per altre informazioni e per accedere al corpus ci si può rivolgere alla
professoressa Stefania Nuccorini.
The International Corpus of English
The International Corpus of English nasce nel 1990 da un progetto coordinato da Gerard Nelson dell’University College
di Londra che, sviluppando il precedente Survey of English Usage, si prefigge confrontare le varietà di inglese scritte e
parlate in 15 diversi paesi. Sono per ora disponibili su CD i corpora raccolti in India, Filippine, Singapore, Kenya e
Tanzania, Gran Bretagna, Nuova Zelanda. Ciascuna componente raccoglie 500 testi di circa 2000 parole, per un totale di
circa 1.000.000 di parole. Autori e parlanti dei testi hanno dai 18 anni in su, sono uomini e donne che hanno ricevuto la
loro istruzione scolastica in lingua inglese. I corpora di parlato includono dialoghi e monologhi di vario registro
(conversazioni private telefoniche o prodotte in contesti faccia a faccia , dibattiti pubblici, trasmissioni televisive, incontri
d’affari, ecc. ). I corpora di scritto includono testi di prosa accademica, divulgativa, giornalistica, narrativa, opuscoli di
istruzioni e testi non
pubblicati come saggi di studenti, lettere, ecc. I corpora di lingua parlata sono trascritti
ortograficamente con annotazioni che indicano pause, sovrapposizioni, esitazioni, false partenze e turni I testi sono
etichettati a livello morfologico e sintattico.Il dipartimento dispone di copia del British Component su CD. Per altre
informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.
The Helsinki Corpus of English Texts
E’ un corpus nato da un progetto avviato nel 1984 e diretto da Matti Rissanen e Ossi Ihalainen
dell’università di Helsinki, che raccoglie varietà diacroniche e dialettali della lingua inglese. La parte
diacronica è composta da testi scritti dal 750 al 1700. La parte dialettale è composta da trascrizioni di
interviste con parlanti di dialetti britannici rurali raccolte a partire dagli anni 70. La lunghezza dei testi
raccolti nella parte diacronica varia tra le 2000 e le 10000 parole, per un totale di 1.572.800 parole. Il
numero di testi è bilanciato per provenienza regionale, registro, caratteristiche sociolinguistiche. La parte
dialettale conta 406600 parole e comprende interviste raccolte nell’East-Anglia, nel South-West, nello
Yokshire e nella regione iralndese del Clare. Il dipartimento dispone di copia della parte diacronica su
CD.
Per altre informazioni e per accedere al corpus ci si può rivolgere al professor David Hart.
Il Corpus Koesters
Il corpus è stato raccolto nel 1996 da Sabine Koesters per la sua tesi di dottorato “La morfologia flessionale nel
substandard tedesco: forma e funzione. Analisi di un corpus parlato” discussa presso l’Università Roma Tre nel 1997,
relatore il professor Raffaele Simone e rielaborata nella monografia “Die Flexionsmorphologie im gesprochenen
deutschen Substandard” pubblicata da Gunter Narr Verlag nel 2004.
E’ costituito da 4 ore di parlato per un totale di 50000 parole grafiche. Obiettivo del corpus è rappresentare una varietà
substandard di tedesco prodotto in condizioni quanto più possibile naturali. Per questo sono stati registrati dialoghi tra
l’osservatrice e 5 donne e 3 uomini di età compresa tra 28 e i 35 anni, con una bassa scolarizzazione. I dialoghi hanno
tutti carattere autobiografico, sono stati registrati solo dopo che si era creata una certa familiarità tra l’osservatrice e i
parlanti, ai quali è stato comunque taciuto l’interesse linguistico della ricerca. I rari interventi dell’osservatrice danno un
carattere monologico alle produzioni. Il corpus è composto dalle trascrizioni fonetiche delle registrazioni.
Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.
The Kiel Corpus of Read and
Spontaneous Speech
Il Kiel Corpus è costituito da campioni di tedesco letto e spontaneo raccolti a partire dal 1990 presso
l’Institut für Phonetik und digitale Sprachverarbeitung dell’Univeristà di Kiel.
Il corpus di lingua letta è costituito dalla lettura di 500 frasi (per un totale di 5000 parole grafiche) da
parte di 27 uomini e 26 donne. Le registrazioni sono campionate a una frequenza di 16 Hz e ad una
risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica, una trascrizione fonemica
canonica ed etichettati per caratteristiche di produzione fonetica.
Il corpus di lingua spontanea è costituito da 31 dialoghi spontanei ed elicitati prodotti da 26 parlanti,
articolati in complessivi521 turni per circa 9300 parole grafiche. Le registrazioni sono campionate a una
frequenza di 16 Hz e ad una risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica,
una trascrizione fonemica canonica ed etichettati per caratteristiche di produzione fonetica.
Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.
Corpus oral de referencia
del español contemporáneo
Il corpus è stato raccolto tra il 1991 e 1992 presso l’Università Autonoma di Madrid, sotto la direzione di
Francisco Marcos Marín grazie ad un contributo di IBM España.
E’ costituito da produzioni orali di vario genere: dalle conversazioni familiari, a conversazioni in contesti
educativi, a dibattiti pubblici, interviste, fino a monologhi di carattere scientifico, umanistico, politico,
religioso, ecc. Raccoglie un totale di 1.100.000 parole grafiche. I testi sono classificati per tipologia
testuale e caratteristiche del parlante, trascritti ortograficamente ed etichettati per caratteristiche fonetiche
della produzione.
Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.
Trobadors
(dalla prefazione di Rocco Distilo)
“Trobadors” contiene l'intero corpus della lingua trobadorica così come definito dal «Répertoire
mètrique» di Frank. I testi sono desunti dalle edizioni più recenti o maggiormente accreditate e i dati
testuali sono stati integrati da una serie di informazioni complementari circa il genere, la cronologia, lo
schema metrico e i manoscritti relatori, in modo che i risultati delle ricerche lessicali possono essere
incrociati con ogni categoria extra-testuale. Il software di interrogazione, corredato di una guida in linea
in italiano, inglese e francese, consente ogni tipo di ricerca lessicale, e dedica particolare attenzione alla
individuazione delle co-occorrenze.
Il corpus è attualmente interrogabile per forma grafica. L'interrogazione, che è prevista in due modalità,
rapida e avanzata, può essere condotta selezionando:
- l'intero corpus di testi
- i testi appartenenti ad un genere (canso/vers, cobla, descort, lai, partimen, pastorela, planh, sirvantes,
tenso)
- i testi di un solo autore
Trobadors
Il programma di ricerca, oltre a fornire i riferimenti topografici essenziali e la frequenza diciascuna
forma, consente di visualizzare altri dati complementari concernenti ogni singola occorrenza:
- il testo della strofe in cui la forma è compresa, della strofe precedente e di quella seguente
- l'incipit e l'explicit del componimento
- lo schema metrico (da Frank o dall'edizione di riferimento)
- i dati bibliografici dell'edizione di riferimento
- le sigle dei manoscritti con la relativa attribuzione (da BdT)
Il cd-rom contiene inoltre il collegamento diretto con le maggiori banche dati della lirica europea presenti
in Internet.
Il dipartimento dispone di copia del CD. Per altre informazioni e per accedere al corpus ci si può
rivolgere al dottor Andrea Giannetti.
DBT
Il DBT, Data Base Testuale, è un software di analisi testuale e di interrogazione "full-text" sviluppato da
Eugenio Picchi presso l’Istituto di Linguistica Computazionale del CNR di Pisa. E’ costituito da un
componente di interrogazione, il DBT- Corpus, che permette di creare banche dati testuali costituite da
insiemi omogenei di testi. Con DBT-corpus è possibile operare sull'intero corpus di testi
contemporaneamente anche definendone interattivamente sotto-corpora secondo le esigenze della ricerca
da effettuare. Permette di ottenere liste di concordanze, dispone di procedure di supporto alla
lemmatizzazione.
Per altre informazioni e per l’accesso al programma rivolgersi alla dottoressa Paola Pietrandrea.
Goldwave
E’ un software che gira su piattaforme Windows utile alla digitalizzazione di segnale audio analogico e
alla gestione di file audio.
Permette di digitalizzare il segnale proveniente da microfoni, audiocasette o da vinile. Una volta
acquisiti, i file possono essere convertiti in uno dei seguenti formati audio: wav, wma, mp3, ogg, aiff, au,
vox.
I file possono inoltre essere tagliati e campionati alla frequenza e risoluzione volute.
Il software permette infine di osservare rapidamente la qualità del segnale audio e l’eventuale
utilizzabilità per analisi acustiche.
Per informazioni rivolgersi alla dottoressa Paola Pietrandrea.
Winpitch
E’ un programma di analisi acustica specializzato nell’estrazione della frequenza fondamentale,
sviluppato da Philippe Martin. Gira su piattaforme Windows. Permette di condurre analisi spettrografiche
e prosodiche in tempo reale, di condurre analisi statistiche dei risultati e di ottenere sintesi dei segnali
analizzati. L’installazione di Winpitch è vincolata da una chiave hardware. Di conseguenza il software si
può utilizzare solo su 3 postazioni pc del Dipartimento. Per informazioni ci si può rivolgere alla
professoressa Lunella Mereu.
Wavesurfer
E’ un software libero di visualizzazione e manipolazione dei suoni, creato presso il centro per la
tecnologia del discorso del KTH di Stoccolma, Svezia. E’ stato creato per adattarsi alle esigenze di
utenti più o meno esperti. Permette di condurre analisi spettrografiche e della frequenza fondamentale
attraverso un’interfaccia semplice e intuitiva. Può essere impiegato nell’analisi e sintesi dei segnali.
Garantisce un versatile strumento di annotazione della curva. Dialoga con applicazioni più avanzate. Può
essere liberamente configurato in maniera adattarsi alle esigenze di ricerca dell’utente. Per informazioni
su come scaricare e utilizzare il software ci si può rivolgere alla dottoressa Paola Pietrandrea.
MonoConc versione 1.0
MonoConc è un software commerciale (© 1995 Michael Barlow) che permette sia di ricercare, unità
linguistiche (morfemi, parole o sintagmi) all’interno dei testi di un corpus e di visualizzare poi l’elenco
dei contesti di occorrenza di tali unità, sia di condurre analisi della frequenza delle unità ricercate.
Supporta testi in formato ascii (solo testo), quindi può essere usato per l’analisi di tutti i corpora raccolti
in dipartimento. Per altre informazioni e per accedere al programma ci si può rivolgere al professor
Edoardo Lombardi Vallauri.