Transkripcija govornog diskursa

Download Report

Transcript Transkripcija govornog diskursa

Transkripcija govornog diskursa
1
Transkripcija i anotacija diksursa –
jedan primer (CHILDES)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
@Loc:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Clinical/Chiat/10-04.cha
@Begin
@Languages:
eng
@Participants:
CHI Ruth Target_Child, INV Chiat Investigator
@ID:
eng|chiat|CHI|10;4.||||Target_Child|||
@ID:
eng|chiat|INV|||||Investigator|||
@Transcriber:
Chiat and Davis
@Situation:Conversation about horse riding and not leaving bags in the
room. In a room in school.
*CHI:
I like horses (.) round there.
*INV:
that's your best thing (.) I think.
*CHI:
yeah (.) I like (.) do xx work in ə farm (.) wɛ bigger.
*INV:
huh?
*CHI:
me worki(ng) in ə farm.
*INV:
did you work in the farm?
*CHI:
no (.) me bɪ (.) bigger (.) go worki(ng) in ə farm.
2
Anotacija, tagiranje, parseri
3
Govorni i pisani jezik
• Linearnost jezičkog znaka (de Sosir) odnosi se i na
govorni jezik u kome se jedinice (glasovi, morfeme,...)
ređaju jedne za drugom. Ali postoji i hijerarhija jezičke
strukture u svakom iskazu. Važnost tih činjenica za
produkciju i razumevanje govora, sa stanovišta
pošiljaoca i primaoca poruke, za transkripciju takođe.
• Karakteristike razgovornog jezika kao najopštijeg
govorne komunikacije: diksursni markeri, deiksa,
ponavljanja, preformulacije, fragmentarnost, upotreba
narativnog prezenta, manje subordiniranih konektora.
• Usmena predavanja između govornog i pisanog:
obraćanje, deiksa, oklevanja , diksursni markeri, ...
4
Svakodnevni i dramski govor
• Zabluda je da su razgovor i onaj dijalog zabeležen u dramskom
tekstu isti. To se može pokazati ako se uporedi funkcionisanje
različitih partikula u razgovoru i njihovo izostavljanje u
dramskom tekstu (na primer, znaš, možda, aha, itd.)
• Govori se i o nadilaženju razlike između pisanog i govorenog i
upućuje na polaznu, po svemu artificijelnu, podelu jezika na
pisani i govoreni, kao pogrešna teorijska polazišta.
• Neka istraživana: isti događaj opisati usmeno pa pismeno.
• Konvencije u titlovima prevoda filmova sa drugog jezika
5
ZAPISIVANJE GOVORNOG JEZIKA
Svako zapisivanje je društveni, ideološki čin.
• Istorija pisanja, odnosno pisani spomenici unazad
nekoliko hiljada godina, pokazuju razvoj odnosa
pretvaranja govornog jezik u pisani: piktografsko,
ideografsko, silabičko, fonološko pismo.
• Prvo kao znak koji je jednak predmetima, idejama,
rečima (hijeroglifi, kinesko pismo)
• Znak koji je jednak glasovima (feničansko, starogrčko)
• Postepeno stvaranje ortografskih pravila (razmak
između reči, veliko slovo, tačke, zarezi,...)
6
Tradicionalne konvencije u
zapisivanju govora
• Osnovni razlog što se prihvataju konvencije iz
pisanog medijuma jesu znanja, navike, praksa
u čitanju kod većine korisnika transkripta
(teško da bez posebne obuke neko može da
čita IPA azbuku i da protumači sve znakove za
anotaciju govornog jezika)
• Način transkripcije uslovljen je teorijskim i
istorijskim činiocima. (Transkripcija slovenskih
jezika)
7
Sociolingvistički aspekti
transkribovanja
• Sam transkript je novi tekst, u krajnjoj liniji čak i sam snimak je
rekontekstualizacija/entekstualizacija nekog govornog
događaja
• Posmatrački paradoks (observer’s paradox, Labov) – prisustvo
istraživača utiče na govor snimanih sagovornika. (recimo,
trude se da “pravilno” govore, da ne psuju...)
• Onaj ko je snimao i prisustvovao interakciji i posle
transkribovao može drukčije da tumači i čita tekst transkripta
od drugih čitalaca.
• Predrasude: govor optuženog se često transkribuje
kolokvijalnije nego govor policajca/istražitelja.
• Tehnički aspekti: pristup transkripcijama, štamparski uzusi,
(ne)mogućnost štampanja.
8
Zapisivanje kao metodološki problem
percepcije govornog događaja
• Može da se istakne u transkriptu ono što sagovornik
NE percepira na taj način. Posvećuje se pažnja
aspektima koji nisu bili bitni učesnicima (slično i sa
snimkom događaja u kome smo učestvovali)
• Moguća su stoga tri različita tumačenja: istraživača
koji je prisustvovao govornom događaju, samih
sagovornika-učesnika u događaju, novi čitalac
transkripta koji je već publikovan negde.
9
Entekstualizacija transkripta
• Korpusi se dodatno ili ponovo analiziraju sa stanovišta drugog
istraživanja. Retko kada je istraživač zadovoljan nekim
prethodnim korpusom. (Recimo prozodija nije zabeležena
uopšte)
• Iako postoje principi i modeli trankripcije skoro globalno
prihvaćeni, možda je za analizu interakcije bolje početi „svež“,
i uvek preispitati konvencije za reprezentaciju interakcije.
• Poređenjem različitih transkripata iste interakcije pokazuje
različite pretpostavke i ideologije o jeziku i diskursu, implicitne
ili eksplicitne.
10
Disciplinarni pristup
• Metodološki pristup različit iz različitih
disciplina: analiza diskursa, konverzaciona
analiza, terenska lingvistika, antroplogija...)
• Globalizacija i multilingvalna interakcija
(promena koda, npr.)
• Da li će govorni događaj izgledati kao proza u
pasusima, ili stihovi i strofe...Narativ u kome
se intonacione konture jasno koriste u
prezentaciji različitih likova koji su u narativu...
11
Teorijski bitne odluke u vezi sa
transkriptom
• Ponovna analiza i promene u transkripciji za
druge istraživače ciljeve. Npr.
– Izkazi ili replike, turnusi?
– Razgovori se prikazuju kao niz “iskaza”, “replika”, bez
tematske podeljenosti na pasuse. Teško je sagledati:
leksičku gustinu oko teme, kako se započinje nova
tema, odrediti jedinice bitne za sumarizaciju, itd.
– Hymes: etnopoetika, usmeni narativ u stihovima i
strofama...
– Nedostatak „pozadine“ iza „transkripta“ je
metodološka odluka. Slično kao i svaki problem sa
kontekstom u lingvistici
12
Multimodalni elementi
• Multimodalnost: audio-vizuelni snimak i
transkript.
• Neverbalni aspekti govornog događaja –
postavlja se pitanje koje su radnje interakciono
bitne.
• Neki istraživač smatra gestove značajnim za
konverzaciju, dok sami interaktanti to ne vide
na isti način kao istraživač...
13
Tradicionalne konvencije potiču iz
više izvora
• Tradicije:
– književna,
– popularna, (internet, mobilni)
– mediji (u titlovima, npr. kurzivom replika
sagovornika u telefonskom razgovoru koga ne
vidimo na ekranu)
– lingvistička analiza diskursa, razgovora...
14
Ortografska tradicija u transkriptima
diskursa
• Reči se odvajaju jednim razmakom
• Minimalna jedinica je “iskaz” i to je jedan pasus? (u
nekim transkriptima su iskaz i pasus izjednačeni)
• Delimično se zadržava veliko slovo, tačka, znak pitanja,
uzvičnik i sl. Ali:
– postoji problemi čak i sa ovim znakovima: a) u govoru se
prozodijski često povezuju reči u jednu fonetsku jedinicu:
Napametmi nije palo. b) Nekada je rečenica nezavršena: To
je tako . ne znam kako da ti kažem. c) Neki iskazi se samo
delimično mogu predstavti u pisanju tradicionalnim
pismom: Mhm? Mhm! su fonetski: mmm sa posebnom
prozodijom
15
Pisana tradicija (često u književnim
tekstovima)
• Predstavljanje “dijalekata” odnosno
“sociolekta”, ... :
• stol’ca, ...
• gracki,...
• becuz, ain’t, t’day
• j’sais pas, z’allez haut?
– (eye-dialect, allegro spelling...)
16
Ortografska i fonetska transkripcija
• Fonetska dominira u: a) istraživanjima jezika
koji se prvi put opisuju, najčešće skupa iskaza
dok se ne dođe do fonološkog opisa,
b)istraživanjima usvajanja L2, c) opisima
izgovora potrebnim u leksikografiji
• Transkripti dužih govornih diskursa su
uglavnom pisani pismom sredine. U nekim
slučajevima se modifikuju fonetskim
znakovima: xleb, leb, 'raiDer
17
Elaborarinost transkripta
• Različite konvencije se prihvataju u različitim sredinama i
istraživačkim projektima. To važi i za druge lingvističke konvencije:
• [[ Stari ljudi] i žene] – [[ Stari ] [ljudi i žene]]
•
• Transkripcija orijentisana na sadržaj, ili na diskursnu strukturu, ili na
prozodiju
• Primer (Du Bois):
JEFF; it’s been a long time
•
JILL; it’s been so long
• *****
•
JEFF; It’s been a [long time]
•
JILL;
[(H)] It’s been so: long
18
Elaborirani
• Simplifikovani transkript sačiniti od
elaboriranog transkripta i obrnuto
...okay -that's fine. Now, on the investigation, you know, the
Democratic break-in thing, we're back to the-in the, the
problem area because the FBI is not under control, because
Gray doesn't exactly know how to control them, and they
have, their investigation is now leading into some productive
areas, because they've been able to trace the money, not
through the money itself, but through the bank, you know,
sources - the banker himself. ( odlomak iz transkripta
“Watergate”)
19
Faze u transkribovanju
• Više puta se sluša audio zapis, često se i
tumači slušano na novi način (slično – nova
“čitanja” književnog teksta)
• Prva faza – obično usmereno na semantički
sadržaj diskursa
• Vreme transkripcije se produžava dva do tri
puta ukoliko se unose oznake za prozodiju.
• Preklapanja, pauze, ponavljanja, mucanje…
20
Imena učesnika u komunikaciji –
lingvistički i etički problem
• Raniji korpusi , 50-tih i 60-tih godina koristili su
npr. oznake za govornike A., B. C. ili zvezdicu
za preklapanja. Negativne strane upotrebe
takvih oznaka su što u razgovoru, A. govornik
može da kaže: Ja, Milan..., te ipak “saznajemo”
njegovo ime.
• Zvezdica može da ima i druge neke upotrebe,
npr. tako se označava negramatična
konstrukcija u lingvistici: *divna čovek
21
Gramatička anotacija i parseri
• Programi koji anotiraju gramatičku strukturu iskaza
(??) zasnivaju se na pravilima koja su utvrđena u
gramatici ili na statističkoj, probabilističkoj metodi.
Disambiguacija...Npr. The run zahteva naknadno
editovanje. Greška: What’s he want to prove?
• Parseri za morfosintaksičku analizu engleskog jezika:
Penn Treebank, TOSCA Parser
• Tagiraju se i parsiraju korpusi semantički (kao
tezaurus, ontološki) diskursno (npr. anafore) i
gramatički, kao i sa specijalnim namenama.
22
Jezici za obeležavanje teksta
• SGML – standard generalized markup
language kojim se pokusava postići
standardizacija kako bi se moglo dokumenta
prenositi sa kompjutera na kompjuter
• XML - prednost je što se već koristi na web
stranama
• Broj oznaka za anotaciju zavisi od jezika, od
toga koliko se detalja želi zabeležiti
23
Govorni jezik i nove tehnologije
• Osnovna razlika pisani i govorni utiče na manje programa za
anotiranje govornog jezika.
– D’ya, D’you, ...Kaddolaziš, Nemamga, napamet mi nije
palo...
• Poseban problem za parsere predstavlja govorni jezk zbog a)
negramatičnih struktura, b) netranskribovanih prozodijskih
obeležja: The child broke his arm and his wrist and his mother
called a doctor. Stoga se dodatno manuelno obeleže
konstituentske zagrade. Ili npr. vokativi zapisani u tekstu, u
govoru su jasno prozodijski izdvojeni. Ili se ponavljanja
„normalizuju” , itd.
24
Glose i glosiranje
• Glosira se na jezik na kome se piše istraživanje,
analiza
• Kako iskombinovati reči u glosi ukoliko dolazi
do preklapanja.
• Šta raditi sa redom reči u glosama, pogotovo
ako to treba iskombinovati sa „preklapanjima“
25
Primeri glosiranja
Makedonski glosiran na engleskom:
Riba ne jadam.
fish not eat.1Sg
‘As for fish, I don’t eat it.’
Rumunski glosiran na engleskom:
Ion s-o
fi
plimbînd.
Ion Acc.Refl.Cl-will.Cl be.Inf walking.Pres.Part
‘Ion will be walking (now).’
26
Tipovi korpusa
• Opšti, Specijalni, Spontanog, Eksperimentalni
• Elicitacija recimo iskaza sa „odglumljenim emocijama
– uglavnom čitan tekst, rečenice.
• Spontani, autentični govori – gradacija spontanosti
• Etički problemi ‘ kako imati spontani govor ako je
govornik svestan da je sniman
– Nekada se saopštavalo naknadno
– Danas potrebna “dozvola” sagovornika
27
Tehnološki ciljevi
• Audio-video snimci sa podacima vezanim za
ključne reči, traženjem tagova.
• Akustički snimak sadrži i buku: a) zvuk aparata
kojim se snima, b) vokalne zvukove,
(kašljanje,...) c) nevokalne zvukove (auto na
ulici)
• Cilj: povezati zvuk, video snimak i transkript
28
Nove tehnologije
• Neke aspekte prozodije u govoru nije moguće
predvideti te je teško napraviti automatski program
za transkripciju... Npr. preklapanja su nepredvidiva?
• S druge strane lakše je napraviti program koji će
automatski označiti rečenicu. “Sve što se završava
tačkom, jednim razmakom, pa zatim veliko slovo”.
29
IME DOKUMENTA I ZAGLAVLJE
TRANSKRIPTA
• Pretpostavimo da posedujete 10 snimaka
skupštinskih debata, 8 emisija dijaloškog tipa sa
radija i 10 snimaka svakodnovnih razgovora među
prijateljima. Svaki od njih treba sačuvati kao poseban
dokument (fajl). Koje biste oznake (imena) fajlova
mogli upotrebiti?
• Neke vremenske jedinice treba obavezno navesti u
osnovnom zaglavlju transkripta u vezi sa situacijom
snimanja: Datum, vreme snimanja, mesto snimanja
30
ZAGLAVLJE TRANSKRTA
• Ranije trebalo posebno beležiti u transkriptu
vremenske jedinice poput sata, minuta,
sekundi. Važno npr. u stresnim situacijama
(piloti, vozači, dejstvo lekova i sl.)
• Opšte informacije vezane za transkript
obavezno obuhvataju: a) oznaku početka,
oznaku kraja, c) sagovornike
31
ZAGLAVLJE TRANSKRIPTA
• Imenuju se učesnici
• Obično i socijalne karakteristike sagovornika
najčešće na početku dokumenta – transkripta: a)
godište, b) obrazovanje, c) socijalni status d) pol
• Transkripti razgovora/govora u nekim elementima
podsećaju na dramska scenarija zbog toga što koriste
i jedni i drugi koriste: popis lica ili osoba, didaskalija,
kratki opisi i uputstva reditelju i glumcima (salon
gospođe X, X sedi za pisaćim stolom I piše, gura je,
premešta stolicu u drugi deo sobe, …), prizora (scene)
- ulazak ili izlazak nekog lika na pozornicu
32
Imena sagovornika
• tri najčešća načina obeležavanja učesnika u
razgovoru zapisanom na transkriptu: a) NIK, b)
A., c) Nikola.
• Koje su prednosti/nedostaci beleženja imena
brojevima, ili slovima azbuke? Sagovornici se
oslovljavaju ponekad imenom, nadimkom, i sl.
te je čitaocu transkripta teško nekada da prati
sam tekst koji nije povezan sa imenom onoga
ko izgovara repliku.
33
Posebne oznake
• Nerazumljiv govor se može na više načina označiti.
(nrz), xxx
• Ponavljanja se mogu označiti na dva načina: ili se
beleži izgovor svakog ponovljenog izraza ili se jedan
navodi pa se stavlja posbena oznaka za broj puta koji
se ponavlja.
• Preklapanje iskaza dva sagovornika se najčešće
označava uglastim zagradama < >, [ ]. * *
• Pauze (.) . ,
• Ispunjene pauze
34
Posebne oznake
• Produžavanje izgovora jednog glasa. /:/ da: Ako
produžava glas i pravi pauzu dve dvotačke??? (CA). Ili
se više puta ponovi slovo: daa
• Prekinuti iskaz?? / - /Od strane samog govornika ili
od strane sagovornika. I nastavak iskaza od strane
samog govornika ili od strane drugog sagovornika.
(Npr. značajno za razvoj govora kod deteta, da li se
samo ispravlja ili ne ume...)
35
Posebne oznake
• Brojevi i složenice pišu se kao reči a ne kao
brojevi
• Paralingvistička ponašanja: plakanje, smejanje,
kašljanje, coktanje, stenjanje Npr. (smeh)
(smeje se), @, @@@
• Ekstralingvistička situacija se označava kada se
smatra bar delimično relevantnom za
razumevanje transkriovanog govora. Npr.
(okreće se slušaocima iza sebe, kada se „gubi“
glas.)
36
• Govorni događaj se može do kraja protumačiti
samo ako su svi elementi ubeleženi. Međutim,
takav tekst postaje gotovo nečitljiv, te je cilj da
se stvore anotirani korpusi koji olakšavaju
čitanje i pretraživanje tako što pružaju opciju
da se vide sve, nijedna ili samo odabrane
anotacije.
37