9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh.
Download ReportTranscript 9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh.
9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005
Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais
Welsh and Irish Speech Processing Resources (WISPR)
Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl
Coláiste na Tríonóide
Cúlra an Tionscadail
• • •
Interreg IIIA Aontas Eorpach
– Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais – Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra
Grúpa Urlabhra na Gaeilge Prifysgol Cymru
& (The University of Wales Bangor)
Rannpháirtithe
• Prifysgol Cymru/The University of Wales, Bangor – Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin, Rhys Jones • Coláiste na Tríonóide, Ollscoil BhÁC – Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl, Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC – Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin • Ollscoil Chathair Bhaile Átha Cliath – John McKenna agus Rónán Scaife • Institiúid Teangeolaíochta Éireann – Elaine Uí Dhonnchadha
Cuspóirí
(i gcás na Gaeilge) • Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde • Dúshraith le haghaidh sintéis na Gaeilge • Acmhainní teicneolaíochta a chur in úsáid go feidhmeach • Nasc a chothú le daoine a bhainfeadh feidhm as a leithéid de theicneolaíocht • Oideachas: Múinteoirí Gaeilge • Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus radhairc
Sintéis Téacs-go-hUrlabhra
• Formant Synthesis • Concatenative Synthesis – Diphone Synthesis – Unit Selection
Unit Selection
• Ullmhú Corpais – Brian – Roghnú Cainteora – Taifeadadh (JSpeechRecorder) – Trascríobh Láimhe (Praat) • Dáileadh Fóinéimeach - Áine • Trascríobh Uathoibríoch (HTK) - Áine • Sintéis (Festival) - Áine
Ullmhú Corpais
• Canúint agus cainteoir a roghnú • Taifeadadh a dhéanamh • Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde
Canúint agus Cainteoir
• Gaeilge Thír Chonaill?
• Cainteoir oiriúnach a roghnú – Cainteoir baineann as Gaeltacht Thír Chonaill – Léitheoir maith – Ar fáil do héasca – Gaeilge nádúrtha dúchasach
An Taifeadadh a Dhéanamh
• Is gá go mbeadh an taifeadadh ar ardchaighdeán – Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach – Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór • Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge – Bogearraí oiriúnach roghnaithe don taifeadadh
Bogearraí Taifeadta
• JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder – Leideanna a chur ar an scáileán sa stiúdió – Stóráil uathoibríoch na gcomhad fuaime leis na leideanna cuí
Treallamh Taifeadta
• Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime – ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta • DVD Burner le cóip de na sonraí a thabhairt ón láithreán • Cárta fuaime proifisiúnta: Edirol UA1000 – Nasc High-Speed USB 2.0
– Taifeadadh digiteach: micreafón diosca crua
Scripteanna Ullmhaithe
• Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill • m.sh. Séamus Ó Grianna • Téacsanna nua-aimseartha/cúrsaí reatha?
• XML – JSpeechRecorder
Sampla de théacs in XML
• • • • • • • • • • • • •
Sampla de théacs in XML
•
Sampla de théacs in XML
• • • • • • • • • •
Na Sonraí a Ullmhú
• Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt • Trascríobh láimhe agus uathoibríoch a thosnú • Rialacha trascríofa a fhorbairt
Pacáiste Bogearraí a Roghnú • Riachtanais
– Pacáiste Bogearraí le haghaidh anailís urlabhra lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis
• Réiteach
– Praat
Sampla ó Praat
9.2
< 1 l' L+H* a >< 1 g d' H*+L a > 1 d' w ai < 1 1 f' H*+L i > p Time (s) 4 10.8
Trascríobh le haghaidh Sintéis
• Is gá an trascríobh a dhéanamh ar leibhéil éagsúla • Trascríobh prosóide (lipéid IViE) – Féach tionscadal
Prosóid Chanúintí na Gaeilge
• Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá • Trascríobh gramadaí (ranna cainte na bhfocal)
Modh Trascríofa
• Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge • Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú • Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú
Fóinéimeanna na Gaeilge
Liopach Déadach Pléascach Cuimilteach Leathghuta Srónach Cnag Leathghuta Taobhach Ailbh eolach Carball Ailbh eolach Ailbheola- Carballach Carba llach Cog uasach Glot asach
Dáileadh Fóinéimeach
Dáileadh Fóinéimeach: Cén fath?
Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.
TÉACS
focail
Dáileadh Fóinéimeach
An proiséis leis na fóin agus na défóin a chomhaireamh
Rialacha Litir
fuaim
Siombail fóinéimeacha
Áiritheoir
Méid fóin Méid défóin Comhthéacs
In oirúint don ghléas sintéise
Dáileadh Fóinéimeach Dul Chun Cinn
• Foclóir Póca – “Lár Chanúint” – 15000 Focail – 76254 Fóin (51), 102493 Défóin (1300) • Foclóir eile – Gaeilge Chonnamara – 13 noimeád cainte – 852 Focail – 3111 Fóin(52), 3953 Défóin(704)
Dáileadh Fóinéimeach: Le deánamh
• Rialacha aistriúcháin: litir fuaim • Bunaithe ar Ghaeilge Uladh • Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe • Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín
% 40 30 20 10 0 70 60 50
Dáileadh Fóinéimeach: Torthaí
Secondary velarised palatalised monophthongs diphthong consonant vowel Figure 1: General Distribution
Dáileadh Fóinéimeach: Torthaí
14 12 % 10 8 6 4 2 0 b b' d d' f f' g g' l' m m' n n' ' p p' r r' s s' t t' v v' w x x' z z' Figure 3: Dáileadh Consan manner tap plosive nasal lateral glide fricative approx.
30 25 % 20 15 10 5 0 a a: a:i a:u e e: i i: i: Figure 2: Dáileadh Gutaí o o: u u: u Height mid-low mid-high mid low high diphthong
Trascríobh Uathoibríoch
Trascríobh Uathoibríoch: Cén Fath?
• Níos Tapúla • Is féidir cur leis • Trascíobh Láimhe 15 uair dodhéanta • Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire
Trascríobh Uathoibríoch: Conas?
• HTK (Hidden Markof Model Toolkit) • Taifeadtaí atá trascríofa ag duine • Fóclóir agus líosta focal • Traenáil ar an sraith traenála • Aithne agus ailíniú • Ceartú más gá
Trascríobh Uathoibríoch Dul Chun Cinn
• Múineadh a chur ar na HMMaí • 9 gcomhad – 19 nóimeád • 3150 focail • Foclóir tógtha ón trascríobh láimhe • Tástáil le 6 abairtí nach raibh sa “sraith traenála”
TORTHAÍ
Trascríobh Uathoibríoch Le Deánamh
• HMMaí a mhúineadh leis na taifeadtaí nua • Foclóir nua a chur le chéile le focail an taifeadta go léir ann • Trascríobh uathoibríoch
Sintéis
• Festival Speech Synthesis Engine (CSTR) • An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine” • Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl.
• Interface úsáideach, simplí a fhorbairt
Feidhmeanna an Chorpais Urlabhra Ullmhaithe
• Sintéis téacs-go-hurlabhra (TTS) – Úsáid oideachasúil – Úsáid do dhaoine atá faoi mhíchumas • Acmhainn úsáideacha a thagann as forbairt na sintéise • Acmhainn taighde
Múineadh na Gaeilge
• Foghlaim idirghníomhach don Ghaeilge • Féinteagascóirí fuaimnithe (‘Artificial pronunciation tutors’) – An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó fiú Gaeilge líofa ar fáil go héasca • Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon • Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)
Feidhmchláir do Dhaoine Míchumasaithe
• Uirlisí sintéis urlabhra do Ghaeilgeoirí le - míchumas urlabhra: sintéiseoirí urlabhra - míchumas radhairc: ‘screen readers’ • Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu
Acmhainn úsáideacha
• Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh.
– Foclóir Fuaimnithe, a bheadh in oiriúint don chanúint – Rialacha aistriúcháin ó litreacha go fuaim (letter-to-sound) – Hidden Markof Models do fuaimeanna Gaeilge Uladh
Taighde na Gaeilge
• Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla: – Phonotactics – Rialacha fuaimnithe – Anailís foghraíochta agus fóineolaíochta
Réimse an Tionscadail
• Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge • De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais • Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo
Amach Anseo
• An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad • An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis… • Comhoibriú le Gnóthais Bheaga agus Meánacha
Amach Anseo
• Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs • Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise
Buíochas
Bangor
Le cabhair airgeadais ón
: AE INTERREG IIIA Community Initiative Programme TCD UCD DCU