9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh.

Download Report

Transcript 9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005 Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh.

9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005

Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Welsh and Irish Speech Processing Resources (WISPR)

Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl

Coláiste na Tríonóide

Cúlra an Tionscadail

• • •

Interreg IIIA Aontas Eorpach

– Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais – Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra

Grúpa Urlabhra na Gaeilge Prifysgol Cymru

& (The University of Wales Bangor)

Rannpháirtithe

• Prifysgol Cymru/The University of Wales, Bangor – Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin, Rhys Jones • Coláiste na Tríonóide, Ollscoil BhÁC – Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl, Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC – Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin • Ollscoil Chathair Bhaile Átha Cliath – John McKenna agus Rónán Scaife • Institiúid Teangeolaíochta Éireann – Elaine Uí Dhonnchadha

Cuspóirí

(i gcás na Gaeilge) • Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde • Dúshraith le haghaidh sintéis na Gaeilge • Acmhainní teicneolaíochta a chur in úsáid go feidhmeach • Nasc a chothú le daoine a bhainfeadh feidhm as a leithéid de theicneolaíocht • Oideachas: Múinteoirí Gaeilge • Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus radhairc

Sintéis Téacs-go-hUrlabhra

• Formant Synthesis • Concatenative Synthesis – Diphone Synthesis – Unit Selection

Unit Selection

• Ullmhú Corpais – Brian – Roghnú Cainteora – Taifeadadh (JSpeechRecorder) – Trascríobh Láimhe (Praat) • Dáileadh Fóinéimeach - Áine • Trascríobh Uathoibríoch (HTK) - Áine • Sintéis (Festival) - Áine

Ullmhú Corpais

• Canúint agus cainteoir a roghnú • Taifeadadh a dhéanamh • Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde

Canúint agus Cainteoir

• Gaeilge Thír Chonaill?

• Cainteoir oiriúnach a roghnú – Cainteoir baineann as Gaeltacht Thír Chonaill – Léitheoir maith – Ar fáil do héasca – Gaeilge nádúrtha dúchasach

An Taifeadadh a Dhéanamh

• Is gá go mbeadh an taifeadadh ar ardchaighdeán – Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach – Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór • Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge – Bogearraí oiriúnach roghnaithe don taifeadadh

Bogearraí Taifeadta

• JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder – Leideanna a chur ar an scáileán sa stiúdió – Stóráil uathoibríoch na gcomhad fuaime leis na leideanna cuí

Treallamh Taifeadta

• Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime – ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta • DVD Burner le cóip de na sonraí a thabhairt ón láithreán • Cárta fuaime proifisiúnta: Edirol UA1000 – Nasc High-Speed USB 2.0

– Taifeadadh digiteach: micreafón  diosca crua

Scripteanna Ullmhaithe

• Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill • m.sh. Séamus Ó Grianna • Téacsanna nua-aimseartha/cúrsaí reatha?

• XML – JSpeechRecorder

Sampla de théacs in XML

• • • • • • • • • • • • • Title Irish Language Recording Script - WISPR Project Dublin

Sampla de théacs in XML

• • • • • • • • • • 1. JAMES GALLAGHER

Sampla de théacs in XML

• • • • • • • • • • Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí Phádraig Duibh nuair a cuireadh chun na scoile é.

Na Sonraí a Ullmhú

• Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt • Trascríobh láimhe agus uathoibríoch a thosnú • Rialacha trascríofa a fhorbairt

Pacáiste Bogearraí a Roghnú • Riachtanais

– Pacáiste Bogearraí le haghaidh anailís urlabhra lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis

• Réiteach

– Praat

Sampla ó Praat

9.2

< 1 l' L+H* a >< 1 g d' H*+L a > 1 d' w ai < 1 1 f' H*+L i > p Time (s) 4 10.8

Trascríobh le haghaidh Sintéis

• Is gá an trascríobh a dhéanamh ar leibhéil éagsúla • Trascríobh prosóide (lipéid IViE) – Féach tionscadal

Prosóid Chanúintí na Gaeilge

• Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá • Trascríobh gramadaí (ranna cainte na bhfocal)

Modh Trascríofa

• Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge • Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú • Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú

Fóinéimeanna na Gaeilge

 Liopach Déadach Pléascach Cuimilteach Leathghuta Srónach Cnag Leathghuta Taobhach                                             Ailbh eolach                   Carball Ailbh eolach                          Ailbheola- Carballach                          Carba llach                         Cog uasach                      Glot asach                        

Dáileadh Fóinéimeach

Dáileadh Fóinéimeach: Cén fath?

Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.

TÉACS

focail

Dáileadh Fóinéimeach

An proiséis leis na fóin agus na défóin a chomhaireamh

Rialacha Litir

fuaim

Siombail fóinéimeacha

Áiritheoir

Méid fóin Méid défóin Comhthéacs

In oirúint don ghléas sintéise

Dáileadh Fóinéimeach Dul Chun Cinn

• Foclóir Póca – “Lár Chanúint” – 15000 Focail – 76254 Fóin (51), 102493 Défóin (1300) • Foclóir eile – Gaeilge Chonnamara – 13 noimeád cainte – 852 Focail – 3111 Fóin(52), 3953 Défóin(704)

Dáileadh Fóinéimeach: Le deánamh

• Rialacha aistriúcháin: litir  fuaim • Bunaithe ar Ghaeilge Uladh • Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe • Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín

% 40 30 20 10 0 70 60 50

Dáileadh Fóinéimeach: Torthaí

Secondary velarised palatalised monophthongs diphthong consonant vowel Figure 1: General Distribution

Dáileadh Fóinéimeach: Torthaí

14 12 % 10 8 6 4 2 0 b b' d d' f f' g g' l' m m' n n'  ' p p' r r' s s' t t' v v' w x x' z z' Figure 3: Dáileadh Consan manner tap plosive nasal lateral glide fricative approx.

30 25 % 20 15 10 5 0 a a: a:i a:u e e: i i: i:  Figure 2: Dáileadh Gutaí o o:  u u: u  Height mid-low mid-high mid low high diphthong

Trascríobh Uathoibríoch

Trascríobh Uathoibríoch: Cén Fath?

• Níos Tapúla • Is féidir cur leis • Trascíobh Láimhe 15 uair dodhéanta • Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire

Trascríobh Uathoibríoch: Conas?

• HTK (Hidden Markof Model Toolkit) • Taifeadtaí atá trascríofa ag duine • Fóclóir agus líosta focal • Traenáil ar an sraith traenála • Aithne agus ailíniú • Ceartú más gá

Trascríobh Uathoibríoch Dul Chun Cinn

• Múineadh a chur ar na HMMaí • 9 gcomhad – 19 nóimeád • 3150 focail • Foclóir tógtha ón trascríobh láimhe • Tástáil le 6 abairtí nach raibh sa “sraith traenála”

TORTHAÍ

Trascríobh Uathoibríoch Le Deánamh

• HMMaí a mhúineadh leis na taifeadtaí nua • Foclóir nua a chur le chéile le focail an taifeadta go léir ann • Trascríobh uathoibríoch

Sintéis

• Festival Speech Synthesis Engine (CSTR) • An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine” • Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl.

• Interface úsáideach, simplí a fhorbairt

Feidhmeanna an Chorpais Urlabhra Ullmhaithe

• Sintéis téacs-go-hurlabhra (TTS) – Úsáid oideachasúil – Úsáid do dhaoine atá faoi mhíchumas • Acmhainn úsáideacha a thagann as forbairt na sintéise • Acmhainn taighde

Múineadh na Gaeilge

• Foghlaim idirghníomhach don Ghaeilge • Féinteagascóirí fuaimnithe (‘Artificial pronunciation tutors’) – An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó fiú Gaeilge líofa ar fáil go héasca • Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon • Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)

Feidhmchláir do Dhaoine Míchumasaithe

• Uirlisí sintéis urlabhra do Ghaeilgeoirí le - míchumas urlabhra: sintéiseoirí urlabhra - míchumas radhairc: ‘screen readers’ • Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu

Acmhainn úsáideacha

• Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh.

– Foclóir Fuaimnithe, a bheadh in oiriúint don chanúint – Rialacha aistriúcháin ó litreacha go fuaim (letter-to-sound) – Hidden Markof Models do fuaimeanna Gaeilge Uladh

Taighde na Gaeilge

• Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla: – Phonotactics – Rialacha fuaimnithe – Anailís foghraíochta agus fóineolaíochta

Réimse an Tionscadail

• Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge • De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais • Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo

Amach Anseo

• An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad • An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis… • Comhoibriú le Gnóthais Bheaga agus Meánacha

Amach Anseo

• Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs • Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise

Buíochas

Bangor

Le cabhair airgeadais ón

: AE INTERREG IIIA Community Initiative Programme TCD UCD DCU