Transcript Document
工研院文字轉語音技術簡介
資通所前瞻技術中心副研究員 黃健紘
2010/10/15
大綱
• 文字轉語音技術簡介
• 工研院 TTS 發展歷程
• 工研院 TTS 研發成果展示
Copyright 2010 ITRI 工業技術研究院
2010/10/15
2
文字轉語音
• TTS: Text-to-Speech
– 輸入:文字字串 (text in characters)
– 輸出:語音訊號 (speech in samples)
– 將輸入文字,轉換合成為語音輸出
Copyright 2010 ITRI 工業技術研究院
2010/10/15
3
文字轉語音主要步驟
文字
資訊
口語
文句
文字
處理
語言
參數
語言
分析
聲學
參數
音韻
生成
語音
波形
波形
合成
資料庫與
控制參數
Copyright 2010 ITRI 工業技術研究院
2010/10/15
4
文字處理模組
• 將輸入文字轉換為口語文句(spoken text)
– 標記指令處理(Markup Command Processing)
• <prosody volume=“+6dB”>大聲一點</prosody>
– 文字正規化 (Text Normalization)
• 2010/10/15 二零一零年十月十五日
• 38.38% 百分之三十八點三八
• 6:21 六點二十一分 or 六比二十一 or … ?
– 斷句 (Sentence Segmentation)
Copyright 2010 ITRI 工業技術研究院
2010/10/15
5
語言分析模組
• 分析口語文句得到對應的語言學(Linguistic)資訊
– 斷詞/構詞 (Word Segmentation/Bracketing)
• 詞長
• 詞序
– 字轉音 (Text to Pronunciation)
• 標音
• 聲調
– 標記詞性 (Part-Of-Speech Tagging)
• 詞性
Copyright 2010 ITRI 工業技術研究院
2010/10/15
6
音韻生成模組
• 將語言學參數 Mapping 至聲學(acoustic)參數
– 音量 (energy)
– 音高 (pitch)
– 語速 (duration)
• Mapping Methods
– Recurrent Neural Network (RNN)
– Classification And Regression Tree (CART)
– Hidden Markov Model (HMM)
Copyright 2010 ITRI 工業技術研究院
2010/10/15
7
波形合成模組
• 使用合成器產生語音波形
– 串接式合成
• 基週同步疊加
(Pitch Synchronous Overlap and Add, PSOLA)
– 基於參數合成
• 共振峰合成 (Formant Synthesis)
• 線性預測編碼 (Linear Predictive Coding, LPC)
• MLSA 濾波器(Mel Log Spectrum Approximation Filter)
Copyright 2010 ITRI 工業技術研究院
2010/10/15
8
語音合成 vs.真人錄音
• 系統自動化
– TTS 可整合於系統中,提供自動文字轉語音輸出
– TTS 可對於即時性、變動性之內容提供語音輸出
• 沒有全年無休、全天候之錄音人員可錄音
• 成本與效率
– 真人錄音之製作時間長、成本高
– 錄音之儲存與傳輸成本遠高於文字
• 品質一致性
– TTS 具一致性的音色、韻律和語音品質
• 真人錄音難以長時間保持一致性
Copyright 2010 ITRI 工業技術研究院
2010/10/15
9
TTS 的需求與產品
需求
使用族群 / 情境
產品
車輛駕駛
導航機、車機、Telematics
車輛乘客
有聲書(電子書)、有聲行動裝置
邊工作邊聽
網路收音機、工人終端裝置
視障者
視障輔具
老年視力衰退
銀髮族網頁/資通訊產品
幼兒視力成長階段
有聲教育產品
螢幕太小/無螢幕之設備
IVR/CTI、Net-Book、MID、PDA、智慧型手機、機器人
公共場所廣播
廣播設備
學習外語
語言學習、電子字典
聽障矯治
聽障輔具
學前兒童
學前有聲書/教具
文盲、外國人
電子字典/翻譯機、語言學習
語言障礙
腦性麻痺、中風、漸凍人
身障輔具
多模互動
語音配合其他輸出模式以
增進互動效果
資訊站、遊戲、玩具、網頁
眼睛不便
視力不佳
顯示受限
聽力訓練
文字障礙
Copyright 2010 ITRI 工業技術研究院
2010/10/15
10
Stephen Hawking’s Voice
• Professor Stephen Hawking selects NeoSpeech Textto-Speech as his new voice. Mar. 15, 2004
Copyright 2010 ITRI 工業技術研究院
2010/10/15
11
工研院 TTS 技術發展 (1/3)
• 第一代:cTTS
– 韻律可調式中文文字轉語音技術
– RNN-based
– 儲存中文單音節之語音單位
– 基本語音單位之韻律修改與串接合成
男聲
Copyright 2010 ITRI 工業技術研究院
女聲
2010/10/15
12
工研院 TTS 技術發展 (2/3)
• 第二代:iTTS
– 高音質大語料庫中文文字轉語音技術
– Corpus-based
– 儲存超過10小時之大語料庫
– 大語料庫之語音單元挑選與串接合成
男聲
Copyright 2010 ITRI 工業技術研究院
女聲
2010/10/15
13
工研院 TTS 技術發展 (3/3)
• 第三代:mTTS
– 基於模型之高音質文字轉語音技術
– Model-based
– 儲存音韻統計模型之參數資料 (少量儲存空間)
– 音韻統計模型與發聲模型之語音合成
男聲
Copyright 2010 ITRI 工業技術研究院
女聲1
女聲2
女童
2010/10/15
14
工研院 mTTS 技術特色 (1/2)
• 高品質自然語音合成
– 音韻自然平順
• 整句合成語音自然流暢,沒有拼接式語音合成在合成單元間的
的不連貫現象
– 韻律可調控性
• 可調整音量、音高、語速等韻律參數,且合成音質不會降低
• 多音色語音模型選擇與建構 (Model Training)
– 訓練語音模型只需約2-3小時之錄音語料
– 透過自動訓練步驟可在短時間內構建高品質音庫
• 低硬體儲存/運算資源需求
– 支援硬體資源較為缺乏的嵌入式系統
Copyright 2010 ITRI 工業技術研究院
2010/10/15
15
工研院 mTTS 技術特色 (2/2)
• 智慧文本分析 (Text Analysis)
– 可自動處理特殊符號、日期、時間、電話、金額、比數
、項次等之正確讀法
– 可自動分析判斷破音字讀法
• 提供使用者自定義辭典的功能
– TTS系統可按照使用者定義的詞彙與標音來合成發音
• 支援 Microsoft Speech API (SAPI) 及 Markup 語法
– 使應用軟體開發者加速語音應用程式的開發過程
– 可搭配 SAPI event 開發如文字語音同步等應用
– 可使用 SAPI 內建的 markup 指令,自行控制斷詞、發音
、韻律、數字唸法等
Copyright 2010 ITRI 工業技術研究院
2010/10/15
16
工研院 TTS 技術產業貢獻摘要
• 電子書/有聲書
– 遠通科技、遠流、網際智慧、愛盲文教基金會等
• 語文學習/數位學習
– 蒙恬科技、網際智慧、僑委會、師範大學等
• 管理系統/訓練系統
– 上尚科技、中山科學研究院、工研院等
• 導航軟體
– 九福科技等
• 家用機器人
– 華碩電腦等
Copyright 2010 ITRI 工業技術研究院
2010/10/15
17
「金庸機」與工研院 TTS
Copyright 2010 ITRI 工業技術研究院
2010/10/15
18
聽見文字的聲音-視障有聲書系統
• 開發弱勢族群潛能之社會公
益事業
• 樂彩公司倡議與投資,並由
工研院規劃建構之平台,協
助愛盲文教基金會經營有聲
書下載之公益服務
• 透過文字轉語音合成技術,
自動將文章內容合成為語音
,讓視障者即時獲取新知,
縮短學習落差
愛盲基金會-視障有聲書系統
• 合成書籍下載次數已達上萬
次,持續增加中
Copyright 2010 ITRI 工業技術研究院
2010/10/15
19
工研院 TTS Demo (1/7)
• 合成語音
男聲
女聲
金庸機
女童聲
• 男聲 (劉墉 – 你自己決定吧)
記得我上成功嶺的時候,長官曾說過一段話,「打仗的時候,上面只
要求你幾點幾分攻下目標,而不問你的人是不是過度疲勞,不可能趕
這麼快!也不問你的火力夠不夠、糧食足不足,因為他們考慮的是全
盤戰況,無法一一照顧你的需要。總之,你生,你死,是你自己的事
!在幾點幾分攻下那個據點,則是你無法逃避的責任。」
Copyright 2010 ITRI 工業技術研究院
2010/10/15
20
工研院 TTS Demo (2/7)
• 合成語音
男聲
女聲
金庸機
女童聲
• 女聲 (今日新聞網)
英國格拉摩根大學針對兩千多名英國人進行研究發現,笑容會隨年齡
增長而遞減,在年過50歲後,每天大笑次數已是青少年時期的一半,
因為此年齡層的人較常抱怨,也總是替年輕的孩子或晚輩擔憂。此外
,男女性正值52歲時,更是幽默感急遽消弱的時刻。
Copyright 2010 ITRI 工業技術研究院
2010/10/15
21
工研院 TTS Demo (3/7)
• 合成語音
男聲
女聲
金庸機
女童聲
• 金庸機 (神鵰俠侶【第二十七回】鬥智鬥力)
但國師和楊過正自僵持,已至十分緊急的當口,任誰稍有移動,都要
立吃大虧。小龍女那金針緩緩刺將過去,國師竟半點也抗拒不得。見
金針越移越近,自兩尺而一尺,自一尺而半尺,國師大叫一聲,雙輪
向前立送,一個觔斗向後翻出,可是玄鐵劍上那股威猛之極的勁力,
畢竟不能盡數卸去。他剛站定腳步,身子一晃,便坐倒在地。
Copyright 2010 ITRI 工業技術研究院
2010/10/15
22
工研院 TTS Demo (4/7)
• 合成語音
男聲
女聲
金庸機
女童聲
• 女童聲 (格林童話 – 青蛙王子)
小公主兩眼緊緊地盯著金球,可是金球忽地一下子在水潭里就沒影兒
了。因為水潭里的水很深,看不見底,小公主就哭了起來,她的哭聲
越來越大,哭得傷心極了。哭著哭著,小公主突然聽見有人大聲說:
「哎呀,公主,您這是怎麼啦?您這樣嚎啕大哭,就連石頭聽了都會
心疼的呀。」聽了這話,小公主四處張望,想弄清楚說話聲是從哪兒
傳來的,不料卻發現一隻青蛙,從水里伸出他那醜陋不堪的肥嘟嘟的
大腦袋。
Copyright 2010 ITRI 工業技術研究院
2010/10/15
23
工研院 TTS Demo (5/7)
• 台語 TTS
– 證嚴法師靜思語
• Goân-liōng pa̍t-lâng, to̍h-sī siān-thāi ka-tī.
(原諒別人,就是善待自己。)
• Tùi ka-tī ài ū sìn-sim, tùi pa̍t-lâng ài sìn-jīm.
(對自己要有信心,對別人要信任。)
• Ài pôe-ióng hoaⁿ-hí ê sim, ū hoaⁿ-hí sim, to̍h-sī ūi ka-tī chiok-hok. (要培養歡喜的心
,有歡喜心,就是為自己祝福。)
• Chi̍t ê kha-chhiú kiān-choân, khiok m̄-khéng chò sū ê lâng, to̍h téng-î bô kha-chhiú ê lâng.
(一個手腳健全,卻不肯做事的人,就等於沒有手腳的人。)
Copyright 2010 ITRI 工業技術研究院
2010/10/15
24
工研院 TTS Demo (6/7)
• 台語 TTS
– 佛經 (波羅蜜多心經)
• Koan-chū-chāi-phô͘-sat, hêng-chhim po̍at-ché pho-lô-bi̍t-to sî, chiàu-kiàn gō͘-ūn kai khong, tō͘
it-chhè khó͘-eh.
(觀自在菩薩,行深般若波羅蜜多時,照見五蘊皆空,度一切苦
厄)
• Sià-lī-chú, sek put-ì khong, khong put-ì sek, sek chek-sī khong, khong chek-sī sek. Siū sióng
hêng sek, e̍k ho̍k jû-sī.
(舍利子,色不異空,空不異色,色即是空,空即是色,受想行
識亦復如是)
• Kiat tè, kiat tè, pho-lô kiat tè, pho-lô cheng kiat tè, phô͘-thê sat pô ho. (揭諦,揭諦,
波羅揭諦,波羅僧揭諦,菩提薩婆訶)
Copyright 2010 ITRI 工業技術研究院
2010/10/15
25
工研院 TTS Demo (7/7)
• TTS 的韻律變化
– Model-based TTS 會有韻律較平板的問題
– 一般 TTS 系統只有單一種韻律表現,長篇文章顯得單調
合成文字
原始合成
加強韻律
喬峯殺人之後,更加出手如狂,單刀
飛舞,右手忽拳忽掌,左手鋼刀橫砍
直劈,威勢直不可擋,但見白牆上點
點滴滴的濺滿了鮮血,大廳中倒下了
不少屍骸,有的身首異處,有的膛破
肢斷。
Copyright 2010 ITRI 工業技術研究院
2010/10/15
26
工研院線上 TTS Demo
請連線網址:http://atc.ccl.itri.org.tw/,或上網搜尋:ITRI TTS
• 中文文字轉語音合成系統
Copyright 2010 ITRI 工業技術研究院
• 中文文字轉語音與影像式
人臉動畫合成系統
2010/10/15
27
其它線上 TTS Demo
種類
線上翻譯
線上 TTS 展示
網址
Google Translate
Bing Translator
備註
翻譯之後,以 TTS 發音
iFLYTEK (科大訊飛)
中國大陸
SVOX
Android 採用其 TTS Engine
NeoSpeech
Stephen Hawking 使用的 TTS
合成器
Cepstral
AT&T Labs
歌聲合成
Copyright 2010 ITRI 工業技術研究院
初音ミク (初音未來)
Youtube 作品分享
2010/10/15
28
TTS 的其它應用與挑戰
• 歌聲合成
• 表達式/情緒 (expressive/emotional)語音合成
– 根據文字內容合成出含有相對應情緒的語音
• 語者調適技術 (speaker adaptation)
– 使用者只須錄製少量語料,即可將原本的TTS調適為使
用者的聲音
• 多角色
– 年齡/性別/性格/地域/教育程度/ …
• 多語言(multilingual)
– 智慧判斷發音語言、聲音一致、韻律流暢
Copyright 2010 ITRI 工業技術研究院
2010/10/15
29
THANKS FOR YOUR ATTENTION
謝謝您的聆聽
Q&A
2010/10/15
30