Transcript 投影片樣式範本
使用 HTS 進行中文語音合成之研究
羅珝瑩 [email protected]
粘子奕 [email protected]
大綱
簡介
語料更換說明
訓練資料
訓練資料處理
成果展示
結論
未來研究方向
2
語音合成概觀
單元選取合成
可從語料庫取得正確的單元
音質較好
合成的語音易有不連續的問題
不易改變合成語音的特性
基於隱藏式馬可夫模型合成
從統計模型產生語音參數
由參數經編碼合成語音
合成的語音較平滑與穩定
容易改變合成語音的特性
3
HTS 簡介
HMM-based Speech Synthesis System (HTS)
約開始於1995年,由 Nagoya Institute of Technology 發展,
主要參與者為 Keiichi Tokuda 等人。
訓練階段
以隱藏式馬可夫模型(Hidden Markov Models) 和決策樹對語音
頻譜(spectrum)、音高(pitch)、音長(state duration)建立模型。
合成階段
根據給定的文字將其 HMM 串接起來,透過 MLSA (Mel Log
Spectrum Approximation)濾波器合成音檔。
4
語料更換說明
安裝 Cygwin 環境及相關工具
可參考先前的說明文件
http://mir.cs.nthu.edu.tw/users/heycat/cygwin下前置作業.txt
HTS-demo_CMU-ARCTIC-SLT
音檔
questions 檔
label 檔
..\data\raw
..\data\questions\questions_qst001.hed
..\data\labels\full
..\data\labels\mono
..\data\labels\gen
6
訓練資料
盲友會有聲書 -- 視障者視窗 XP 作業系統入門
錄音者:陸瑜
音檔總數:1153個音檔
時間長度:4小時33分50秒
取樣頻率:16 kHz
句數:3923句
字數:48423字
7
訓練資料處理
將訓練的音檔透過 forced alignment 取得音長、音素
和聲調等資訊
將訓練音檔的文字送到中研院中文斷詞系統取得斷
詞資訊
結合以上資訊產生所需的 label 檔
8
訓練資料
A 語料
B 語料
C 語料
內容
盲友會有聲書
視障者視窗 XP
作業系統入門
新聞短句
口語短句
新聞
口語短句
錄音者
陸瑜 (女)
不詳 (男)
不詳 (女)
聲道
單聲道
單聲道
單聲道
取樣頻率
16 kHz
16 kHz
16 kHz
取樣解析度
16-bit
16-bit
16-bit
時間長度
4小時22分40秒 1小時43分54秒 4小時10分24秒
句數
3,976句
2,601句
4,873句
字數
46,237字
27,816字
62,572字
9
音素種類
Biphone 模型
ㄅㄚ
ㄅㄛ
ㄅㄧㄝ
ㄅㄧㄠ
a_sil
u_o
i_e
i_a
o_sil
e_sil
a_u
u_sil
靜音 (,。!?:;、)
b_a
b_u
b_i
b_i
sil
共有 165 種
A 語料:146 種
B 語料:156 種
C 語料:156 種
125,531個
79,053個
162,375個
10
Label 檔的格式 1/3
u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2
u1~u5:前前一個音素、前一個音素、目前的音素、
下一個音素、下下一個音素
t1~t5:前前一個聲調、前一個聲調、目前的聲調、
下一個聲調、下下一個聲調
p1 :目前的音素在字裡的順序 (正序)
p2 :目前的音素在字裡的順序 (倒序)
p3 :目前的音素在詞裡的順序 (正序)
p4 :目前的音素在詞裡的順序 (倒序)
11
Label 檔的格式 2/3
u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2
c1 :目前的字在詞裡的順序 (正序)
c2 :目前的字在詞裡的順序 (倒序)
c5 :目前的字含有幾個音素
m1:前一個字含有幾個音素
m2:下一個字含有幾個音素
12
Label 檔的格式 3/3
u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2
w1 :目前的詞在句子裡的順序 (正序)
w2 :目前的詞在句子裡的順序 (倒序)
w3 :目前的詞含有幾個音素
w4 :目前的詞含有幾個字
n1 :前一個詞含有幾個音素
n2 :下一個詞含有幾個音素
n3 :前一個詞含有幾個字
n4 :下一個詞含有幾個字
s2 :目前的句子共有幾個詞
13
Label 檔
自序 ㄗˋㄒㄩˋ sil z_ii ii_sil x_yu yu_sil sil
0
7900000
7900000
9100000
9100000 12100000
12100000 14700000
14700000 16900000
16900000 25900000
nil^nil-sil+z_ii=ii_sil/T:5+5-5=4^4/P:1-1@1-6/C:14#1-4!1/M:0+2/W:1-1$6;4/N:0+0@0+0/S:4-1
nil^sil-z_ii+ii_sil=x_yu/T:5+5-4=4^4/P:1-2@2-5/C:23#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1
sil^z_ii-ii_sil+x_yu=yu_sil/T:5+4-4=4^4/P:2-1@34/C:2-3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1
z_ii^ii_sil-x_yu+yu_sil=sil/T:4+4-4=4^5/P:1-2@43/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-1
ii_sil^x_yu-yu_sil+sil=nil/T:4+4-4=5^5/P:2-1@52/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-1
x_yu^yu_sil-sil+nil=nil/T:4+4-5=5^5/P:1-1@6-1/C:414
1#4-1!1/M:2+0/W:1-1$6;4/N:0+0@0+0/S:4-1
Questions 檔
記載一系列的資料分群規則 (question sets),使程式在
建立決策樹時,能應用 label 檔中所訂的各項特徵進行
資料分群。
音素相關
聲調相關
C-a_i
C-a_
C-_i
0、1、2、3、4、5 (silence)
韻律相關
15
成果展示 1/2
周杰倫(周董)讚前女友侯佩岑是完美的女人與情人,
「周侯戀」分手兩年,至今還沒遇到可進攻追求的對象,
江語晨也只是緋聞名單中的過客。(2008/10/18 中國時報)
Web TTS
HTS
發揮想像力,夜空真的像展露笑顏;只不過,就天文的
角度來說,看起來像眼睛的,其實是太陽系的兩大行星,
左邊比較白,比較亮的是金星,右邊稍微紅一點的則是
木星,宛如雙星拱月一般。(2008/12/01 TVBS)
Web TTS
HTS
16
成果展示 2/2
看到流落街頭的小貓咪,會不會動了惻隱之心帶回家呢?
家住新疆的張培偉,今年五月在峽谷放牧時,看到一對全
身溼答答凍得發抖的小動物,原本以為它們是草原班貓,
當下決定帶回家飼養,卻怎麼也沒想到貓咪越養越大隻,
而且不吃乾糧只吃肉,覺得事情不對勁了,張培偉趕緊通
報,專家鑑定結果竟是雪豹。可愛貓咪變成稀有雪豹,張
培偉一點也不開心,雪豹姊弟的食量高的嚇人,怪只怪自
己有眼不識雪豹。(2008/11/15 東森新聞)
Web TTS
HTS
17
結論
相較於單元選取
合成語音較為平順且無不連續
合成語音音色較差
語料的品質與多寡會大幅影響合成語音的品質
18
未來研究方向
提升音色品質
19
Thank you for listening
20