投影片樣式範本

Transcript 投影片樣式範本

使用 HTS 進行中文語音合成之研究
羅珝瑩 [email protected]
粘子奕 [email protected]
大綱

簡介

語料更換說明

訓練資料

訓練資料處理

成果展示

結論

未來研究方向
2
語音合成概觀

單元選取合成
可從語料庫取得正確的單元
 音質較好
 合成的語音易有不連續的問題
 不易改變合成語音的特性


基於隱藏式馬可夫模型合成
從統計模型產生語音參數
 由參數經編碼合成語音
 合成的語音較平滑與穩定
 容易改變合成語音的特性

3
HTS 簡介

HMM-based Speech Synthesis System (HTS)

約開始於1995年，由 Nagoya Institute of Technology 發展，
主要參與者為 Keiichi Tokuda 等人。

訓練階段


以隱藏式馬可夫模型(Hidden Markov Models) 和決策樹對語音
頻譜(spectrum)、音高(pitch)、音長(state duration)建立模型。
合成階段

根據給定的文字將其 HMM 串接起來，透過 MLSA (Mel Log
Spectrum Approximation)濾波器合成音檔。
4
語料更換說明

安裝 Cygwin 環境及相關工具

可參考先前的說明文件
http://mir.cs.nthu.edu.tw/users/heycat/cygwin下前置作業.txt

HTS-demo_CMU-ARCTIC-SLT



音檔
questions 檔
label 檔
..\data\raw
..\data\questions\questions_qst001.hed
..\data\labels\full
..\data\labels\mono
..\data\labels\gen
6
訓練資料

盲友會有聲書 -- 視障者視窗 XP 作業系統入門






錄音者：陸瑜
音檔總數：1153個音檔
時間長度：4小時33分50秒
取樣頻率：16 kHz
句數：3923句
字數：48423字
7
訓練資料處理

將訓練的音檔透過 forced alignment 取得音長、音素
和聲調等資訊

將訓練音檔的文字送到中研院中文斷詞系統取得斷
詞資訊

結合以上資訊產生所需的 label 檔
8
訓練資料
A 語料
B 語料
C 語料
內容
盲友會有聲書
視障者視窗 XP
作業系統入門
新聞短句
口語短句
新聞
口語短句
錄音者
陸瑜 (女)
不詳 (男)
不詳 (女)
聲道
單聲道
單聲道
單聲道
取樣頻率
16 kHz
16 kHz
16 kHz
取樣解析度
16-bit
16-bit
16-bit
時間長度
4小時22分40秒 1小時43分54秒 4小時10分24秒
句數
3,976句
2,601句
4,873句
字數
46,237字
27,816字
62,572字
9
音素種類

Biphone 模型
ㄅㄚ
 ㄅㄛ
 ㄅㄧㄝ
 ㄅㄧㄠ


a_sil
u_o
i_e
i_a
o_sil
e_sil
a_u
u_sil
靜音 (，。！？：；、)


b_a
b_u
b_i
b_i
sil
共有 165 種
A 語料：146 種
 B 語料：156 種
 C 語料：156 種

125,531個
79,053個
162,375個
10
Label 檔的格式 1/3

u1û2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2

u1~u5：前前一個音素、前一個音素、目前的音素、
下一個音素、下下一個音素

t1~t5：前前一個聲調、前一個聲調、目前的聲調、
下一個聲調、下下一個聲調
p1 ：目前的音素在字裡的順序 (正序)
 p2 ：目前的音素在字裡的順序 (倒序)
 p3 ：目前的音素在詞裡的順序 (正序)
 p4 ：目前的音素在詞裡的順序 (倒序)

11
Label 檔的格式 2/3

u1û2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2
c1 ：目前的字在詞裡的順序 (正序)
 c2 ：目前的字在詞裡的順序 (倒序)
 c5 ：目前的字含有幾個音素

m1：前一個字含有幾個音素
 m2：下一個字含有幾個音素

12
Label 檔的格式 3/3

u1û2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4
/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2
w1 ：目前的詞在句子裡的順序 (正序)
 w2 ：目前的詞在句子裡的順序 (倒序)
 w3 ：目前的詞含有幾個音素
 w4 ：目前的詞含有幾個字

n1 ：前一個詞含有幾個音素
 n2 ：下一個詞含有幾個音素
 n3 ：前一個詞含有幾個字
 n4 ：下一個詞含有幾個字


s2 ：目前的句子共有幾個詞
13
Label 檔

自序ㄗˋㄒㄩˋ sil z_ii ii_sil x_yu yu_sil sil
0
7900000
7900000
9100000
9100000 12100000
12100000 14700000
14700000 16900000
16900000 25900000
nil^nil-sil+z_ii=ii_sil/T:5+5-5=4^4/P:1-1@1-6/C:14#1-4!1/M:0+2/W:1-1$6;4/N:0+0@0+0/S:4-1
nil^sil-z_ii+ii_sil=x_yu/T:5+5-4=4^4/P:1-2@2-5/C:23#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1
sil^z_ii-ii_sil+x_yu=yu_sil/T:5+4-4=4^4/P:2-1@34/C:2-3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1
z_iiîi_sil-x_yu+yu_sil=sil/T:4+4-4=4^5/P:1-2@43/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-1
ii_sil^x_yu-yu_sil+sil=nil/T:4+4-4=5^5/P:2-1@52/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-1
x_yu^yu_sil-sil+nil=nil/T:4+4-5=5^5/P:1-1@6-1/C:414
1#4-1!1/M:2+0/W:1-1$6;4/N:0+0@0+0/S:4-1
Questions 檔

記載一系列的資料分群規則 (question sets)，使程式在
建立決策樹時，能應用 label 檔中所訂的各項特徵進行
資料分群。

音素相關




聲調相關


C-a_i
C-a_
C-_i
0、1、2、3、4、5 (silence)
韻律相關
15
成果展示 1/2

周杰倫（周董）讚前女友侯佩岑是完美的女人與情人，
「周侯戀」分手兩年，至今還沒遇到可進攻追求的對象，
江語晨也只是緋聞名單中的過客。(2008/10/18 中國時報)
Web TTS
 HTS


發揮想像力，夜空真的像展露笑顏；只不過，就天文的
角度來說，看起來像眼睛的，其實是太陽系的兩大行星，
左邊比較白，比較亮的是金星，右邊稍微紅一點的則是
木星，宛如雙星拱月一般。(2008/12/01 TVBS)
Web TTS
 HTS

16
成果展示 2/2

看到流落街頭的小貓咪，會不會動了惻隱之心帶回家呢？
家住新疆的張培偉，今年五月在峽谷放牧時，看到一對全
身溼答答凍得發抖的小動物，原本以為它們是草原班貓，
當下決定帶回家飼養，卻怎麼也沒想到貓咪越養越大隻，
而且不吃乾糧只吃肉，覺得事情不對勁了，張培偉趕緊通
報，專家鑑定結果竟是雪豹。可愛貓咪變成稀有雪豹，張
培偉一點也不開心，雪豹姊弟的食量高的嚇人，怪只怪自
己有眼不識雪豹。(2008/11/15 東森新聞)
Web TTS
 HTS

17
結論

相較於單元選取
合成語音較為平順且無不連續
 合成語音音色較差


語料的品質與多寡會大幅影響合成語音的品質
18
未來研究方向

提升音色品質
19
Thank you for listening
20

投影片樣式範本

Transcript 投影片樣式範本

Directory