音響スライド

Download Report

Transcript 音響スライド

声質変換のための
スペクトルおよび の同時モデリング
◎宇藤 陽介 南角 吉彦 李 晃伸 徳田 恵一 (名工大)
はじめに

声質変換



GMMに基づく声質変換 [Stylianou et al.; 1998]



話者の音声を別の話者の音声に変換
少量の学習データで実現可能
スペクトル : GMMを用いて非線形に変換
: 平均・標準偏差を用いて線形に変換
⇒ 異なる手法により独立に変換
スペクトルおよび
の同時学習
⇒ MSDモデルに基づく特徴量のモデリング
(Multi-Space Probability Distribution)
スペクトル変換
1. 元・目標話者データ
から結合データ
2. 結合データから同時確率GMM
3. GMMを用いて入力データ
を学習
を非線形に変換
を作成
変換
1. 元・目標話者データから平均・標準偏差を計算
2. 平均・標準偏差から入力データ を線形に変換
,
: 平均,標準偏差(元話者)
,
: 平均,標準偏差(目標話者)
をスペクトルと同じ枠組みでモデル化
のモデル化
MSDモデルに基づく


の値
有声(連続値)と無声(離散値)で異なる性質
MSD (Multi-Space Probability Distribution)
[徳田ら; 2000]
特徴量を別々の空間でモデル化
時間
元話者 有声
有声
有声
有声
無声
無声
無声
無声
無声
目標話者 有声
有声
無声
無声
無声
無声
有声
有声
無声
重み1
空間1
有声-有声空間
(2次元)
重み2
重み3
空間2
空間3
有声-無声空間
(1次元)
無声-有声空間
(1次元)
重み4
空間4
無声-無声空間
(0次元)
MSDモデルに基づく
の変換
1. 事後確率
より空間を決定
2-a. パラメータ生成
2-b. 無声シンボルを生成
: 入力データ
: モデル
: 空間番号
入力データ
入力データ
有声
無声
1
1
有声-有声空間
有声-無声空間
無声-有声空間
無声-無声空間
2-a
2-b
2-a
2-b
変換データ
変換データ
変換データ
変換データ
有声
無声
有声
無声
線形変換法の比較


従来法
: 入力データ
,
: 平均,標準偏差(元話者)
: 変換データ
,
: 平均,標準偏差(目標話者)
提案法(1混合のMSD-GMM)
: 分散(元話者)
: 相互共分散
MSD-HMMへの拡張

MSD-GMM



時間方向の相関の学習が不可能(静的特徴量のみ)
長い区間のモデル化が困難
MSD-HMM


時間方向の相関のより詳細なモデル化
音素コンテキストを考慮したトポロジーの作成
変換時は音素コンテキストの使用が不可能
⇒ コンテキストを隠れ要素とみなすHMMを構築
MSD-HMMの構築(1/3)
1. コンテキストクラスタリングにより状態を共有
コンテキスト依存HMM
状態共有したHMM
共有
共有
状態の共有方法
時間方向の状態共有なし
共有
共有
時間方向の状態共有あり
共有
共有
MSD-HMMの構築(2/3)
2. HMMを結合し1つのHMMを作成
状態共有したHMM
結合したHMM
遷移の接続方法
コンテキストの制限なし
i-u+e
a-i+u
u-e+o
コンテキストの制限あり
i-u+e
a-i+u
u-e+o
MSD-HMMの構築(3/3)
3. 結合されたHMMを再学習
結合したHMM
MSD-HMM
モデルの大きさ
モデルの最小化なし
共有
モデルの最小化あり
実験条件
データベース
ATR日本語音声データベース B-set
変換話者
mtk → mht
学習データ数
450文
テストデータ数
53文
サンプリング周波数
16kHz
フレーム周期
5ms
分析窓
25ms長 Blackman窓
比較手法


モデル名
GMM
GMMに基づく声質変換
MSD-GMM
MSD-GMMに基づく声質変換
MSD-HMM1
MSD-HMMに基づく声質変換
モデルの最小化なし,モデル結合後の再学習なし
MSD-HMM2
MSD-HMMに基づく声質変換
モデルの最小化あり
特徴量
GMM
24次メルケプストラム(0次を除く)+1次動的特徴量
MSD-GMM
MSD-HMM1
MSD-HMM2
24次メルケプストラム(0次を除く)+1次動的特徴量
+ +1次動的特徴量
客観評価基準
変換後の
メルケプストラム
目標話者の
メルケプストラム
DPマッチング
⇒ 対応A
変換後の
目標話者の
DPマッチング
(対応Aを使用)
伸縮後の
有声/無声誤り
有声-有声データの抽出
有声-有声のみの
歪み
客観評価(有声/無声誤り)
客観評価(
歪み)
主観評価(5段階DMOS)
評価文章数
15文×10名
モデルの分布数
256
元話者
目標話者
GMMとMSD-GMMにおける追実験
GMM
前実験におけるGMM
GMMにおける線形変換式を相関ありの式に変更
GMM1
特徴量に1次動的特徴量を追加
GMM2
GMM1における
GMM3
GMM2における線形変換を非線形変換に変更
GMM3をMSDモデルに拡張 ⇒ 前実験におけるMSD-GMM
歪み
GMM
前実験におけるGMM
GMM1
GMMの線形変換を相関ありの式に変更
GMM2
GMM1に
GMM3
GMM2を非線形変換に変更
の動的特徴量を追加
むすび

MSDモデルに基づく声質変換




の客観評価値の改善
主観評価における話者性の改善
HMM構造の有効性は確認できず
今後の課題


少量の学習データでの有効性の検証
韻律に関するコンテキストの導入