Transcript 音響スライド
声質変換のための スペクトルおよび の同時モデリング ◎宇藤 陽介 南角 吉彦 李 晃伸 徳田 恵一 (名工大) はじめに 声質変換 GMMに基づく声質変換 [Stylianou et al.; 1998] 話者の音声を別の話者の音声に変換 少量の学習データで実現可能 スペクトル : GMMを用いて非線形に変換 : 平均・標準偏差を用いて線形に変換 ⇒ 異なる手法により独立に変換 スペクトルおよび の同時学習 ⇒ MSDモデルに基づく特徴量のモデリング (Multi-Space Probability Distribution) スペクトル変換 1. 元・目標話者データ から結合データ 2. 結合データから同時確率GMM 3. GMMを用いて入力データ を学習 を非線形に変換 を作成 変換 1. 元・目標話者データから平均・標準偏差を計算 2. 平均・標準偏差から入力データ を線形に変換 , : 平均,標準偏差(元話者) , : 平均,標準偏差(目標話者) をスペクトルと同じ枠組みでモデル化 のモデル化 MSDモデルに基づく の値 有声(連続値)と無声(離散値)で異なる性質 MSD (Multi-Space Probability Distribution) [徳田ら; 2000] 特徴量を別々の空間でモデル化 時間 元話者 有声 有声 有声 有声 無声 無声 無声 無声 無声 目標話者 有声 有声 無声 無声 無声 無声 有声 有声 無声 重み1 空間1 有声-有声空間 (2次元) 重み2 重み3 空間2 空間3 有声-無声空間 (1次元) 無声-有声空間 (1次元) 重み4 空間4 無声-無声空間 (0次元) MSDモデルに基づく の変換 1. 事後確率 より空間を決定 2-a. パラメータ生成 2-b. 無声シンボルを生成 : 入力データ : モデル : 空間番号 入力データ 入力データ 有声 無声 1 1 有声-有声空間 有声-無声空間 無声-有声空間 無声-無声空間 2-a 2-b 2-a 2-b 変換データ 変換データ 変換データ 変換データ 有声 無声 有声 無声 線形変換法の比較 従来法 : 入力データ , : 平均,標準偏差(元話者) : 変換データ , : 平均,標準偏差(目標話者) 提案法(1混合のMSD-GMM) : 分散(元話者) : 相互共分散 MSD-HMMへの拡張 MSD-GMM 時間方向の相関の学習が不可能(静的特徴量のみ) 長い区間のモデル化が困難 MSD-HMM 時間方向の相関のより詳細なモデル化 音素コンテキストを考慮したトポロジーの作成 変換時は音素コンテキストの使用が不可能 ⇒ コンテキストを隠れ要素とみなすHMMを構築 MSD-HMMの構築(1/3) 1. コンテキストクラスタリングにより状態を共有 コンテキスト依存HMM 状態共有したHMM 共有 共有 状態の共有方法 時間方向の状態共有なし 共有 共有 時間方向の状態共有あり 共有 共有 MSD-HMMの構築(2/3) 2. HMMを結合し1つのHMMを作成 状態共有したHMM 結合したHMM 遷移の接続方法 コンテキストの制限なし i-u+e a-i+u u-e+o コンテキストの制限あり i-u+e a-i+u u-e+o MSD-HMMの構築(3/3) 3. 結合されたHMMを再学習 結合したHMM MSD-HMM モデルの大きさ モデルの最小化なし 共有 モデルの最小化あり 実験条件 データベース ATR日本語音声データベース B-set 変換話者 mtk → mht 学習データ数 450文 テストデータ数 53文 サンプリング周波数 16kHz フレーム周期 5ms 分析窓 25ms長 Blackman窓 比較手法 モデル名 GMM GMMに基づく声質変換 MSD-GMM MSD-GMMに基づく声質変換 MSD-HMM1 MSD-HMMに基づく声質変換 モデルの最小化なし,モデル結合後の再学習なし MSD-HMM2 MSD-HMMに基づく声質変換 モデルの最小化あり 特徴量 GMM 24次メルケプストラム(0次を除く)+1次動的特徴量 MSD-GMM MSD-HMM1 MSD-HMM2 24次メルケプストラム(0次を除く)+1次動的特徴量 + +1次動的特徴量 客観評価基準 変換後の メルケプストラム 目標話者の メルケプストラム DPマッチング ⇒ 対応A 変換後の 目標話者の DPマッチング (対応Aを使用) 伸縮後の 有声/無声誤り 有声-有声データの抽出 有声-有声のみの 歪み 客観評価(有声/無声誤り) 客観評価( 歪み) 主観評価(5段階DMOS) 評価文章数 15文×10名 モデルの分布数 256 元話者 目標話者 GMMとMSD-GMMにおける追実験 GMM 前実験におけるGMM GMMにおける線形変換式を相関ありの式に変更 GMM1 特徴量に1次動的特徴量を追加 GMM2 GMM1における GMM3 GMM2における線形変換を非線形変換に変更 GMM3をMSDモデルに拡張 ⇒ 前実験におけるMSD-GMM 歪み GMM 前実験におけるGMM GMM1 GMMの線形変換を相関ありの式に変更 GMM2 GMM1に GMM3 GMM2を非線形変換に変更 の動的特徴量を追加 むすび MSDモデルに基づく声質変換 の客観評価値の改善 主観評価における話者性の改善 HMM構造の有効性は確認できず 今後の課題 少量の学習データでの有効性の検証 韻律に関するコンテキストの導入