Transcript ppt
奥乃研究室 音楽情景分析グループ 音楽情景分析とは 音楽情景分析とは • 音楽を何らかの記号表現に変換すること e.g. 自動採譜(音楽から楽譜), アノテーション(音楽からタグ),etc • 1980年頃から研究がスタートし, 近年さかんになりつつある • 学術的関心: 人間がどのように音楽を 聴いているかの解明 • 応用的意義: 音楽のディジタル配信の 増加によりニーズが拡大 奥乃研究室 音楽情景分析グループ 音高による音色変化に着目した楽器音の音源同定 音源同定とは 何が難しいのか • 音から楽器の名前を得ること • 同じ楽器でも,音高によって音色が異なる • パターン認識の一分野 p(X|wpiano) 特徴抽出 (e.g. 周波数重心, パワーの減衰速度) p(X|wflute) 0.5 (a) Piano, C2 (65.5Hz) 0 0 -0.5 0 1 2 time [s] どう解決するか w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst> 0.5 (b) Piano, C6 (1048Hz) 3 -0.50 1 2 time [s] 3 • 音高による特徴変動を基本周波 数の関数として近似(左図) • 19楽器6,247音の実験で, 認識率:75.73% → 79.73% 参考文献 北原他:“楽器音を対象にした音源同定: 音高による音色変化を考慮する識別手法の検討”, 情処研報,2002-MUS-46, pp.1-8, 2002. 奥乃研究室 音楽情景分析グループ 定位類似度と音色類似度の統合による自動採譜 自動採譜とは どう解決するか • 音楽音響信号からパート毎の楽譜を得る ①定位推定の安定度に基づく周波数成分の 重なり判定 +EMアルゴリズムによる重なり推定 何が難しいのか ②音色類似度,音楽知識などの情報統合 ①オクターブ関係にある音をどう区別するか フレーム 単音 Multi Agent Model F0推定 C4 (262Hz) only C4 (262Hz) + C5 (524Hz) ②パートを形成するのに有効な特徴量を どう設計するか ス ペ ク ト ロ グ ラ ム F0追跡 Multi Agent Model パート追跡 単 音 列 定位抽出 コード認識 パート 新パート検出 音色類似度 定位類似度 単音遷移確率 調 情 報 情 報 統 合 パ ー ト 単音遷移モデルDB 楽器の知識 (音域等) 参考文献 桜庭他:“音色類似度と定位類似度の統合による自 動採譜”,第65回情処全大,1P-2, 2003. 奥乃研究室 音楽情景分析グループ 教師なしクラスタリングと認識誤り補正による打楽器音認 識 入力音響信号 打楽器音の認識 • 自動採譜研究のほとんどが楽音を対象 ⇒打楽器音の認識技術は未完成 • 楽音と打楽器音をともに含む音楽の 認識技術確立の第1段階として重要 何が難しいのか ①膜鳴楽器(バスドラム,スネアなど)はバリ エーションに富み,網羅的なデータ収集が 困難 ②体鳴楽器(シンバル類)は,残響が長いため 音が重なり,誤認識がおきやすい どう解決するか ①教師なしクラスタリングを導入 ②誤認識に一定のパターンがあることに 着目し,自動補正を導入 Low Pass Filter High Pass Filter 発音時刻検出 モジュール 発音時刻検出 モジュール 特徴量抽出 モジュール 特徴量抽出 モジュール 教師なし クラスタリング K-NN法 (k=10) 識別結果 識別結果補正 モジュール 誤りパタン 識別結果 参考文献 吉井他:“教師なしクラスタリングと認識誤り パターンを利用した打楽器音の音源同定”,第65回 情処全大,1P-3, 2002.