Transcript ppt

奥乃研究室 音楽情景分析グループ
音楽情景分析とは
音楽情景分析とは
• 音楽を何らかの記号表現に変換すること
e.g. 自動採譜(音楽から楽譜),
アノテーション(音楽からタグ),etc
• 1980年頃から研究がスタートし,
近年さかんになりつつある
• 学術的関心: 人間がどのように音楽を
聴いているかの解明
• 応用的意義: 音楽のディジタル配信の
増加によりニーズが拡大
奥乃研究室 音楽情景分析グループ
音高による音色変化に着目した楽器音の音源同定
音源同定とは
何が難しいのか
• 音から楽器の名前を得ること
• 同じ楽器でも,音高によって音色が異なる
• パターン認識の一分野
p(X|wpiano)
特徴抽出
(e.g. 周波数重心,
パワーの減衰速度)
p(X|wflute)
0.5
(a) Piano, C2 (65.5Hz)
0
0
-0.5
0
1
2
time [s]
どう解決するか
w = argmax p(w|X)
= argmax p(X|w) p(w)
<inst>piano</inst>
0.5
(b) Piano, C6 (1048Hz)
3 -0.50
1
2
time [s]
3
• 音高による特徴変動を基本周波
数の関数として近似(左図)
• 19楽器6,247音の実験で,
認識率:75.73% → 79.73%
参考文献 北原他:“楽器音を対象にした音源同定:
音高による音色変化を考慮する識別手法の検討”,
情処研報,2002-MUS-46, pp.1-8, 2002.
奥乃研究室 音楽情景分析グループ
定位類似度と音色類似度の統合による自動採譜
自動採譜とは
どう解決するか
• 音楽音響信号からパート毎の楽譜を得る
①定位推定の安定度に基づく周波数成分の
重なり判定
+EMアルゴリズムによる重なり推定
何が難しいのか
②音色類似度,音楽知識などの情報統合
①オクターブ関係にある音をどう区別するか
フレーム
単音
Multi Agent Model
F0推定
C4 (262Hz) only
C4 (262Hz) + C5 (524Hz)
②パートを形成するのに有効な特徴量を
どう設計するか
ス
ペ
ク
ト
ロ
グ
ラ
ム
F0追跡
Multi Agent Model
パート追跡
単
音
列
定位抽出
コード認識
パート
新パート検出
音色類似度
定位類似度
単音遷移確率
調
情
報
情
報
統
合
パ
ー
ト
単音遷移モデルDB 楽器の知識
(音域等)
参考文献 桜庭他:“音色類似度と定位類似度の統合による自
動採譜”,第65回情処全大,1P-2, 2003.
奥乃研究室 音楽情景分析グループ
教師なしクラスタリングと認識誤り補正による打楽器音認
識
入力音響信号
打楽器音の認識
• 自動採譜研究のほとんどが楽音を対象
⇒打楽器音の認識技術は未完成
• 楽音と打楽器音をともに含む音楽の
認識技術確立の第1段階として重要
何が難しいのか
①膜鳴楽器(バスドラム,スネアなど)はバリ
エーションに富み,網羅的なデータ収集が
困難
②体鳴楽器(シンバル類)は,残響が長いため
音が重なり,誤認識がおきやすい
どう解決するか
①教師なしクラスタリングを導入
②誤認識に一定のパターンがあることに
着目し,自動補正を導入
Low Pass Filter
High Pass Filter
発音時刻検出
モジュール
発音時刻検出
モジュール
特徴量抽出
モジュール
特徴量抽出
モジュール
教師なし
クラスタリング
K-NN法 (k=10)
識別結果
識別結果補正
モジュール
誤りパタン
識別結果
参考文献 吉井他:“教師なしクラスタリングと認識誤り
パターンを利用した打楽器音の音源同定”,第65回
情処全大,1P-3, 2002.