TDA-tabanl* Çoksesli Müzik Notaland*rma

Download Report

Transcript TDA-tabanl* Çoksesli Müzik Notaland*rma

SVD-based Polyphonic Music Transcription
İ. Arı, U. Şimşekli, A. T. Cemgil ve L. Akarun
18.04.2012, SİU’12, Fethiye, Muğla
http://www.cmpe.boun.edu.tr/pilab
?
la2 mi3 do♯5
TDA-tabanlı Çoksesli Müzik Notalandırma
2
...
Teksesli kayıtlar
 𝑐 = 88 nota
 𝐷𝑖 𝑓, 𝜏𝑖 : spektrogram değerleri
 𝑓 = 1, … , 𝐹: frekans indisi
 𝑁𝑖 : nota başına örnek sayısı
88
 𝑁=
𝑖=1 𝑁𝑖
𝐷3 𝑓, 𝜏3 , 𝜏3 = 1, … , 𝑁3
Çoksesli kayıtlar
 𝑋 𝑓, 𝑡 : spektrogram
değerleri
TDA-tabanlı Çoksesli Müzik Notalandırma
3
𝑐
𝑋 :,𝑡 ≈
𝑤𝑖 𝐷𝑖 : , 𝜏𝑖
𝑖=1
TDA-tabanlı Çoksesli Müzik Notalandırma
4

𝑑 ⋅ || ⋅ uzaklık fonksiyonu olmak üzere, en küçük
𝑐
𝑑 𝑋 : , 𝑡 ||
𝑤𝑖 𝐷𝑖 : , 𝜏𝑖
𝑖=1
değerini veren sonucu bul.
 Katışımsal (combinatorial) çözüm
 Zaman karmaşıklığı = 𝑂 F
𝑐
𝑖=1 𝑁𝑖
üssel 
 Yer karmaşıklığı = 𝑂 𝐹𝑁
TDA-tabanlı Çoksesli Müzik Notalandırma
5
...
D ∈ R𝐹×𝑁
D: katalog matrisi‡

𝑋 : , 𝑡 ≜ x ≈ Dw
 D’nin her sütunu, x ve w düzgelenmiş.
düzgele
eşikleme
ağırlıkları
hesapla
w
yap
la2 mi3 do♯5
x
†TDA: Tekil Değer Ayrışımı (Singular Value Decomposition)
‡P. Smaragdis, «Polyphonic
pitch tracking by example,» IEEE WASPAA, 2011, sf. 125–128.
TDA-tabanlı Çoksesli Müzik Notalandırma
6

En küçük 𝑑 x||Dw değerini veren w değerini bul.
 Aynı zamanda w seyrek olsun!

Uzaklık ölçüsü olarak KL-ıraksayı kullanıldığında
x
1. w ← w ⊙ D
Dw
w2
2. w ← w + 𝜆
w 22
w
3. w ←
w1
𝑇
Zaman karmaşıklığı = 𝑂(𝐹𝑁)
Yer karmaşıklığı = 𝑂(𝐹𝑁)
TDA-tabanlı Çoksesli Müzik Notalandırma
7


Katalog matrisi çok büyük! Ör: F ≈ 103 , 𝑁 ≈ 105
Çözüm: Matris ayrışımları
 Tekil Değer Ayrışımı (Singular Value Decomposition)
düşük mertebeli en iyi yaklaşımı verir:
D𝑘 = U𝑘 Σ𝑘 V𝑘𝑇 = U𝑘 V𝑘𝑇


Geleneksel TDA masraflı 𝑂 min 𝐹𝑁 2 ; 𝐹 2 𝑁
Çözüm: Rassallaştırılmış TDA† 𝑂 𝐹 + 𝑁 𝑘
1. w ← w ⊙
V𝑘
U𝑘𝑇
f𝑧
U𝑘 V𝑘𝑇w
† N. Halko, P. G. Martinsson, and J. A. Tropp, «Finding Structure with Randomness:
Probabilistic Algorithms for Constructing Approximate Matrix Decompositions,» SIAM Review, 2011.
TDA-tabanlı Çoksesli Müzik Notalandırma
8
Zaman
Yer
𝑐
𝐹
En yakın alt-uzay
𝑁𝑖
𝐹𝑁
𝑖=1
Doğrusal model (tam çözüm)
Doğrusal model (TDA)
𝐹𝑁
𝐹𝑁
𝐹+𝑁 𝑘
𝐹+𝑁 𝑘
TDA-tabanlı Çoksesli Müzik Notalandırma
9

Eğitim kümesi
 440 teksesli piyano örneği
 D ∈ R1025×115600
(yaklaşık 860 MB)

Test kümesi
 5 çoksesli piyano örneği
▪ her birinden 4er rastgele bölüm
 Toplam 3000 örnek
TDA-tabanlı Çoksesli Müzik Notalandırma
10
Çokseslilik derecesi (aynı anda basılan nota sayısı)
TDA-tabanlı Çoksesli Müzik Notalandırma
11
kesinlik precision
bulunan notaların
doğruluk oranı
geri getirme recall
doğru notaların ne
kadarının bulunduğu
f-ölçüsü f-measure
=
TDA-tabanlı Çoksesli Müzik Notalandırma
2 × kesinlik × geri getirme
kesinlik + geri getirme
12
TAM-ÇÖZÜM
TDA-200
TDA-tabanlı Çoksesli Müzik Notalandırma
13
TDA-tabanlı Çoksesli Müzik Notalandırma
14
TDA-tabanlı Çoksesli Müzik Notalandırma
15