Transcript Slide 1
Linear Predictive Coding
ve Dynamic Time Warping
Teknikleri Kullanılarak
Ses Tanıma Sistemi
Geliştirilmesi
Murat Kemal BAYGÜN
Egecom Ltd.
[email protected]
Akademik Bilişim 2006
9-11.02.2006
DENİZLİ
Yard. Doç. Dr. A. Kadir YALDIR
Pamukkale Üniversitesi
[email protected]
Ses
Rabiner ve Juang:
Akciğerlerden havanın dışarı atılması
sonucunda oluşan hava akımının, ses
sisteminde bir yerlerde sıkıştırılarak
karıştırılmasından
yayılan
akustik
dalgalardır[1].
Ses Tanıma
Cole vd:
Mikrofon ya da telefon tarafından alınmış
akustik bir sinyalin, kelime kümesine olan
çevrim işlemi olarak tanımlanmaktadır [2].
İnsanlar arası sesli iletişim
Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].
Ses Tanıma Sistemleri Nasıl Çalışır?
Şekil
2:
Ses
Tanıma
sistemleri,
insanlar
arası
sesli
iletişim
sürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.
Ses Tanıma Süreci
Sesin kaydedilmesi ve ifadenin
saptanması
Sesin işlenmesi
Karşılaştırma ve eşleştirme
İşlevin gerçekleştirilmesi
Sesin kaydedilmesi ve ifadenin
saptanması
Mikrofon veya telefon
gerçekleştirilmesi
ile
kayıt
işleminin
Konuşma başlangıç ve bitişinin belirlenmesi
Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı
(1)
Sesin işlenmesi
Pencereleme
Filtreleme
Sesin kodlanması (Özellik çıkarımı)
Sesin işlenmesi – Pencereleme
Şekil 3: Geliştirilen uygulama ile 8000 Hz ile
örneklenerek kaydedilmiş ‘sıfır’ kelimesi için
başlangıç ve bitişi saptanarak belirlenmiş ses
sinyali.
(2)
Şekil 4: Hamming penceresinden geçirilmiş
‘sıfır’
kelimesi
için
ses
sinyali.
Sesin işlenmesi – Sesin kodlanması
PCM (Linear Pulse Code Modulation)
APCM (Adaptive Pulse Code Modulation)
DPCM (Differential Pulse Code Modulation)
ADPCM (Adapted Differential Pulse Code
Modulation)
DM (Delta Modulation)
Sesin işlenmesi – Sesin kodlanması
Bank-of-Filters
LPC (Linear Predictive Coding)
CELP (Code-Excited Linear Prediction)
PLP (Perceptual Linear Prediction)
RASTA-PLP (RelAtive SpecTrAl Technique Perceptual Linear Prediction)
Karşılaştırma ve eşleştirme
HMM (Hidden Markov Model)
DTW (Dynamic Time Warping)
Yapay Sinir Ağları
İşlevin gerçekleştirilmesi
Ses tanıma sisteminin, giriş olarak aldığı
ses sinyalinden çıkarımını yaptığı,
eşleştirilen kelimeye karşılık gelen işlevin
gerçekleştirilmesi.
LPC – Linear Predictive Coding
(3)
(4)
(5)
(6)
LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği
prensibiyle çalışır (Eş. 5).
p
a1, a2, ... , ap
: LPC kodlayıcı seviyesi
: LPC Parametreleri
DTW – Dynamic Time Warping
Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].
LPC Parametreleri üzerine DTW
uygulanması
Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.
Geliştirilen Ses Tanıma Sistemi Modeli
Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı
Geliştirilen Ses Tanıma Sistemi –
İş parçacıkları
Ana İş Parçacığı
Kuyruk Analizcisi
İfade Kuyruğu Analizcisi
LPC Kuyruğu Analizcisi
Kaynaklar
[1]
Rabiner, L., Juang, B., 'Fundamentals of Speech
Recognition', ISBN: 0-13-015157-2, 1993.
[2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V.,
‘Survey of the State of the Art in Human Language Technology’
http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995
[3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language
Processing: A Guide to Theory, Algorithm and System
Development’(1st
Ed.) Prentice Hall PTR, ISBN 0-13-022616-5,
2001.
[4]
Coleman, J., ‘Introducing Speech and Language
Producing’, Cambridge University Press, ISBN 0-52-153069-5,
2005.
Kaynaklar
[5]
Smith, S.W., ‘The Scientist’s and Engineer’s Guide to
Digital Signal Processing’(2nd Ed.) California Technical Publishing,
ISBN 0-96-601764-1, 1999
[6]
Robinson, T., ‘Speech Anaylsis Tutorial’,
http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998.
[7]
Fingerhut, A., ‘U.S. Department of Defense LPC-10
2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc101.5.tar.gz, 1997.
[8]
Kale
K.
R.,
‘Dynamic
Time
http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.
Warping’,
Teşekkürler...
Murat Kemal BAYGÜN
Egecom Ltd.
[email protected]
Yard. Doç. Dr. A. Kadir YALDIR
Pamukkale Üniversitesi
[email protected]