Transcript Slide 1

Linear Predictive Coding
ve Dynamic Time Warping
Teknikleri Kullanılarak
Ses Tanıma Sistemi
Geliştirilmesi
Murat Kemal BAYGÜN
Egecom Ltd.
[email protected]
Akademik Bilişim 2006
9-11.02.2006
DENİZLİ
Yard. Doç. Dr. A. Kadir YALDIR
Pamukkale Üniversitesi
[email protected]
Ses

Rabiner ve Juang:
Akciğerlerden havanın dışarı atılması
sonucunda oluşan hava akımının, ses
sisteminde bir yerlerde sıkıştırılarak
karıştırılmasından
yayılan
akustik
dalgalardır[1].
Ses Tanıma

Cole vd:
Mikrofon ya da telefon tarafından alınmış
akustik bir sinyalin, kelime kümesine olan
çevrim işlemi olarak tanımlanmaktadır [2].
İnsanlar arası sesli iletişim
Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].
Ses Tanıma Sistemleri Nasıl Çalışır?
Şekil
2:
Ses
Tanıma
sistemleri,
insanlar
arası
sesli
iletişim
sürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.
Ses Tanıma Süreci




Sesin kaydedilmesi ve ifadenin
saptanması
Sesin işlenmesi
Karşılaştırma ve eşleştirme
İşlevin gerçekleştirilmesi
Sesin kaydedilmesi ve ifadenin
saptanması


Mikrofon veya telefon
gerçekleştirilmesi
ile
kayıt
işleminin
Konuşma başlangıç ve bitişinin belirlenmesi
Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı
(1)
Sesin işlenmesi



Pencereleme
Filtreleme
Sesin kodlanması (Özellik çıkarımı)
Sesin işlenmesi – Pencereleme
Şekil 3: Geliştirilen uygulama ile 8000 Hz ile
örneklenerek kaydedilmiş ‘sıfır’ kelimesi için
başlangıç ve bitişi saptanarak belirlenmiş ses
sinyali.
(2)
Şekil 4: Hamming penceresinden geçirilmiş
‘sıfır’
kelimesi
için
ses
sinyali.
Sesin işlenmesi – Sesin kodlanması





PCM (Linear Pulse Code Modulation)
APCM (Adaptive Pulse Code Modulation)
DPCM (Differential Pulse Code Modulation)
ADPCM (Adapted Differential Pulse Code
Modulation)
DM (Delta Modulation)
Sesin işlenmesi – Sesin kodlanması





Bank-of-Filters
LPC (Linear Predictive Coding)
CELP (Code-Excited Linear Prediction)
PLP (Perceptual Linear Prediction)
RASTA-PLP (RelAtive SpecTrAl Technique Perceptual Linear Prediction)
Karşılaştırma ve eşleştirme



HMM (Hidden Markov Model)
DTW (Dynamic Time Warping)
Yapay Sinir Ağları
İşlevin gerçekleştirilmesi

Ses tanıma sisteminin, giriş olarak aldığı
ses sinyalinden çıkarımını yaptığı,
eşleştirilen kelimeye karşılık gelen işlevin
gerçekleştirilmesi.
LPC – Linear Predictive Coding
(3)
(4)
(5)
(6)
LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği
prensibiyle çalışır (Eş. 5).
p
a1, a2, ... , ap
: LPC kodlayıcı seviyesi
: LPC Parametreleri
DTW – Dynamic Time Warping
Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].
LPC Parametreleri üzerine DTW
uygulanması
Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.
Geliştirilen Ses Tanıma Sistemi Modeli
Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı
Geliştirilen Ses Tanıma Sistemi –
İş parçacıkları




Ana İş Parçacığı
Kuyruk Analizcisi
İfade Kuyruğu Analizcisi
LPC Kuyruğu Analizcisi
Kaynaklar




[1]
Rabiner, L., Juang, B., 'Fundamentals of Speech
Recognition', ISBN: 0-13-015157-2, 1993.
[2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V.,
‘Survey of the State of the Art in Human Language Technology’
http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995
[3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language
Processing: A Guide to Theory, Algorithm and System
Development’(1st
Ed.) Prentice Hall PTR, ISBN 0-13-022616-5,
2001.
[4]
Coleman, J., ‘Introducing Speech and Language
Producing’, Cambridge University Press, ISBN 0-52-153069-5,
2005.
Kaynaklar




[5]
Smith, S.W., ‘The Scientist’s and Engineer’s Guide to
Digital Signal Processing’(2nd Ed.) California Technical Publishing,
ISBN 0-96-601764-1, 1999
[6]
Robinson, T., ‘Speech Anaylsis Tutorial’,
http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998.
[7]
Fingerhut, A., ‘U.S. Department of Defense LPC-10
2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc101.5.tar.gz, 1997.
[8]
Kale
K.
R.,
‘Dynamic
Time
http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.
Warping’,
Teşekkürler...
Murat Kemal BAYGÜN
Egecom Ltd.
[email protected]
Yard. Doç. Dr. A. Kadir YALDIR
Pamukkale Üniversitesi
[email protected]