Transcript Slide 1
Linear Predictive Coding ve Dynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi Murat Kemal BAYGÜN Egecom Ltd. [email protected] Akademik Bilişim 2006 9-11.02.2006 DENİZLİ Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi [email protected] Ses Rabiner ve Juang: Akciğerlerden havanın dışarı atılması sonucunda oluşan hava akımının, ses sisteminde bir yerlerde sıkıştırılarak karıştırılmasından yayılan akustik dalgalardır[1]. Ses Tanıma Cole vd: Mikrofon ya da telefon tarafından alınmış akustik bir sinyalin, kelime kümesine olan çevrim işlemi olarak tanımlanmaktadır [2]. İnsanlar arası sesli iletişim Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3]. Ses Tanıma Sistemleri Nasıl Çalışır? Şekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişim sürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır. Ses Tanıma Süreci Sesin kaydedilmesi ve ifadenin saptanması Sesin işlenmesi Karşılaştırma ve eşleştirme İşlevin gerçekleştirilmesi Sesin kaydedilmesi ve ifadenin saptanması Mikrofon veya telefon gerçekleştirilmesi ile kayıt işleminin Konuşma başlangıç ve bitişinin belirlenmesi Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı (1) Sesin işlenmesi Pencereleme Filtreleme Sesin kodlanması (Özellik çıkarımı) Sesin işlenmesi – Pencereleme Şekil 3: Geliştirilen uygulama ile 8000 Hz ile örneklenerek kaydedilmiş ‘sıfır’ kelimesi için başlangıç ve bitişi saptanarak belirlenmiş ses sinyali. (2) Şekil 4: Hamming penceresinden geçirilmiş ‘sıfır’ kelimesi için ses sinyali. Sesin işlenmesi – Sesin kodlanması PCM (Linear Pulse Code Modulation) APCM (Adaptive Pulse Code Modulation) DPCM (Differential Pulse Code Modulation) ADPCM (Adapted Differential Pulse Code Modulation) DM (Delta Modulation) Sesin işlenmesi – Sesin kodlanması Bank-of-Filters LPC (Linear Predictive Coding) CELP (Code-Excited Linear Prediction) PLP (Perceptual Linear Prediction) RASTA-PLP (RelAtive SpecTrAl Technique Perceptual Linear Prediction) Karşılaştırma ve eşleştirme HMM (Hidden Markov Model) DTW (Dynamic Time Warping) Yapay Sinir Ağları İşlevin gerçekleştirilmesi Ses tanıma sisteminin, giriş olarak aldığı ses sinyalinden çıkarımını yaptığı, eşleştirilen kelimeye karşılık gelen işlevin gerçekleştirilmesi. LPC – Linear Predictive Coding (3) (4) (5) (6) LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği prensibiyle çalışır (Eş. 5). p a1, a2, ... , ap : LPC kodlayıcı seviyesi : LPC Parametreleri DTW – Dynamic Time Warping Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8]. LPC Parametreleri üzerine DTW uygulanması Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması. Geliştirilen Ses Tanıma Sistemi Modeli Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı Geliştirilen Ses Tanıma Sistemi – İş parçacıkları Ana İş Parçacığı Kuyruk Analizcisi İfade Kuyruğu Analizcisi LPC Kuyruğu Analizcisi Kaynaklar [1] Rabiner, L., Juang, B., 'Fundamentals of Speech Recognition', ISBN: 0-13-015157-2, 1993. [2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V., ‘Survey of the State of the Art in Human Language Technology’ http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995 [3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language Processing: A Guide to Theory, Algorithm and System Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-022616-5, 2001. [4] Coleman, J., ‘Introducing Speech and Language Producing’, Cambridge University Press, ISBN 0-52-153069-5, 2005. Kaynaklar [5] Smith, S.W., ‘The Scientist’s and Engineer’s Guide to Digital Signal Processing’(2nd Ed.) California Technical Publishing, ISBN 0-96-601764-1, 1999 [6] Robinson, T., ‘Speech Anaylsis Tutorial’, http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998. [7] Fingerhut, A., ‘U.S. Department of Defense LPC-10 2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc101.5.tar.gz, 1997. [8] Kale K. R., ‘Dynamic Time http://www.cnel.ufl.edu/~kkale/dtw.html, 2006. Warping’, Teşekkürler... Murat Kemal BAYGÜN Egecom Ltd. [email protected] Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi [email protected]