Transcript Document

1
Konuşma Terapisine Yönelik
Otomatik Konuşma Tanıma Yöntemleri
Oytun Türk
Levent M. Arslan
[email protected]
[email protected]
Boğaziçi Üniversitesi, Elektrik-Elektronik Müh. Bölümü,
www.busim.ee.boun.edu.tr
Sestek A.Ş., Ar-Ge Bölümü
İTÜ Ayazağa Kampüsü, ARI-1 Teknopark Binası, İstanbul
www.sestek.com.tr
2
İÇERİK
•
Konuşma İşleme ve Otomatik Konuşma Tanıma
•
Konuşma Bozuklukları ve Konuşma İşleme
•
Konuşma Tanıma Yöntemleri
•

Yalıtılmış Fonem Tanıma

Türkçe Yalıtılmış Sözcük Tanıma

Birbirine Çok Yakın Türkçe Sözcüklerin
Tanınması
Sonuçlar
AMAÇ
Türkçe konuşma terapisinde kullanılabilecek konuşma tanıma yöntemlerinin incelenmesi
3
KONUŞMA İŞLEME VE KONUŞMA TANIMA
Akustik
Analiz
Konuşma
Kodlama
Konuşma
İşleme
Konuşma
Tanıma
Konuşma
Sentezi
4
KONUŞMA TERAPİSİ
• Teşhis:
 Okuma testleri
 Akustik ölçüm: f0, tilt, jitter, shimmer, harmonikler, ...
 Fiziksel muayene, işitme testleri, ...
• Tedavi:
 Fonemlerin seslendirilmesi
 Hecelerin ve hece gruplarının seslendirilmesi
 Sözcüklerin seslendirilmesi
 Cümlelerin seslendirilmesi
 Paragraf okuma çalışmaları
 Görsel/İşitsel egzersizler
5
KONUŞMA TERAPİSİ VE KONUŞMA İŞLEME
• Yöntemler:
 Konuşma tanıma
 Akustik analiz
 Konuşma sentezi
• Avantajlar:
 Hızlı teşhis
 Terapi sürecinin izlenmesi
 Değerlendirmede nesnel ölçütlerin kullanılması
 Yardımcı yazılım araçlarının geliştirilmesi
 Kendi kendine test imkanı
6
Konuşma İşleme
Konuşma Bozuklukları
Konuşma
Tanıma
Artikülasyon
Bozuklukları
Akış
Kusurları
Süre
Analizi
Ses Kalitesi
Bozuklukları
Vurgu
Sorunları
Ses Kalitesi
Analizi
Vurgu
Analizi
Akustik
Analiz
7
İncelenen Konuşma Tanıma Yöntemleri
Üç problem:
• Yalıtılmış fonemlerin tanınması
• Sözcük listesinden tanıma
• Birbirine çok yakın sözcüklerin tanınması
Yöntem:
• Saklı Markov Modelleri’ne (SMM) dayalı
konuşma tanıma
• Mel frekansı kepstrum katsayıları, log
enerji, ötümlülük olasılığı (Pö ), fark ve ivme
parametreleri
• Enerji eşikleme tabanlı konuşma
başlangıç/bitiş anı sezimi
Fonem Türü
Fonem
Çifti
Örnek
Diş-dudak
ünsüzleri
/f/-/v/
defa – deva
Dil ucu-Dişeti
ünsüzleri
/s/-/z/
/t/-/d/
kas – kaz
katı - kadı
Dişeti-damak
ünsüzleri
/ş/-/j/
/c/-/ç/
beş – bej
cam – çam
Çift dudak
ünsüzleri
/p/-/b/
put – but
Art damak
ünsüzleri
/k/-/g/
kar – gar
Dişeti ünsüzü ve
sert (ön) damak
ünsüzü
/r/-/y/
bir – biy
Türkçe’de sıklıkla birbirine
karıştırılan fonem çiftleri
8
Yalıtılmış Fonem Tanıma
Veritabanı: 14 fonem (x5), 16 KHz, ~2 s.
12 konuşmacı (4 bayan, 8 bay), 20-36 yaş
Çapraz-geçerleme: (11 kişi eğitim, 1 kişi test) x 12
Ünlüler
/a/, /e/, /ı/, /i/, /o/, /ö/, /u/, /ü/
Ünsüzler
/f/, /j/, /s/, /ş/, /v/, /z/
Yalıtılmış fonem tanımada kullanılan fonemler
9
Yalıtılmış Fonem Tanıma: Sonuçlar
Ortalama: %84.9 (σ = 6.8)
En düşük: /ı/ (%63.3)
/u/ (%77.5)
/ü/ (%79.6)
En çok hata: /ı//ö/ (%34.7)
/o//u/ (%16.3)
/u//o/ (%14.3)
Fonem tanıma oranları (%)
10
Türkçe Yalıtılmış Sözcük Tanıma
Veritabanı: Terapide kullanılan 126 sözcük, 16 KHz
11 konuşmacı (4 bayan, 7 bay), 20-36 yaş
Model: N+2 durumlu SMM (N = fonem sayısı)
Her durum 2 bileşenli GKM
MFKK + Log enerji + Pö + Fark parametreleri
Çapraz-geçerleme: (10 kişi eğitim, 1 kişi test) x 11
Eğitim ve Test
Tanıma Oranı
Konuşmacı bağımsız
%94.2
Konuşmacı bağımlı
%97.2
126 Türkçe sözcük için tanıma oranları
11
Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması
Veritabanı:
24 sözcük çifti (x5), 16 KHz
9 kişi (4 bayan, 5 bay), 20-36 yaş
Model:
N+2 durumlu SMM
Her durum 2 bileşenli GKM
MFKK + Log en. + Pö + Fark
Çapraz-geçerleme:
(8 kişi eğitim, 1 kişi test) x 9
Konuşmacı bağımlı
Birbirine çok yakın
sözcükler
12
Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması
Eğitim ve Test
Tanıma Oranı
Konuşmacı bağımsız
%80.3
Konuşmacı bağımlı
%88.0
Ortalama tanıma oranları
En az hata: /r/-/y/ (%1.7)
/t/-/d/ (%2.5)
En çok hata: /k/-/g/ (%25.0)
/c/-/ç/ (%16.7)
Konuşmacı bağımlı tanıma oranları
13
SONUÇLAR
• /ı/-/ö/ için tanıma oranı düşük
• Hastaya uyarlanabilir terapi yazılımı geliştiriliyor
• Yöntemler terapiste yardımcı olabilecek
Konuşma terapisine yönelik konuşma tanıma yöntemleri için tanıma oranları
(*) Birbirine çok yakın sözcükler
14
SESTEK YAZILIMLARI
Ünlü Tanıma
Terapist (Prototip)
15
TARTIŞMA
• Disiplinlerarası ortak çalışma gerekli: Mühendislik, Tıp, Dilbilim, Psikoloji, Pedagoji, ...
• Türkçe fonetik – B.Ü. Dilbilim bölümüyle: http:\\www.busim.ee.boun.edu.tr\speech\speech.html
• Türkçe için temel incelemelerin gerçekleştirilmesi:
Türk, O., Şayli, Ö., Özsoy, S. ve Arslan, L., “Türkçe’de Ünlüler Formant Frekans İncelemesi”, 18. Ulusal Dilbilim Konferansı
(Ankara, Mayıs 2004)
Arısoy, E., Özsoy S., Arslan, L., Türk, O., ... “Acoustic Analysis of Turkish Sounds”
2004 (İzmir, Ağustos 2004)
ICTL
• Türkçe terapi testleri tasarlanmalı: Artikülasyon testleri, akış testleri, vurgu testleri, ses kalitesi testleri, ...
Türk, O. Ve Arslan, L., “Pronunciation Scoring for the Hearing-Impaired”, SPECOM (St. Petersburg, Rusya, Eylül 2004)
KAYNAKÇA
[1] Russel, M., Brown, C., Skilling, A., Series, R., Wallace, J., Bonham, B. ve Barker, P., “Applications of Automatic Speech Recognition to Speech and Language
Development in Young Children”, Proceedings of ICSLP 1996, Philedelphia, PA, ABD, 1996, sf. 176-179.
[2] Neumeyer, L. F. H., Weintraub, M. ve Price, P., “Pronunciation Scoring of Foreign Language Student Speech”, Proceedings of ICSLP 1996, Philedelphia, PA,
ABD, 1996, sf. 1457-1460.
[3] Neumeyer, L. F. H., Digalakis, V. ve Weintraub, M., “Automatic scoring of pronunciation quality”, Speech Communication, 30 (2-3), sf. 83-93, 2000.
[4] Bunnell, H. T., Yarrington, D. M., ve Polikoff, J. B., “STAR: Articulation training for young children”, Proceedings of ICSLP 2000, c. 4, sf. 85-88.
[5] Witt, S. M. ve Young, S. J., “Phone-level pronunciation scoring and assessment for interactive language learning”, Speech Communication, 30 (23), sf. 95-108, 2000.
[6] Chanwoo K. C. ve Sung, W., “Implementation of an intonational quality assessment system”, Proceedings of ICSLP 2002, Denver, Colorado,
ABD, c. 2, sf. 1225-1228.
[7] Rabiner, L. R. ve Juang, B.-H., Fundamentals of Speech Recognition, Prentice-Hall, Inc., New Jersey, NJ, 1993.
[8] Girgin, C., M., Türkçe konuşan doğal işitsel sözel yöntemle eğitim gören işitme engelli kız çocukların konuşma anlaşılırlığı ile süre ve perde
özellikleri ilişkisi, Anadolu Üniversitesi Yayınları, No. 1167., Eğitim Fakültesi Yayınları, No. 63., 1999.