Department of Electrical Engineering Southern Taiwan University 半球面麥克風陣列架構 之聲源定位系統之研究 研 究 生:陳瑾鍵 指導老師:謝銘原博士 南台科技大學電機工程系 Robotic Interaction Learning Laboratory.
Download
Report
Transcript Department of Electrical Engineering Southern Taiwan University 半球面麥克風陣列架構 之聲源定位系統之研究 研 究 生:陳瑾鍵 指導老師:謝銘原博士 南台科技大學電機工程系 Robotic Interaction Learning Laboratory.
Department of Electrical Engineering Southern Taiwan University
半球面麥克風陣列架構
之聲源定位系統之研究
研 究 生:陳瑾鍵
指導老師:謝銘原博士
南台科技大學電機工程系
Robotic Interaction Learning Laboratory
1
Department of Electrical Engineering Southern Taiwan University
大綱
摘要
前言
研究動機與目的
三維聲源定位系統之系統架構
三維聲源定位系統之系統架構
三維聲源定位系統之動作流程
三維聲源定位系統之硬體系統
半球面聲源接收系統
類比數位轉換系統
Robotic Interaction Learning Laboratory
2
Department of Electrical Engineering Southern Taiwan University
大綱
聲源方位判定系統架構分析
能量門檻值設定
聲源方位初步判定
聲源定位技術
聲源高低判斷
模糊聲源定位演算法
模糊聲源遠近演算法
實驗結果
結論
Robotic Interaction Learning Laboratory
3
Department of Electrical Engineering Southern Taiwan University
摘要
本文提出一聲源定位系統之設計方法,可應用於機器人聽
覺系統之聽聲辨位功能。
此系統之聲源接收系統是由12顆電容式麥克風分上下兩層
置於一直徑19公分的半球面上;上層圓周以間隔90°排列4
顆麥克風,下層圓周則以間隔45°排列8顆麥克風。為一球
面麥克風陣列
本論文利用模糊聲源定位演算法,依麥克風間的能量關係
推算出較確切的聲源方位, 並在不同的環境條件下作測試。
Robotic Interaction Learning Laboratory
4
Department of Electrical Engineering Southern Taiwan University
前言(1/2)
聲音可說是人類與自然界中最早使用的訊號,也是最直接
的通訊方式,人與人之間之互動大多透過聲音,所以聽覺
系統方面的研究變成當前ㄧ重要課題。
機器人的聽覺功能多利用取音裝置(如麥克風)接受聲波
後,轉換成電壓來進行語音及語意之辨識,這如同人類的
耳朵接收到聲音,轉換成訊號刺激大腦一般。
Robotic Interaction Learning Laboratory
5
Department of Electrical Engineering Southern Taiwan University
前言(2/2)
避免接收過多的雜訊,影響辨識的結果
頭戴式麥克風
免持式麥克風陣列
使用者不便,長期配帶造成不舒服。
可克服環境噪音和回音對語音訊號的影響,還原出較乾淨的語音。
立體式麥克風陣列
立體式麥克風陣列
優點:多方考慮說話者的方位,在判斷角度可以更加精確 。
缺點:三維的快速傅立葉轉換,增加了運算上的複雜性與花費時間。
平面式麥克風陣列
優點:減少計算的繁雜,快速即時做出對應動作。
缺點:偵測高度受限。
Robotic Interaction Learning Laboratory
6
Department of Electrical Engineering Southern Taiwan University
研究動機與目的(1/2)
許多科學家或是工程師所努力的目標
將機器人融入我們的生活之中 ,成為家庭的一份子
兼顧實用性與人性化的考量
賦予機器人擁有像人一樣的感知
未來智慧型機器人若要提高人機之間的互動功能,以聲音
為主的互動是不可或缺的重要部份,要有好的語音互動溝
通,聲源定位系統扮演著極重要的一環。
Robotic Interaction Learning Laboratory
7
Department of Electrical Engineering Southern Taiwan University
研究動機與目的(2/2)
人類兩個耳朵可以完成的聽覺功能,聽覺系統卻無法只依
據兩個聲音感知器來達成,因此麥克風陣列的研究與運用,
扮演著聽覺系統功能與效率的關鍵。
Robotic Interaction Learning Laboratory
8
Department of Electrical Engineering Southern
Taiwan University
聲源訊號
二級放
大電路
球面麥克
風陣列
三維聲源定位系統之系統架構
帶通濾
波電路
聲源接
收系統
電池&
電源整合
電路
本文所提出的系統架構大致可分成聲源接收系統、類比數
位轉換系統、聲源方位判定系統 、馬達驅動系統。
聲
源
定
位
系
統
類比數位
轉換系統
USB-4711
FSLA
聲源方位
判定系統
門檻
值設定
馬達趨
動器
馬達驅
動系統
FPGA
控制板
機器人
相對位
置調整
Robotic Interaction Learning Laboratory
9
Department of Electrical Engineering Southern Taiwan University
半球面麥
克風陣列
12筆訊號
三維聲源定位系統之動作流程
二級放大電路
聲源接
收系統
12筆訊號
帶通濾波器
12筆訊號
類比數位
轉換系統
類比數位轉換
12筆訊號
門檻值偵測
12筆訊號
取得麥克風各別能量
聲源方位
判定系統
12筆訊號
8筆訊號
下層進行能量比較
8筆訊號
取能量較大的2個
2筆訊號
8筆訊號
取能量較大的3個
加總後取平均
2筆訊號
聲源方位
判定系統
全部進行能量比較
12筆訊號
取能量大的1個
單筆訊號
FSLA
與對應的上層麥
克風進行比較
距離模糊運算
得知聲源與定位系
統之間的角度關係
判斷聲源與定位系
統之間的高低關係
得知聲源與定位
之間的距離關係
機器人相對應的位置
Robotic Interaction Learning Laboratory
10
Department of Electrical Engineering Southern Taiwan University
音訊接收元件 (1/2)
電容式麥克風對於來自不同角度聲音的收音靈敏度可分為
全指向式
單一指向式
雙指向式
圖3. 電容式麥克風指向示意圖
Robotic Interaction Learning Laboratory
11
Department of Electrical Engineering Southern Taiwan University
音訊接收元件(2/2)
本文選擇使用今音電子公司所開發的ECM-60P全向性電容
式麥克風
對聲音訊號反應靈敏
體積小
便宜容易運用
圖4. ECM-60P 外觀圖
Robotic Interaction Learning Laboratory
圖5. ECM-60P 內部電路圖
12
Department of Electrical Engineering Southern Taiwan University
音訊接收電路設計與實體
圖6. 本系統之麥克風電路圖
圖7. 本系統麥克風電路實體
Robotic Interaction Learning Laboratory
13
Department of Electrical Engineering Southern Taiwan University
半球面麥克風陣列
為了可以判斷出聲源的高低關係
,本文研製一球面麥克風陣列
球面直徑:19cm
上層配置:4顆電容式麥克風,間隔為90°
下層配置:8顆電容式麥克風,間隔為45°
圖8. 本系統遮罩實體圖
為了增加麥克風收音的指向性,本論
文特別設置遮罩裝置,將其裝置於球
面麥克風陣列下層之8顆麥克風上
圖9. 本系統之麥克風陣列實體圖
Robotic Interaction Learning Laboratory
14
Department of Electrical Engineering Southern Taiwan University
聲源放大與濾波電路設計(1/2)
本文所設計之聲源放大濾波電路之特點
IC上本文選擇使用LM324
二級放大電路(Gain:10~10000)
帶通濾波器(HPF:20Hz LPF:7KHz)
擁有穩壓IC可直接供給麥克風電路所需的電壓
電路板實體只有6×7的大小
Robotic Interaction Learning Laboratory
15
Department of Electrical Engineering Southern Taiwan University
聲源放大與濾波電路設計(2/2)
圖10. 以LM324所規劃的二級放大電路以及帶通濾波電路
圖11. 二級放大與帶通濾波電路實體圖
Robotic Interaction Learning Laboratory
16
Department of Electrical Engineering Southern Taiwan University
電源整合電路與電源選擇
電源整合電路
總電源分接12組電源供給電路
選用外接式電池做為電源供給
體積小,方便與機器人結合
供電較穩定
圖12. 電源整合電路圖
圖14. 外接式電池時體圖
Robotic Interaction Learning Laboratory
圖13. 電源整合電路實體圖
17
Department of Electrical Engineering Southern Taiwan University
類比數位轉換系統
USB-4711
具有16通道的類比輸入可提供本系統
USB介面提供系統與電腦間最佳傳輸
集線器於設備上增加空間運用
8 digital input/output channels
2 analog output channel
圖15. USB-4711實體圖
Robotic Interaction Learning Laboratory
18
Department of Electrical Engineering Southern Taiwan University
聲源方位判定系統架構分析
90˚
a3
Microphone
135˚ a4
半球面麥克風下層配置
8顆電容式麥克風以等角度分
隔(45°)配置
每顆麥克風都有各自代表的
角度
45˚
a2
Mic
number
PM
VM
Z
VB
a5
PB
180˚
0˚
a1
球面狀麥克風陣列下層配置圖
a6
225˚
a8 315˚
a7
270˚
圖16. 半球面麥克風陣列下層配置之示意圖
Robotic Interaction Learning Laboratory
19
Department of Electrical Engineering Southern Taiwan University
設計能量門檻值
從能量曲線上做判斷,能量大於某個門檻值就是語音,否則
就不是。
本文採用每0.5sec就擷取音訊一次,這個音段即為一個音框
大小,直接去對此音段去做分析,不再切割音框。
經過測試發現,在一般室內的空間中,雜訊經由球面麥克風
陣列接收進來後,透過二級放大、濾波後所輸出能量大小大
約低於0.5V,因此本研究以0.5V為能量門檻值,來區分是否
為有聲段或是無聲段。
Robotic Interaction Learning Laboratory
20
Department of Electrical Engineering Southern Taiwan University
源方位初步判定
經過初步的測試之後,發現在一般室內空間中,本文得到
的振幅大小大約為0~2.5V之間
下層8顆麥克風能量振幅做一比較,取較大兩顆,即可視
此兩顆角度為可能聲源所在方位,其中我們將能量較大的
(即為8顆麥克風中能量最大的)視為參考方位,而其所在角
度視為基礎參考角度 b 。
Robotic Interaction Learning Laboratory
21
Department of Electrical Engineering Southern Taiwan University
聲源定位技術
近來對於聲音源定位的方式,大多使用明確的語音模組來
進行。
聲源的定位必須考量到許多的環境因素,例如:環境中的
雜訊、測試環境中的空間反射、回響等。
本文使用之定位技巧與技術
使用球面麥克風陣列來擔任聲源接收的角色,利用此裝置來抑制接
收過多的環境噪音
規劃帶通濾波器來濾除麥克風陣列所接收到雜訊,盡量保留住人聲
的頻率範圍來進行後置的定位運算,讓聲源的定位有更好的效果。
提出一個聲源定位模糊演算法
Robotic Interaction Learning Laboratory
22
Department of Electrical Engineering Southern Taiwan University
聲源高低判斷之架構分析
90˚
文提出球面麥克風陣列在判斷聲源
角度的同時也可初步判斷出聲源與
麥克風陣列的高低關係。
a3
135˚ a4
45˚
a2
Mic
number
b2
b3
a5
180˚
假設a8、a1、a2的能量為下層最大的三個,
取這三顆麥克風的能量平均值再與所對
應的上層麥克風也就是b1的能量值加以
比較。
假設a7、a8、a1的能量為下層最大的三個,
取這三顆麥克風的能量平均值,其平均
的值再與所對應的上層麥克風也就是b1
與b4的能量平均值加以比較。
Robotic Interaction Learning Laboratory
0˚
b1
a1
b4
a6
225˚
Microphone
a8 315˚
a7
270˚
圖17. 聲源高低比較示意圖
23
Department of Electrical Engineering Southern Taiwan University
聲源定位模糊演算法(1/2)
爲了能夠精確的定位聲源角度方位,吾等建立了一聲源定位
模糊演算法( Fuzzy Sound Localization Algorithm , FSLA)
來進行運算,進一部提高聲源角度定位的準確性。
系統以下層得到較大能量的兩個麥克風的電壓當作其輸入
能量最大一顆的電壓為Vmax1,其所在的基礎參考方位角度為 1
次大之一顆之電壓為Vmax2,其所在的基礎參考方位角度為 2
經過聲源定位模糊演算法進行運算後後會一個補償角度
Robotic Interaction Learning Laboratory
f
24
Department of Electrical Engineering Southern Taiwan University
聲源定位模糊演算法(2/2)
正確的聲源角度為總基礎參
考方位角度 b 加或減補償角 f
總基準參考角 b 1
out b f , when
聲源角度 , when
out b f
VS
1 2
1 2
表1. SLFA之規則庫
S
M
B
VB
1.0
1.5
2.0
2.5
1
0.5
圖18. 輸入(Input, V1, V2)之歸屬函數
PB
VB
Z
VM
PM
33.75
45
1
0
Robotic Interaction Learning Laboratory
11.25
22.5
圖19. 輸出(Output, )之歸屬函數
25
Department of Electrical Engineering Southern Taiwan University
聲源距離模糊演算(1/3)
以三種不同的聲源當做語料的輸入,分別在50cm~250cm
之間以每50cm為一間距,量測出不同聲源及不同距離之間
的能量關係。
據此三種聲源在不同距離所求得能量大小平均,做為往後
運算的對應數值
據測量之結果提出一簡單的距離模糊演算法,來求得聲源
與麥克風陣列之間的距離關係。
Robotic Interaction Learning Laboratory
26
Department of Electrical Engineering Southern Taiwan University
聲源距離模糊演算(2/3)
表2. 不同聲源與麥克風距離與電壓大小相對關係
聲源樣式
手機鈴聲
已錄製真人語音
(哈囉星際戰將)
敲打鍋子
測試距離
能量大小
比例關係
50cm
2.5V
Vx
100cm
1.93V
0.772Vx
150cm
1.38V
0.520Vx
200cm
0.96V
0.384Vx
250cm
0.5V
0.200VX
50cm
2.44V
Vx
100cm
1.92V
0.787Vx
150cm
1.32V
0.528Vx
200cm
0.94V
0.385Vx
250cm
0.52V
0.208Vx
50cm
2.52V
Vx
100cm
1.96V
0.778Vx
150cm
1.36V
0.540Vx
200cm
1V
0.400Vx
250cm
0.6V
0.240Vx
Robotic Interaction Learning Laboratory
表3. 不同聲源與距離平均關係
測試距離
平均比例關係
參考電壓
50cm
Vx
2.49V
100cm
0.78Vx
1.94V
150cm
0.54Vx
1.34V
200cm
0.39Vx
0.97V
250cm
0.22Vx
0.54V
27
Department of Electrical Engineering Southern Taiwan University
聲源距離模糊演算(2/2)
VL
L
A
H
VH
1
VF
F
M
N
VN
250
200
150
100
50
1
0.54
0.97
1.34
1.94
2.49
圖20. 輸入(Vb)歸屬函數
圖21. 輸出(d)歸屬函數
表4. 距離運算模糊規則庫
Robotic Interaction Learning Laboratory
28
Department of Electrical Engineering Southern Taiwan University
系統實體圖
圖22. 半球面麥克風陣列聲源定位系統
Robotic Interaction Learning Laboratory
29
Department of Electrical Engineering Southern Taiwan University
實驗空間說明
實驗室的長約9.8m寬
約7.6m
黃色:球面麥克風陣
列聲源定位系統
紅色:書櫃其高度大
概為2公尺
紫色:置物架
綠色:置物桌
淡藍色:冷氣機
4m
環境參數
1800.0 mm x 800.0 mm
9.8m
7.6m
圖23. 實驗室之環境配置圖
Robotic Interaction Learning Laboratory
30
Department of Electrical Engineering Southern Taiwan University
聲源設定
因為環境因素的干擾而造成音波振幅的不同,會造成聲源
定位的準確性下降,因此我們預先錄製一段手機的鈴聲作
為聲源的樣本 ,在錄製手機鈴聲時手機距離麥克風大約
為40公分。
圖24. 手機鈴聲之振幅
Robotic Interaction Learning Laboratory
圖25. 移動聲源測試時之手機
31
Department of Electrical Engineering Southern Taiwan University
操作介面介紹
為了讓使用者可以方便的操作本
系統,吾等使用Visual C++ MFC
設計一容易操作之介面
可隨時觀看12顆麥克風的能量大小
可隨時執行或停止聲源定位功能
可觀看RS-232傳值狀況
可即時看到聲源定位結果
圖26. 本系統操作介面
Robotic Interaction Learning Laboratory
32
Department of Electrical Engineering Southern Taiwan University
聲源方位為0度或是180度之定位實驗
1.5
-6.9
-6.9
-3.5
測試7
177.5
測試8
0
2
測試5
174.4
測試4
178.5
186.2
測試1
4
圖27. 聲源位於0度測試之實驗
Robotic Interaction Learning Laboratory
測試6
181.2
測試2
-2
測試7
184.6
角度
測試3
3.1
-4
測試9
測試4
-2.4
-6
測試8
測試5
-2.1
測試10
177.2
測試6
2.6
-8
182.6
測試9
1.3
角度
181.7
數列10
2.5
183.1
165
170
175
180
185
測試3
測試2
測試1
190
圖28. 聲源位於180度測試之實驗
33
Department of Electrical Engineering Southern Taiwan University
不同聲源高低定位辨識實驗(1/2)
將揚聲器至於45度的地方,距離麥克風陣列約150cm,且
高度低於球面麥克風陣列約50公分,如圖29所示,其實驗
結果如圖30所示
圖29. 聲源位於系統45度之位置且高度低於麥克風陣列50公分
Robotic Interaction Learning Laboratory
圖30. 聲源放置麥克風陣列的下方測試結果
34
Department of Electrical Engineering Southern Taiwan University
不同聲源高低定位辨識實驗(2/2)
將揚聲器放至於70度距離麥克風陣列約150cm且高於球面
麥克風陣列50分公分的地方,如圖31所示,其實驗結果如
圖32所示
圖31. 聲源位於系統70度之位置且高度高於麥克風陣列50公分
Robotic Interaction Learning Laboratory
圖32. 聲源放置麥克風陣列的上方測試結果
35
Department of Electrical Engineering Southern Taiwan University
動態之聲源定位辨識實驗
動態音源測試—每次擷取間加入0.5sec延遲,由0°移動到
90°。
(a)
(b)
(c)
圖33. 動態聲源測試結果(a)聲源位於0°(b)聲源位於45°(c)聲源位於90°
Robotic Interaction Learning Laboratory
36
Department of Electrical Engineering Southern Taiwan University
聲源距離測試之實驗
將聲源置於約45度且距離麥克風陣列距離50cm的地方與
270度且距離麥克風陣列約為200cm的地方分別進行測試
(a)
(b)
圖34. 聲源距離測試結果(a)聲源位於45°50 cm (b)聲源位於270°200 cm
Robotic Interaction Learning Laboratory
37
Department of Electrical Engineering Southern Taiwan University
與平面麥克風式陣列效能比較
將聲源放置45°,進行20次的測試,再與平面式麥克風陣
列進行定位準確性比較
60
表5. 球面麥克風陣列與平面麥克風陣列辨識率與效能比較表
50
角度
40
平面式麥克風陣列
30
球面式麥克風陣列
20
10
0
1
3
5
7
9 11 13 15 17 19
次數
圖35. 與平面麥克風陣列進行辨識比較
Robotic Interaction Learning Laboratory
38
Department of Electrical Engineering Southern Taiwan University
應用於智慧型機器人
本系統將應用於智慧型機器人,做為機器人之聽覺系統,
吾等將此次統放置機器人的頭部上,當作機器人頭頂所戴
裝飾帽如圖36所示
圖36. 本系統應用於智慧型機器人之側面
Robotic Interaction Learning Laboratory
39
Department of Electrical Engineering Southern Taiwan University
結論
本文提出一個以球面麥克風陣列作為聲源接收之模糊語者
定位系統,來設計服務機器人的聽覺系統。
雖然本文是使用立體式麥克風陣列,但搭配FSLA的應用
減少了立體式麥克風陣列複雜的運算。
本文所提出的聲源定位系統除了可以有效的定位出語聲源,
聲源與麥克風陣列的高低與距離關係也可以簡單的判斷出
來。
Robotic Interaction Learning Laboratory
40
Department of Electrical Engineering Southern Taiwan University
未來展望
本文所提出的聲源定位系統,有下列的問題可以改進
與機器人更美觀的結合
聲源高低的判斷
系統的整合
與語意分析整合
Robotic Interaction Learning Laboratory
41
Department of Electrical Engineering Southern Taiwan University
報告結束
感謝指導
Robotic Interaction Learning Laboratory
42