Transcript 投影片 1

資料採礦與商業智慧
第七章 類神經網路-Kohonen
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
第七章 類神經網路-Kohonen


資料採礦可概略分為監督式學習與非監督
式學習兩種方式。
監督式學習是採用預先設定所要輸出的變
數內容或是特定屬性來作為挖掘的標的,
但是非監督式學習則是探詢多個變數間的
相互影響程度,再從中找尋我們感興趣的
類型。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
2
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
第七章 類神經網路-Kohonen

Kohonen是屬於類神經網路技術的其中一種,
也是一種非監督式學習網路模式,是由
Tuevo Kohonen在1979年~1982年間發展的
類神經網路模式。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
3
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念


Kohonen是屬於類神經網路技術的一種,又
可稱為自我組織映射網路 (Self Organizing
Feature Map network, SOM or SOFM) ,一般
而言是由神經元的二次元個格子所構成。
各神經元與各輸入相連接,與其他的類神
經網路情形相同,這些的連接每一個都加
上比重。各神經元再與其周圍的神經元相
連接,這些之連接同樣也設定比重。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
4
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Kaski (1997)指出Kohonen基本上是一種視覺
化,分群與映射之工具,特別適合應用在
資料採礦 (data mining) 或資料洞悉 (data
understanding)領域中,透過特定圖形呈現出
資料集合之結構狀態。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
5
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Jain (1999)等人提到,透過Kohonen分群便是
將類型(patterns),包括觀察值、資料項目或
是特徵向量等,進行非監督式學習,可將
資料分類(classification)成若干群組或群集
(clusters)。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
6
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Kohonen源於競爭式類神經網路(competitive
neural network)架構,其輸出層的神經元會
依照輸入資料的特徵,以有意義的拓撲結
構(topological structure)呈現在輸出空間中,
由於所產生的拓撲結構可以代表不同輸入
資料特性的分類,因此稱為自我組織映射
網路。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
7
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念


Kohonen的設計理念很特別,它是基於模仿
大腦中的細胞對於記憶處理的概念所設計。
大腦中的細胞對於聽覺、味覺、觸覺、嗅
覺等訊息都有各自處理與記憶的區塊,但
是大腦接收到多元的訊息若是直接傳送到
反應神經的話,會使訊息過多造成混亂,
同時使人類無法理解訊息所造成的效應,
資料採礦與商業智慧
第七章 類神經網路-Kohonen
8
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

自動將高維度的資料 (high-dimensional data)
轉換成二維 (2-dimensional) 或是一維 (1dimensional) 的圖像式訊息給大腦處理並輸
出,讓使用者能夠更易於理解資料中隱藏
的意涵。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
9
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

在SOM 的網路之中,輸出層在一維或二維
的空間中將類神經元以矩陣方式做排列,
並根據輸入向量來調整鍵結值向量,最後
輸出層的神經元會依輸入向量的「型樣」
以有意義的「拓蹼結構」(topological
structure)在空間中輸出
資料採礦與商業智慧
第七章 類神經網路-Kohonen
10
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介


包含輸入層 x = [x, x2, x3,…xp ] 和輸出層 y =
[ y1, y2, y3, …yn ] 以及之間的鍵結值向量 wj =
[w j1 , w j2 , w j3,…w jp] , j = 1.2.3…n,p 表示
輸入資料的維度、n 表示神經元個數。
此演算法是以特徵映射的方式,將任意維
度的資訊投影 (project) 至一維或二維的映射
圖上。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
11
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step1. 初始化:將鍵結值向量wj =[ w j1 , w j2 ,
w j3,…w jp] , j=1.2.3…n以隨機的方式初始化,
且所有鍵結值向量皆需不同。

Step2. 輸入資料:從訓練資料中,隨機選取
一筆資料輸入此網路。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
12
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step3. 計算得勝類神經元:利用最小歐幾里
德距離的方式找出得勝的類神經元j*。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
13
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step4. 良心機制:令jP 為第j 個類神經元成
為得勝者的機率,則:

其中0<β<<1(一般設定為0.001), Pj初
始值設定為0。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
14
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step5. 重新尋找得勝類神經元:利用良心機
制找出得勝者j*:

其中,bj為修正的偏移量,定義為:

其中,C為偏移因子,一般設定為10。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
15
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step6. 調整鍵結值向量:以下列公式調整鍵
結值向量:
資料採礦與商業智慧
第七章 類神經網路-Kohonen
16
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

其中η(t)是學習率函數, 為鄰近區域函數,
為得勝神經元j*的鄰近區域,三者皆為時間t
的函數。

Step7. 終止條件:回到step2,直到學習結束。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
17
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



1. 「Use type node settings」:資料匯入時,
依據資料串流中上游「type」節點所設定的
資料內容、格式與方向來進行資料分析。
2. 「Use custom settings」:資料匯入時,依
據使用者自行設定的資料內容、格式與方
向來進行資料分析。
3.「Partition」:可以將資料以分割型
(Partition)資料作切割的依據,但是該欄位必
須是分割型(Partition)資料。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
18
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定




1. 「Model name」:模型名稱。
2. 「Use partitioned data」:使用切割後的部
分資料,如切割成訓練組、、測試組與驗
證組等。
3.「Continue training existing model」:持續
訓練現有的模型。
4. 「Stop on」:設定模型演算終止的門檻。
可以選擇預設或時間到則停止。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
19
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



5. 「Show feedback graph」:顯示回饋圖。
6. 「Set random seed」:設定隨機種子。
7.「Optimize」:最佳化選項。若硬體條件
充足,則使用者可選擇分析時以分析速度
最快為考量,但此時會佔用最大的系統資
源,若資源不足時,可能會造成當機的狀
況。若系統資源較不充足時,建議勾選以
系統記憶體數量為考量標的。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
20
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



2. 「Width」:在二維的座標中,訂定X軸
的寬度。
3.「Length」:在二維的座標中,訂定Y軸
的長度。。
4. 「Learning rate decay」:學習速率衰減。
是一種隨時間推移而減少的權重因素,這
樣網路可以從資料開始編碼,然後逐漸集
中到更加細微的水平細節上去。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
21
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定

5. 「Phase 1 and Phase 2」:Kohonen net的訓練分
成兩個階段。階段一是概估階段,用於獲得資料
中的大致特徵。階段是調整階段,用於調整SOM
以使其模型化資料的細節特徵。每一階段有以下
三個參數:



「Neighborhood」:鄰近距離。設定鄰近距離的起始值
(半徑)。
「Initial Eta」:初始學習率。設定學習率的初始值。
「Cycles」:迴圈次數。設定每一訓練階段的迴圈次數。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
22
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.4 應用範圍


Kohonen網路模型能夠將複雜的資料維度簡
化,產生出二維的群集,有X座標跟Y座標,
以便於使用者將規則從中抽離解析,讓複
雜的資料顯得較為易懂明白。
資料在進入節點時,資料的方向亦會影響
分析的結果:

設定為「In」時,表示允許資料進入
「Kohonen net」模型節點作分析。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
23
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.4 應用範圍
設定為「Out」時,資料禁止進入「Kohonen
net」模型節點,表示拒絕資料進入節點中分析。
 設定為「Both」時,資料禁止進入「Kohonen
net」模型節點,表示拒絕資料進入節點中分析。
 設定為「None」時,資料禁止進入「Kohonen
net」模型節點,表示拒絕資料進入節點中分析。

資料採礦與商業智慧
第七章 類神經網路-Kohonen
24
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟一:從光碟中開啟本章練習檔案,選
擇Ms Excel(.xls)檔,並選擇相對應的資料來
源節點。Ms Excel檔請使用Excel(.xls)節點。
勾選「First row contains field names」,表示
檔案中的第一列為欄位名稱。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
25
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二:使用「Type」節點將資料來源節點
中的資料予以實例化,按下「Read Values」
按鈕,讀取欄位內的資料內容。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
26
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三:在讀取資料後,檢視欄位內容的
資料型態是否存在錯誤項目,若有,則以
首棟調整資料型態後,再重新讀取資料一
次即可修正。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
27
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟四:進行資料處理之前,使用「Quality」
節點檢視資料的品質,是否存在空值,若
無,則可進行下一步驟的資料處理。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
28
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟五:由「Quality」的輸出內容可以看到
資料的品質十分完整,因此可以直接進行
下一步驟。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
29
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟六:使用「Partition」節點來將資料切
割為「Training & Test」兩組資料作為訓練
及測試使用。「Training & Test」兩組資料
相加總之和需在100%,否則集會出現如圖
之紅色錯誤警語。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
30
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟七:將「Training & Test」兩組資料比
例調整後,即完成設定。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
31
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟八:連結「Table」節點,觀察藉由
「Partition」節點分割的資料狀況。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
32
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟九:圖示內容即為以表單的方式將資
料分割後所呈現的狀況,資料以隨機的方
式,依照「Partition」節點所設定之比例,
將資料分割為「Training」資料70%,「Test」
資料30%。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
33
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十:連結「Select」節點,可以依照我
們所設定的條件,將符合的資料篩選運用。
若對條件式的撰寫不熟悉,Clementine提供
運算式建構器,能夠用十分簡便的方式讓
使用者以直覺式的方式撰寫條件式。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
34
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十一:在運算式建構器中,左方的下
拉式選單提供了十九類的功能項目。中間
的區塊提供了簡易的運算符號。右方的區
塊則串流上游的資料來源,由使用者選擇
欄位做資料處理。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
35
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十二:待運算式撰寫完成後,點選下
方的「Check」按鈕,可以先對運算式檢核
正確與否。若檢核結果為錯誤,則會出現
錯誤警告對話視窗,且運算式會以紅色呈
現;若檢核結果正確,則以黑色呈現,表
示可以進行下一步驟。
資料採礦與商業智慧
第七章 類神經網路-Kohonen
36
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十三:使用運算式建構器轉寫完之條
件式,即可呈現在如圖「Condition」的對話
框中。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十四:連結建模節點的「Kohonen」節
點,進行集群分析。在「Model」頁籤中,
依照使用者的需求與系統等級,可以選擇
適當的分析方式。若需要看到分析時的回
饋圖,則需點選「Show feedback graph」。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十五:在「Expert」頁籤中可依一資料
特性或視使用者需求作設定,本範例中,
如圖將寬度設定為5,長度設定為5,其餘則
使用預設值。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十六:點選「Execute」,執行
「Kohonen」建模節點
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十七:在執行的過程中,可以看到資
料分佈的回饋圖,顏色的深淺表示資料堆
疊的多寡,顏色越深表示累積資料越多。
如圖所示,依設定的長及寬呈現 5 × 5的資
料堆疊回饋圖。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十八:右側為生成的Kohonen模型,點
選「瀏覽 (Browse)」可以察看模型內詳細內
容。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十九:在「Model」頁籤中可以看到如
圖所示的Kohonen模型內容,依據設定的內
容,資料在橫軸(X)與縱軸(Y)各分成五個類
別,其中(1,0)、(1,1)、(2,1) 等項目無資料,
所以Kohonen可分為22群資料集。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二十:點選上方「Expand All」按鈕可
以展開22個集群中,不同欄位資料的分佈狀
況。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二一:在「Viewer」頁籤中,則以圖示
的方式將資料分佈情況展現出來。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二二:在「Summary」頁籤中,可以一
覽使用Kohonen分析時的相關參數。以下圖
為例:設定X軸為5,Y軸為5,輸入層46個
神經元,輸出層25個神經元等等,其餘參數
請參考下圖所示。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二三:使用「點圖(Plot)」,在「Plot」
頁籤中將Kohonen模型所產生的集群做二維
的展示。將「$KX-Kohonen」置於X軸,另
將「$KY-Kohonen」置於Y軸。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二四:在「Options」頁籤中,點選
「搖動 (Agitation)」的選項將X軸與Y軸的位
置各移動0.2,因為若不增加搖動的功能,
產生的二維圖形將只有 5 × 5 的25個點而已,
在後續將會示範未增加搖動功能的差異。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二五:如下圖所示,即可產生一個二
維且包含資料濃度的圖形,不但可以圖示
資料,更可以瞭解其中的差異,而非僅是25
個點的圖形。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二六:下圖則示範若未選用震動功能
時,會使資料無法適當的呈現。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二七:若未使用搖動功能,則無法使
資料適當的呈現。一方面資料畫面十分呆
板,另一方面也無法直接由圖中讀出個別
的數量差異。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二八:此外,「Derive」節點則能夠透
過運算式的撰寫,將現有的資料轉換(或
計算)成所需的新欄位,若能熟悉
CLEM(Clementine Language for Expression
Manipulation , CLEM)語法的編寫模式,
「Derive」節點可以說是功能最為強大的節
點之一。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二九:在本範例中,使用運算式建構
器將兩個欄位合成一個新的資料欄位。本
範例中,使用「> <」符號,將兩個欄位合
併成新的資料欄位。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三十:使用運算式建構器將「$KXKohonen」與「$KY-Kohonen」欄位中的資
料合併成新的欄位,即可成為下圖
「Kohonen分類」欄位中的內容類型,也就
是將「0」與「2」合併成「02」。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三一:連結「Type」節點,將新欄位中
的資料導入並予以實例化,以供下一階段
使用。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三二:連結「Web」節點,藉由蛛網圖
讓各集群間的關連強弱展示出來,參數設
定請依使用者需求作調整。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三三:調整背景與來為內容的色彩,
可以使蛛網圖的內容更清晰易讀。此外,
上方的拉鈕可以調整蛛網圖出現的最低門
檻值,並藉此凸顯部分連結次數較頻繁的
項目。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三四:使用滑鼠點選關注的連結項目,
連結線即變成紅色線條,此時,可點選上
方「Generate」選單,產生「Selected」節點
使用。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三五:在下圖產生之「Select」節點中,
即依上述的過程完成條件式的撰寫,如此,
及可依照條件來選擇符合的紀錄。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三六:連結「Report」節點,將篩選的
模型結果以報表方式輸出使用。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三七:藉由HTML語法或CLEM語法,
可以將資料由上一個節點中提取出來,同
時可依使用者的需求,製作報表使用。
本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三八:產生之報表如下圖所示,同時
可利用上方之「File」選單將報表發佈成
HTML、Text、Microsoft Word、Microsoft
Excel、Microsoft PowerPoint等格式的檔案。