投影片 1

Transcript 投影片 1

資料採礦與商業智慧
第七章類神經網路－Kohonen
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
第七章類神經網路－Kohonen


資料採礦可概略分為監督式學習與非監督
式學習兩種方式。
監督式學習是採用預先設定所要輸出的變
數內容或是特定屬性來作為挖掘的標的，
但是非監督式學習則是探詢多個變數間的
相互影響程度，再從中找尋我們感興趣的
類型。
資料採礦與商業智慧
第七章類神經網路－Kohonen
2
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
第七章類神經網路－Kohonen

Kohonen是屬於類神經網路技術的其中一種，
也是一種非監督式學習網路模式，是由
Tuevo Kohonen在1979年～1982年間發展的
類神經網路模式。
資料採礦與商業智慧
第七章類神經網路－Kohonen
3
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念


Kohonen是屬於類神經網路技術的一種，又
可稱為自我組織映射網路 (Self Organizing
Feature Map network, SOM or SOFM) ，一般
而言是由神經元的二次元個格子所構成。
各神經元與各輸入相連接，與其他的類神
經網路情形相同，這些的連接每一個都加
上比重。各神經元再與其周圍的神經元相
連接，這些之連接同樣也設定比重。
資料採礦與商業智慧
第七章類神經網路－Kohonen
4
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Kaski (1997)指出Kohonen基本上是一種視覺
化，分群與映射之工具，特別適合應用在
資料採礦 (data mining) 或資料洞悉 (data
understanding)領域中，透過特定圖形呈現出
資料集合之結構狀態。
資料採礦與商業智慧
第七章類神經網路－Kohonen
5
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Jain (1999)等人提到，透過Kohonen分群便是
將類型(patterns)，包括觀察值、資料項目或
是特徵向量等，進行非監督式學習，可將
資料分類(classification)成若干群組或群集
(clusters)。
資料採礦與商業智慧
第七章類神經網路－Kohonen
6
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

Kohonen源於競爭式類神經網路(competitive
neural network)架構，其輸出層的神經元會
依照輸入資料的特徵，以有意義的拓撲結
構(topological structure)呈現在輸出空間中，
由於所產生的拓撲結構可以代表不同輸入
資料特性的分類，因此稱為自我組織映射
網路。
資料採礦與商業智慧
第七章類神經網路－Kohonen
7
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念


Kohonen的設計理念很特別，它是基於模仿
大腦中的細胞對於記憶處理的概念所設計。
大腦中的細胞對於聽覺、味覺、觸覺、嗅
覺等訊息都有各自處理與記憶的區塊，但
是大腦接收到多元的訊息若是直接傳送到
反應神經的話，會使訊息過多造成混亂，
同時使人類無法理解訊息所造成的效應，
資料採礦與商業智慧
第七章類神經網路－Kohonen
8
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.1 類神經網路Kohonen基本概念

自動將高維度的資料 (high-dimensional data)
轉換成二維 (2-dimensional) 或是一維 (1dimensional) 的圖像式訊息給大腦處理並輸
出，讓使用者能夠更易於理解資料中隱藏
的意涵。
資料採礦與商業智慧
第七章類神經網路－Kohonen
9
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

在SOM 的網路之中，輸出層在一維或二維
的空間中將類神經元以矩陣方式做排列，
並根據輸入向量來調整鍵結值向量，最後
輸出層的神經元會依輸入向量的「型樣」
以有意義的「拓蹼結構」(topological
structure)在空間中輸出
資料採礦與商業智慧
第七章類神經網路－Kohonen
10
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介


包含輸入層 x = [x, x2, x3,…xp ] 和輸出層 y =
[ y1, y2, y3, …yn ] 以及之間的鍵結值向量 wj =
[w j1 , w j2 , w j3,…w jp] , j = 1.2.3…n，p 表示
輸入資料的維度、n 表示神經元個數。
此演算法是以特徵映射的方式，將任意維
度的資訊投影 (project) 至一維或二維的映射
圖上。
資料採礦與商業智慧
第七章類神經網路－Kohonen
11
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step1. 初始化：將鍵結值向量wj =[ w j1 , w j2 ,
w j3,…w jp] , j=1.2.3…n以隨機的方式初始化，
且所有鍵結值向量皆需不同。

Step2. 輸入資料：從訓練資料中，隨機選取
一筆資料輸入此網路。
資料採礦與商業智慧
第七章類神經網路－Kohonen
12
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step3. 計算得勝類神經元：利用最小歐幾里
德距離的方式找出得勝的類神經元j*。
資料採礦與商業智慧
第七章類神經網路－Kohonen
13
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step4. 良心機制：令jP 為第j 個類神經元成
為得勝者的機率，則：

其中0＜β＜＜1（一般設定為0.001）， Pj初
始值設定為0。
資料採礦與商業智慧
第七章類神經網路－Kohonen
14
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step5. 重新尋找得勝類神經元：利用良心機
制找出得勝者j*：

其中，bj為修正的偏移量，定義為：

其中，C為偏移因子，一般設定為10。
資料採礦與商業智慧
第七章類神經網路－Kohonen
15
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

Step6. 調整鍵結值向量：以下列公式調整鍵
結值向量：
資料採礦與商業智慧
第七章類神經網路－Kohonen
16
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.2 演算法簡介

其中η(t)是學習率函數，為鄰近區域函數，
為得勝神經元j*的鄰近區域，三者皆為時間t
的函數。

Step7. 終止條件：回到step2，直到學習結束。
資料採礦與商業智慧
第七章類神經網路－Kohonen
17
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



1. 「Use type node settings」：資料匯入時，
依據資料串流中上游「type」節點所設定的
資料內容、格式與方向來進行資料分析。
2. 「Use custom settings」：資料匯入時，依
據使用者自行設定的資料內容、格式與方
向來進行資料分析。
3.「Partition」：可以將資料以分割型
(Partition)資料作切割的依據，但是該欄位必
須是分割型(Partition)資料。
資料採礦與商業智慧
第七章類神經網路－Kohonen
18
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定




1. 「Model name」：模型名稱。
2. 「Use partitioned data」：使用切割後的部
分資料，如切割成訓練組、、測試組與驗
證組等。
3.「Continue training existing model」：持續
訓練現有的模型。
4. 「Stop on」：設定模型演算終止的門檻。
可以選擇預設或時間到則停止。
資料採礦與商業智慧
第七章類神經網路－Kohonen
19
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



5. 「Show feedback graph」：顯示回饋圖。
6. 「Set random seed」：設定隨機種子。
7.「Optimize」：最佳化選項。若硬體條件
充足，則使用者可選擇分析時以分析速度
最快為考量，但此時會佔用最大的系統資
源，若資源不足時，可能會造成當機的狀
況。若系統資源較不充足時，建議勾選以
系統記憶體數量為考量標的。
資料採礦與商業智慧
第七章類神經網路－Kohonen
20
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定



2. 「Width」：在二維的座標中，訂定X軸
的寬度。
3.「Length」：在二維的座標中，訂定Y軸
的長度。。
4. 「Learning rate decay」：學習速率衰減。
是一種隨時間推移而減少的權重因素，這
樣網路可以從資料開始編碼，然後逐漸集
中到更加細微的水平細節上去。
資料採礦與商業智慧
第七章類神經網路－Kohonen
21
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.3 資料格式與設定

5. 「Phase 1 and Phase 2」：Kohonen net的訓練分
成兩個階段。階段一是概估階段，用於獲得資料
中的大致特徵。階段是調整階段，用於調整SOM
以使其模型化資料的細節特徵。每一階段有以下
三個參數：



「Neighborhood」：鄰近距離。設定鄰近距離的起始值
（半徑）。
「Initial Eta」：初始學習率。設定學習率的初始值。
「Cycles」：迴圈次數。設定每一訓練階段的迴圈次數。
資料採礦與商業智慧
第七章類神經網路－Kohonen
22
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.4 應用範圍


Kohonen網路模型能夠將複雜的資料維度簡
化，產生出二維的群集，有X座標跟Y座標，
以便於使用者將規則從中抽離解析，讓複
雜的資料顯得較為易懂明白。
資料在進入節點時，資料的方向亦會影響
分析的結果：

設定為「In」時，表示允許資料進入
「Kohonen net」模型節點作分析。
資料採礦與商業智慧
第七章類神經網路－Kohonen
23
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.4 應用範圍
設定為「Out」時，資料禁止進入「Kohonen
net」模型節點，表示拒絕資料進入節點中分析。
 設定為「Both」時，資料禁止進入「Kohonen
net」模型節點，表示拒絕資料進入節點中分析。
 設定為「None」時，資料禁止進入「Kohonen
net」模型節點，表示拒絕資料進入節點中分析。

資料採礦與商業智慧
第七章類神經網路－Kohonen
24
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟一：從光碟中開啟本章練習檔案，選
擇Ms Excel(.xls)檔，並選擇相對應的資料來
源節點。Ms Excel檔請使用Excel(.xls)節點。
勾選「First row contains field names」，表示
檔案中的第一列為欄位名稱。
資料採礦與商業智慧
第七章類神經網路－Kohonen
25
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二：使用「Type」節點將資料來源節點
中的資料予以實例化，按下「Read Values」
按鈕，讀取欄位內的資料內容。
資料採礦與商業智慧
第七章類神經網路－Kohonen
26
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三：在讀取資料後，檢視欄位內容的
資料型態是否存在錯誤項目，若有，則以
首棟調整資料型態後，再重新讀取資料一
次即可修正。
資料採礦與商業智慧
第七章類神經網路－Kohonen
27
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟四：進行資料處理之前，使用「Quality」
節點檢視資料的品質，是否存在空值，若
無，則可進行下一步驟的資料處理。
資料採礦與商業智慧
第七章類神經網路－Kohonen
28
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟五：由「Quality」的輸出內容可以看到
資料的品質十分完整，因此可以直接進行
下一步驟。
資料採礦與商業智慧
第七章類神經網路－Kohonen
29
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟六：使用「Partition」節點來將資料切
割為「Training & Test」兩組資料作為訓練
及測試使用。「Training & Test」兩組資料
相加總之和需在100%，否則集會出現如圖
之紅色錯誤警語。
資料採礦與商業智慧
第七章類神經網路－Kohonen
30
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟七：將「Training & Test」兩組資料比
例調整後，即完成設定。
資料採礦與商業智慧
第七章類神經網路－Kohonen
31
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟八：連結「Table」節點，觀察藉由
「Partition」節點分割的資料狀況。
資料採礦與商業智慧
第七章類神經網路－Kohonen
32
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟九：圖示內容即為以表單的方式將資
料分割後所呈現的狀況，資料以隨機的方
式，依照「Partition」節點所設定之比例，
將資料分割為「Training」資料70%，「Test」
資料30%。
資料採礦與商業智慧
第七章類神經網路－Kohonen
33
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十：連結「Select」節點，可以依照我
們所設定的條件，將符合的資料篩選運用。
若對條件式的撰寫不熟悉，Clementine提供
運算式建構器，能夠用十分簡便的方式讓
使用者以直覺式的方式撰寫條件式。
資料採礦與商業智慧
第七章類神經網路－Kohonen
34
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十一：在運算式建構器中，左方的下
拉式選單提供了十九類的功能項目。中間
的區塊提供了簡易的運算符號。右方的區
塊則串流上游的資料來源，由使用者選擇
欄位做資料處理。
資料採礦與商業智慧
第七章類神經網路－Kohonen
35
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十二：待運算式撰寫完成後，點選下
方的「Check」按鈕，可以先對運算式檢核
正確與否。若檢核結果為錯誤，則會出現
錯誤警告對話視窗，且運算式會以紅色呈
現；若檢核結果正確，則以黑色呈現，表
示可以進行下一步驟。
資料採礦與商業智慧
第七章類神經網路－Kohonen
36
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十三：使用運算式建構器轉寫完之條
件式，即可呈現在如圖「Condition」的對話
框中。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十四：連結建模節點的「Kohonen」節
點，進行集群分析。在「Model」頁籤中，
依照使用者的需求與系統等級，可以選擇
適當的分析方式。若需要看到分析時的回
饋圖，則需點選「Show feedback graph」。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十五：在「Expert」頁籤中可依一資料
特性或視使用者需求作設定，本範例中，
如圖將寬度設定為5，長度設定為5，其餘則
使用預設值。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十六：點選「Execute」，執行
「Kohonen」建模節點
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十七：在執行的過程中，可以看到資
料分佈的回饋圖，顏色的深淺表示資料堆
疊的多寡，顏色越深表示累積資料越多。
如圖所示，依設定的長及寬呈現 5 × 5的資
料堆疊回饋圖。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十八：右側為生成的Kohonen模型，點
選「瀏覽 (Browse)」可以察看模型內詳細內
容。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟十九：在「Model」頁籤中可以看到如
圖所示的Kohonen模型內容，依據設定的內
容，資料在橫軸(X)與縱軸(Y)各分成五個類
別，其中(1,0)、(1,1)、(2,1) 等項目無資料，
所以Kohonen可分為22群資料集。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二十：點選上方「Expand All」按鈕可
以展開22個集群中，不同欄位資料的分佈狀
況。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二一：在「Viewer」頁籤中，則以圖示
的方式將資料分佈情況展現出來。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二二：在「Summary」頁籤中，可以一
覽使用Kohonen分析時的相關參數。以下圖
為例：設定X軸為5，Y軸為5，輸入層46個
神經元，輸出層25個神經元等等，其餘參數
請參考下圖所示。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二三：使用「點圖(Plot)」，在「Plot」
頁籤中將Kohonen模型所產生的集群做二維
的展示。將「$KX-Kohonen」置於X軸，另
將「$KY-Kohonen」置於Y軸。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二四：在「Options」頁籤中，點選
「搖動 (Agitation)」的選項將X軸與Y軸的位
置各移動0.2，因為若不增加搖動的功能，
產生的二維圖形將只有 5 × 5 的25個點而已，
在後續將會示範未增加搖動功能的差異。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二五：如下圖所示，即可產生一個二
維且包含資料濃度的圖形，不但可以圖示
資料，更可以瞭解其中的差異，而非僅是25
個點的圖形。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二六：下圖則示範若未選用震動功能
時，會使資料無法適當的呈現。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二七：若未使用搖動功能，則無法使
資料適當的呈現。一方面資料畫面十分呆
板，另一方面也無法直接由圖中讀出個別
的數量差異。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二八：此外，「Derive」節點則能夠透
過運算式的撰寫，將現有的資料轉換（或
計算）成所需的新欄位，若能熟悉
CLEM(Clementine Language for Expression
Manipulation , CLEM)語法的編寫模式，
「Derive」節點可以說是功能最為強大的節
點之一。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟二九：在本範例中，使用運算式建構
器將兩個欄位合成一個新的資料欄位。本
範例中，使用「> <」符號，將兩個欄位合
併成新的資料欄位。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三十：使用運算式建構器將「$KXKohonen」與「$KY-Kohonen」欄位中的資
料合併成新的欄位，即可成為下圖
「Kohonen分類」欄位中的內容類型，也就
是將「0」與「2」合併成「02」。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三一：連結「Type」節點，將新欄位中
的資料導入並予以實例化，以供下一階段
使用。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三二：連結「Web」節點，藉由蛛網圖
讓各集群間的關連強弱展示出來，參數設
定請依使用者需求作調整。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三三：調整背景與來為內容的色彩，
可以使蛛網圖的內容更清晰易讀。此外，
上方的拉鈕可以調整蛛網圖出現的最低門
檻值，並藉此凸顯部分連結次數較頻繁的
項目。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三四：使用滑鼠點選關注的連結項目，
連結線即變成紅色線條，此時，可點選上
方「Generate」選單，產生「Selected」節點
使用。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三五：在下圖產生之「Select」節點中，
即依上述的過程完成條件式的撰寫，如此，
及可依照條件來選擇符合的紀錄。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三六：連結「Report」節點，將篩選的
模型結果以報表方式輸出使用。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三七：藉由HTML語法或CLEM語法，
可以將資料由上一個節點中提取出來，同
時可依使用者的需求，製作報表使用。
本投影片內容，僅供學習之用，未經著者書面同意，不得以任何形式轉載、重製散播及列印。
7.5 個案實做

步驟三八：產生之報表如下圖所示，同時
可利用上方之「File」選單將報表發佈成
HTML、Text、Microsoft Word、Microsoft
Excel、Microsoft PowerPoint等格式的檔案。

投影片 1

Transcript 投影片 1

Directory