Transcript 投影片 1
資料採礦與商業智慧 第七章 類神經網路-Kohonen 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 第七章 類神經網路-Kohonen 資料採礦可概略分為監督式學習與非監督 式學習兩種方式。 監督式學習是採用預先設定所要輸出的變 數內容或是特定屬性來作為挖掘的標的, 但是非監督式學習則是探詢多個變數間的 相互影響程度,再從中找尋我們感興趣的 類型。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 2 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 第七章 類神經網路-Kohonen Kohonen是屬於類神經網路技術的其中一種, 也是一種非監督式學習網路模式,是由 Tuevo Kohonen在1979年~1982年間發展的 類神經網路模式。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 3 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 Kohonen是屬於類神經網路技術的一種,又 可稱為自我組織映射網路 (Self Organizing Feature Map network, SOM or SOFM) ,一般 而言是由神經元的二次元個格子所構成。 各神經元與各輸入相連接,與其他的類神 經網路情形相同,這些的連接每一個都加 上比重。各神經元再與其周圍的神經元相 連接,這些之連接同樣也設定比重。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 4 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 Kaski (1997)指出Kohonen基本上是一種視覺 化,分群與映射之工具,特別適合應用在 資料採礦 (data mining) 或資料洞悉 (data understanding)領域中,透過特定圖形呈現出 資料集合之結構狀態。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 5 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 Jain (1999)等人提到,透過Kohonen分群便是 將類型(patterns),包括觀察值、資料項目或 是特徵向量等,進行非監督式學習,可將 資料分類(classification)成若干群組或群集 (clusters)。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 6 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 Kohonen源於競爭式類神經網路(competitive neural network)架構,其輸出層的神經元會 依照輸入資料的特徵,以有意義的拓撲結 構(topological structure)呈現在輸出空間中, 由於所產生的拓撲結構可以代表不同輸入 資料特性的分類,因此稱為自我組織映射 網路。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 7 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 Kohonen的設計理念很特別,它是基於模仿 大腦中的細胞對於記憶處理的概念所設計。 大腦中的細胞對於聽覺、味覺、觸覺、嗅 覺等訊息都有各自處理與記憶的區塊,但 是大腦接收到多元的訊息若是直接傳送到 反應神經的話,會使訊息過多造成混亂, 同時使人類無法理解訊息所造成的效應, 資料採礦與商業智慧 第七章 類神經網路-Kohonen 8 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.1 類神經網路Kohonen基本概念 自動將高維度的資料 (high-dimensional data) 轉換成二維 (2-dimensional) 或是一維 (1dimensional) 的圖像式訊息給大腦處理並輸 出,讓使用者能夠更易於理解資料中隱藏 的意涵。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 9 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 在SOM 的網路之中,輸出層在一維或二維 的空間中將類神經元以矩陣方式做排列, 並根據輸入向量來調整鍵結值向量,最後 輸出層的神經元會依輸入向量的「型樣」 以有意義的「拓蹼結構」(topological structure)在空間中輸出 資料採礦與商業智慧 第七章 類神經網路-Kohonen 10 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 包含輸入層 x = [x, x2, x3,…xp ] 和輸出層 y = [ y1, y2, y3, …yn ] 以及之間的鍵結值向量 wj = [w j1 , w j2 , w j3,…w jp] , j = 1.2.3…n,p 表示 輸入資料的維度、n 表示神經元個數。 此演算法是以特徵映射的方式,將任意維 度的資訊投影 (project) 至一維或二維的映射 圖上。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 11 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 Step1. 初始化:將鍵結值向量wj =[ w j1 , w j2 , w j3,…w jp] , j=1.2.3…n以隨機的方式初始化, 且所有鍵結值向量皆需不同。 Step2. 輸入資料:從訓練資料中,隨機選取 一筆資料輸入此網路。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 12 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 Step3. 計算得勝類神經元:利用最小歐幾里 德距離的方式找出得勝的類神經元j*。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 13 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 Step4. 良心機制:令jP 為第j 個類神經元成 為得勝者的機率,則: 其中0<β<<1(一般設定為0.001), Pj初 始值設定為0。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 14 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 Step5. 重新尋找得勝類神經元:利用良心機 制找出得勝者j*: 其中,bj為修正的偏移量,定義為: 其中,C為偏移因子,一般設定為10。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 15 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 Step6. 調整鍵結值向量:以下列公式調整鍵 結值向量: 資料採礦與商業智慧 第七章 類神經網路-Kohonen 16 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.2 演算法簡介 其中η(t)是學習率函數, 為鄰近區域函數, 為得勝神經元j*的鄰近區域,三者皆為時間t 的函數。 Step7. 終止條件:回到step2,直到學習結束。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 17 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.3 資料格式與設定 1. 「Use type node settings」:資料匯入時, 依據資料串流中上游「type」節點所設定的 資料內容、格式與方向來進行資料分析。 2. 「Use custom settings」:資料匯入時,依 據使用者自行設定的資料內容、格式與方 向來進行資料分析。 3.「Partition」:可以將資料以分割型 (Partition)資料作切割的依據,但是該欄位必 須是分割型(Partition)資料。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 18 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.3 資料格式與設定 1. 「Model name」:模型名稱。 2. 「Use partitioned data」:使用切割後的部 分資料,如切割成訓練組、、測試組與驗 證組等。 3.「Continue training existing model」:持續 訓練現有的模型。 4. 「Stop on」:設定模型演算終止的門檻。 可以選擇預設或時間到則停止。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 19 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.3 資料格式與設定 5. 「Show feedback graph」:顯示回饋圖。 6. 「Set random seed」:設定隨機種子。 7.「Optimize」:最佳化選項。若硬體條件 充足,則使用者可選擇分析時以分析速度 最快為考量,但此時會佔用最大的系統資 源,若資源不足時,可能會造成當機的狀 況。若系統資源較不充足時,建議勾選以 系統記憶體數量為考量標的。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 20 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.3 資料格式與設定 2. 「Width」:在二維的座標中,訂定X軸 的寬度。 3.「Length」:在二維的座標中,訂定Y軸 的長度。。 4. 「Learning rate decay」:學習速率衰減。 是一種隨時間推移而減少的權重因素,這 樣網路可以從資料開始編碼,然後逐漸集 中到更加細微的水平細節上去。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 21 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.3 資料格式與設定 5. 「Phase 1 and Phase 2」:Kohonen net的訓練分 成兩個階段。階段一是概估階段,用於獲得資料 中的大致特徵。階段是調整階段,用於調整SOM 以使其模型化資料的細節特徵。每一階段有以下 三個參數: 「Neighborhood」:鄰近距離。設定鄰近距離的起始值 (半徑)。 「Initial Eta」:初始學習率。設定學習率的初始值。 「Cycles」:迴圈次數。設定每一訓練階段的迴圈次數。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 22 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.4 應用範圍 Kohonen網路模型能夠將複雜的資料維度簡 化,產生出二維的群集,有X座標跟Y座標, 以便於使用者將規則從中抽離解析,讓複 雜的資料顯得較為易懂明白。 資料在進入節點時,資料的方向亦會影響 分析的結果: 設定為「In」時,表示允許資料進入 「Kohonen net」模型節點作分析。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 23 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.4 應用範圍 設定為「Out」時,資料禁止進入「Kohonen net」模型節點,表示拒絕資料進入節點中分析。 設定為「Both」時,資料禁止進入「Kohonen net」模型節點,表示拒絕資料進入節點中分析。 設定為「None」時,資料禁止進入「Kohonen net」模型節點,表示拒絕資料進入節點中分析。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 24 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟一:從光碟中開啟本章練習檔案,選 擇Ms Excel(.xls)檔,並選擇相對應的資料來 源節點。Ms Excel檔請使用Excel(.xls)節點。 勾選「First row contains field names」,表示 檔案中的第一列為欄位名稱。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 25 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二:使用「Type」節點將資料來源節點 中的資料予以實例化,按下「Read Values」 按鈕,讀取欄位內的資料內容。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 26 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三:在讀取資料後,檢視欄位內容的 資料型態是否存在錯誤項目,若有,則以 首棟調整資料型態後,再重新讀取資料一 次即可修正。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 27 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟四:進行資料處理之前,使用「Quality」 節點檢視資料的品質,是否存在空值,若 無,則可進行下一步驟的資料處理。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 28 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟五:由「Quality」的輸出內容可以看到 資料的品質十分完整,因此可以直接進行 下一步驟。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 29 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟六:使用「Partition」節點來將資料切 割為「Training & Test」兩組資料作為訓練 及測試使用。「Training & Test」兩組資料 相加總之和需在100%,否則集會出現如圖 之紅色錯誤警語。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 30 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟七:將「Training & Test」兩組資料比 例調整後,即完成設定。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 31 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟八:連結「Table」節點,觀察藉由 「Partition」節點分割的資料狀況。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 32 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟九:圖示內容即為以表單的方式將資 料分割後所呈現的狀況,資料以隨機的方 式,依照「Partition」節點所設定之比例, 將資料分割為「Training」資料70%,「Test」 資料30%。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 33 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十:連結「Select」節點,可以依照我 們所設定的條件,將符合的資料篩選運用。 若對條件式的撰寫不熟悉,Clementine提供 運算式建構器,能夠用十分簡便的方式讓 使用者以直覺式的方式撰寫條件式。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 34 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十一:在運算式建構器中,左方的下 拉式選單提供了十九類的功能項目。中間 的區塊提供了簡易的運算符號。右方的區 塊則串流上游的資料來源,由使用者選擇 欄位做資料處理。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 35 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十二:待運算式撰寫完成後,點選下 方的「Check」按鈕,可以先對運算式檢核 正確與否。若檢核結果為錯誤,則會出現 錯誤警告對話視窗,且運算式會以紅色呈 現;若檢核結果正確,則以黑色呈現,表 示可以進行下一步驟。 資料採礦與商業智慧 第七章 類神經網路-Kohonen 36 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十三:使用運算式建構器轉寫完之條 件式,即可呈現在如圖「Condition」的對話 框中。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十四:連結建模節點的「Kohonen」節 點,進行集群分析。在「Model」頁籤中, 依照使用者的需求與系統等級,可以選擇 適當的分析方式。若需要看到分析時的回 饋圖,則需點選「Show feedback graph」。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十五:在「Expert」頁籤中可依一資料 特性或視使用者需求作設定,本範例中, 如圖將寬度設定為5,長度設定為5,其餘則 使用預設值。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十六:點選「Execute」,執行 「Kohonen」建模節點 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十七:在執行的過程中,可以看到資 料分佈的回饋圖,顏色的深淺表示資料堆 疊的多寡,顏色越深表示累積資料越多。 如圖所示,依設定的長及寬呈現 5 × 5的資 料堆疊回饋圖。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十八:右側為生成的Kohonen模型,點 選「瀏覽 (Browse)」可以察看模型內詳細內 容。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟十九:在「Model」頁籤中可以看到如 圖所示的Kohonen模型內容,依據設定的內 容,資料在橫軸(X)與縱軸(Y)各分成五個類 別,其中(1,0)、(1,1)、(2,1) 等項目無資料, 所以Kohonen可分為22群資料集。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二十:點選上方「Expand All」按鈕可 以展開22個集群中,不同欄位資料的分佈狀 況。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二一:在「Viewer」頁籤中,則以圖示 的方式將資料分佈情況展現出來。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二二:在「Summary」頁籤中,可以一 覽使用Kohonen分析時的相關參數。以下圖 為例:設定X軸為5,Y軸為5,輸入層46個 神經元,輸出層25個神經元等等,其餘參數 請參考下圖所示。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二三:使用「點圖(Plot)」,在「Plot」 頁籤中將Kohonen模型所產生的集群做二維 的展示。將「$KX-Kohonen」置於X軸,另 將「$KY-Kohonen」置於Y軸。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二四:在「Options」頁籤中,點選 「搖動 (Agitation)」的選項將X軸與Y軸的位 置各移動0.2,因為若不增加搖動的功能, 產生的二維圖形將只有 5 × 5 的25個點而已, 在後續將會示範未增加搖動功能的差異。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二五:如下圖所示,即可產生一個二 維且包含資料濃度的圖形,不但可以圖示 資料,更可以瞭解其中的差異,而非僅是25 個點的圖形。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二六:下圖則示範若未選用震動功能 時,會使資料無法適當的呈現。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二七:若未使用搖動功能,則無法使 資料適當的呈現。一方面資料畫面十分呆 板,另一方面也無法直接由圖中讀出個別 的數量差異。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二八:此外,「Derive」節點則能夠透 過運算式的撰寫,將現有的資料轉換(或 計算)成所需的新欄位,若能熟悉 CLEM(Clementine Language for Expression Manipulation , CLEM)語法的編寫模式, 「Derive」節點可以說是功能最為強大的節 點之一。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟二九:在本範例中,使用運算式建構 器將兩個欄位合成一個新的資料欄位。本 範例中,使用「> <」符號,將兩個欄位合 併成新的資料欄位。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三十:使用運算式建構器將「$KXKohonen」與「$KY-Kohonen」欄位中的資 料合併成新的欄位,即可成為下圖 「Kohonen分類」欄位中的內容類型,也就 是將「0」與「2」合併成「02」。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三一:連結「Type」節點,將新欄位中 的資料導入並予以實例化,以供下一階段 使用。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三二:連結「Web」節點,藉由蛛網圖 讓各集群間的關連強弱展示出來,參數設 定請依使用者需求作調整。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三三:調整背景與來為內容的色彩, 可以使蛛網圖的內容更清晰易讀。此外, 上方的拉鈕可以調整蛛網圖出現的最低門 檻值,並藉此凸顯部分連結次數較頻繁的 項目。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三四:使用滑鼠點選關注的連結項目, 連結線即變成紅色線條,此時,可點選上 方「Generate」選單,產生「Selected」節點 使用。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三五:在下圖產生之「Select」節點中, 即依上述的過程完成條件式的撰寫,如此, 及可依照條件來選擇符合的紀錄。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三六:連結「Report」節點,將篩選的 模型結果以報表方式輸出使用。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三七:藉由HTML語法或CLEM語法, 可以將資料由上一個節點中提取出來,同 時可依使用者的需求,製作報表使用。 本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 7.5 個案實做 步驟三八:產生之報表如下圖所示,同時 可利用上方之「File」選單將報表發佈成 HTML、Text、Microsoft Word、Microsoft Excel、Microsoft PowerPoint等格式的檔案。