統計諮詢

Download Report

Transcript 統計諮詢

集群分析(Cluster)
根據觀察值在一群變項上的測量值進行分
類的多變量分析方法。
在不同專業領域也稱為
Q型分類(Q Analysis)、
分類建構(typology construction)、
類型分析(classification) analysis)
及數值分類法(numerical taxonomy)。
意義與目的
 集群分析可用在醫學商將各種疾病加以分類、行
銷上將各客戶加以分群。
 主要方法是使用一組的計量資料,加以計算各觀
察值得相似性或相異性,然後使用各種分析的方
法,將這些觀察值加以分類,進而能更有效地掌
握各級群的性質。
相似性與相異性
 資料的相異性多以距離來判斷。距離衡量有




街道距離(city block):
歐氏距離(Euclidean distance):
敏可斯基距離(Minkowski distance):
馬氏距離(Mahalanobis distance):
 距離值愈大,表示兩倍觀察個體距離愈大,因
此相異性也愈大。
 另外可利用被觀察個體間的相關矩陣(稱為Q型
矩陣),來表示其相似性。
分析方法
分成階層式及非階層式兩大類。
階層式
 階層式的聚合步驟,是先計算出各被觀察個體間的距離
或組內誤差矩陣,然後將最接近的兩個被觀察個體加以
合併成一集群,在計算合併後各被觀察個體間的距離或
組內誤差,並重複以上的程序,直到所有的觀察個體合
併成同一集群。
 常用的聚合方法有平均連結法(average linkage method)、
單一連結法(single linkage method)、完全連結法
(complete linkage method)、形心法(centroid method)、中
位數法(median method)、華德法(Ward`s method)。
非階層式
 非階層式的集群分析,一般常用K平均數法(Kmean method):




一預先假定的集群個數 K,將所也被觀察值分成K群,
然後計算各級群的形心。也可以先設定K 個種子點
(seed)。
計算每個觀察個體到各集群形心的距離,然後將其分
派到最近的一群。
重新計算各集群形心。
重複上兩個步驟,直到無法重新分派為止。
方法的選擇
 Milligan指出平均連結法及華德法較佳。
模擬研究顯示各分析結果並不一致。
 建議


多使用幾種方法再選擇較理想的結果。
先使用階層法決定集群數,再用非階層法集
群。
分析結果的呈現
 分析結果可以用樹狀圖或是冰柱圖顯示分
群狀況。
 有些軟體也報導一些判斷標準。
範例說明
 利用工業人口百分比、商業人口百分比、
淨遷入率、離婚千分率、高等際遇人口百
分比、文盲率,集犯罪萬分率等七種際遇、
社會及犯罪資料,對23個縣市進行分類。
檔案