Transcript 統計諮詢
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分 類的多變量分析方法。 在不同專業領域也稱為 Q型分類(Q Analysis)、 分類建構(typology construction)、 類型分析(classification) analysis) 及數值分類法(numerical taxonomy)。 意義與目的 集群分析可用在醫學商將各種疾病加以分類、行 銷上將各客戶加以分群。 主要方法是使用一組的計量資料,加以計算各觀 察值得相似性或相異性,然後使用各種分析的方 法,將這些觀察值加以分類,進而能更有效地掌 握各級群的性質。 相似性與相異性 資料的相異性多以距離來判斷。距離衡量有 街道距離(city block): 歐氏距離(Euclidean distance): 敏可斯基距離(Minkowski distance): 馬氏距離(Mahalanobis distance): 距離值愈大,表示兩倍觀察個體距離愈大,因 此相異性也愈大。 另外可利用被觀察個體間的相關矩陣(稱為Q型 矩陣),來表示其相似性。 分析方法 分成階層式及非階層式兩大類。 階層式 階層式的聚合步驟,是先計算出各被觀察個體間的距離 或組內誤差矩陣,然後將最接近的兩個被觀察個體加以 合併成一集群,在計算合併後各被觀察個體間的距離或 組內誤差,並重複以上的程序,直到所有的觀察個體合 併成同一集群。 常用的聚合方法有平均連結法(average linkage method)、 單一連結法(single linkage method)、完全連結法 (complete linkage method)、形心法(centroid method)、中 位數法(median method)、華德法(Ward`s method)。 非階層式 非階層式的集群分析,一般常用K平均數法(Kmean method): 一預先假定的集群個數 K,將所也被觀察值分成K群, 然後計算各級群的形心。也可以先設定K 個種子點 (seed)。 計算每個觀察個體到各集群形心的距離,然後將其分 派到最近的一群。 重新計算各集群形心。 重複上兩個步驟,直到無法重新分派為止。 方法的選擇 Milligan指出平均連結法及華德法較佳。 模擬研究顯示各分析結果並不一致。 建議 多使用幾種方法再選擇較理想的結果。 先使用階層法決定集群數,再用非階層法集 群。 分析結果的呈現 分析結果可以用樹狀圖或是冰柱圖顯示分 群狀況。 有些軟體也報導一些判斷標準。 範例說明 利用工業人口百分比、商業人口百分比、 淨遷入率、離婚千分率、高等際遇人口百 分比、文盲率,集犯罪萬分率等七種際遇、 社會及犯罪資料,對23個縣市進行分類。 檔案