Transcript 口委問題解說
CLUSTERING NETWORKED DATA BASED ON LINK AND SIMILARITY IN ACTIVE LEARNING 口試委員問題解說 1 Speaker : Yi Ming Chang OUTLINE 1.如何降低computation cost? 2.Out-link連到同一個label的機率 3.Similarity的dimension-reduction 4.為何提出的方法與ALFNET相比能夠降低 computation cost也能提高準確率? 5.關於c1, c2。以實驗看起來是用link分類比較準 6.Initial solution應該慎重產生而不是亂數產生。多 花費一點時間在產生較佳的初始解在演算法的收斂 速度上會較有幫助。 2 如何降低COMPUTATION COST? 避免all-pair的比較 使用其它資料結構以減少比對的時間 Answer: 原本屬性相似度是按照similarity的公式一個一個按部 就班地算 經過資料分析得知在兩個data set平均每個node只會有10幾~30個左右 的attribute. 改變資料結構: 把node有的字詞(attribute)用index表示且使用size=40 的array來存此index,並用break來避免讀取空index花的時間. node1 node2 1433維 1433維 node1 node2 40維 40維 計算複雜度 : node數*兩兩字串比對 = 2708 * 2707*1433 降低到2708*2707*40不到(因有使用break) 時間改善: Cora 4700s 7s CiteSeer7500s 35s 3 OUT-LINK連到同一個LABEL的機率 目的在了解是否有非常著論文的citation以降低分類的準確 率? Answer: 經典論文有多類都會有cite到 我們的方法只用local classifier而不計算neighbor feature ,會有影響到我們的只有分群,但微乎其微。 原因是我們不只考慮link且還考慮similarity來分群。 就算把此node分到不適當的群內,因為我們方法是使用 attribute來分類,在3000個node左右的data set,影響非 常微小(一個node也只有30個左右的attribute)。 4 SIMILARITY的DIMENSION-REDUCTION PCA: 正交化線性變換,把數據變換到一個新的座標系統中,使得 這一數據的任何投影的第一大變異數在第一個座標(稱為第 一主成分)上,第二大變異數在第二個座標(第二主成分) 上,依次類推。 獨立性:為了讓資料間沒有相關性(correlation),也就是讓 covariance正交化,使得covariance左下角和右上角都為 零,這樣可以達到資料的獨立性,如果降階時資料有相關性 那把其中的軸拿掉時座標點無法單獨被定義。 缺點:資料會失真~數值全部變成小數 而無法計算cosine similarity。 5 為何提出的方法與ALFNET相比能夠降低 COMPUTATION COST也能提高準確率? Answer: 降低時間cost是用local classifier。 提高準確度是因為我們利用分群把群內相似的node聚集起 來以提升learning的準確度。 6 關於C1, C2。以實驗看起來是用LINK分類比較準 Answer: 要看data set,像Cora就是用Link較好,因為彼此同類間 的in-link數多,內聚力較強。 而CiteSeer因為彼此同類間的in-link數少,且不同類但是 有相同屬性的node較少,用attribute分群效果較好。 多類問題是因為我們使用attribute分群會因為有很多不同 類但是有相同屬性的node,導致我們無法單純用attribute 把node分得很好。 而link通常比較會有領域相關性,所以在多類問題比起用 attribute會有較佳的分群效果。 7 INITIAL SOLUTION應該慎重產生而不是亂數產 生。多花費一點時間在產生較佳的初始解在演算 法的收斂速度上會較有幫助 Answer: 如果是CC有用到neighbor的label,挑link較多且與之同類 別的node當label準確度會提升。 但我們的方法使用local classifier,是用attribute來分 類,initial挑link較多且與之同類別對分類器沒有顯著影 響。 除非我們能找出某類的某幾個attributes是判別此類別的最 大特徵,挑出擁有這些attribute的nodes當initial labeled data才對準確度有所幫助。 8