口委問題解說

Download Report

Transcript 口委問題解說

CLUSTERING NETWORKED DATA BASED
ON LINK AND SIMILARITY IN ACTIVE
LEARNING
口試委員問題解說
1
Speaker : Yi Ming Chang
OUTLINE
1.如何降低computation cost?
2.Out-link連到同一個label的機率
3.Similarity的dimension-reduction
4.為何提出的方法與ALFNET相比能夠降低
computation cost也能提高準確率?
5.關於c1, c2。以實驗看起來是用link分類比較準
6.Initial solution應該慎重產生而不是亂數產生。多
花費一點時間在產生較佳的初始解在演算法的收斂
速度上會較有幫助。
2
如何降低COMPUTATION
COST?
避免all-pair的比較
使用其它資料結構以減少比對的時間
Answer: 原本屬性相似度是按照similarity的公式一個一個按部
就班地算
經過資料分析得知在兩個data set平均每個node只會有10幾~30個左右
的attribute.
改變資料結構: 把node有的字詞(attribute)用index表示且使用size=40
的array來存此index,並用break來避免讀取空index花的時間.
node1
node2
1433維
1433維
node1
node2
40維
40維
計算複雜度 : node數*兩兩字串比對 = 2708 * 2707*1433
降低到2708*2707*40不到(因有使用break)
時間改善: Cora 4700s  7s
CiteSeer7500s  35s
3
OUT-LINK連到同一個LABEL的機率
目的在了解是否有非常著論文的citation以降低分類的準確
率?
Answer: 經典論文有多類都會有cite到
我們的方法只用local classifier而不計算neighbor feature
,會有影響到我們的只有分群,但微乎其微。
原因是我們不只考慮link且還考慮similarity來分群。
就算把此node分到不適當的群內,因為我們方法是使用
attribute來分類,在3000個node左右的data set,影響非
常微小(一個node也只有30個左右的attribute)。
4
SIMILARITY的DIMENSION-REDUCTION
PCA:
正交化線性變換,把數據變換到一個新的座標系統中,使得
這一數據的任何投影的第一大變異數在第一個座標(稱為第
一主成分)上,第二大變異數在第二個座標(第二主成分)
上,依次類推。
獨立性:為了讓資料間沒有相關性(correlation),也就是讓
covariance正交化,使得covariance左下角和右上角都為
零,這樣可以達到資料的獨立性,如果降階時資料有相關性
那把其中的軸拿掉時座標點無法單獨被定義。
缺點:資料會失真~數值全部變成小數
而無法計算cosine similarity。
5
為何提出的方法與ALFNET相比能夠降低
COMPUTATION COST也能提高準確率?
Answer:
降低時間cost是用local classifier。
提高準確度是因為我們利用分群把群內相似的node聚集起
來以提升learning的準確度。
6
關於C1, C2。以實驗看起來是用LINK分類比較準
Answer:
要看data set,像Cora就是用Link較好,因為彼此同類間
的in-link數多,內聚力較強。
而CiteSeer因為彼此同類間的in-link數少,且不同類但是
有相同屬性的node較少,用attribute分群效果較好。
多類問題是因為我們使用attribute分群會因為有很多不同
類但是有相同屬性的node,導致我們無法單純用attribute
把node分得很好。
而link通常比較會有領域相關性,所以在多類問題比起用
attribute會有較佳的分群效果。
7
INITIAL SOLUTION應該慎重產生而不是亂數產
生。多花費一點時間在產生較佳的初始解在演算
法的收斂速度上會較有幫助
Answer:
如果是CC有用到neighbor的label,挑link較多且與之同類
別的node當label準確度會提升。
但我們的方法使用local classifier,是用attribute來分
類,initial挑link較多且與之同類別對分類器沒有顯著影
響。
除非我們能找出某類的某幾個attributes是判別此類別的最
大特徵,挑出擁有這些attribute的nodes當initial labeled
data才對準確度有所幫助。
8