Social network analysis & friend network in blogosphere 吳邦一 樹德資工系 Social network Node: actor (people, group, organization) Arc (edge) : social relation tie, such as.
Download ReportTranscript Social network analysis & friend network in blogosphere 吳邦一 樹德資工系 Social network Node: actor (people, group, organization) Arc (edge) : social relation tie, such as.
Slide 1
Social network analysis &
friend network in blogosphere
吳邦一
樹德資工系
Slide 2
Social network
Node: actor (people, group, organization)
Arc (edge) : social relation tie, such as friend,
collaboration, message transmission…
Directed or undirected (bidirectional or unidirectional)
Friend network:
Node: people
Arc: friend relationship
In blogosphere: a node is a blog
Slide 3
Social Network
Slide 4
Friend relation in blogosphere
By data mining
Similar hyper-linking
Similar interests
comments
Cross posting
From the explicit friend lists maintained
by bloggers themselves
Slide 5
Slide 6
Friend network in Blogosphere
A node is a blog
X1 在x3的朋友清單中
但x3不在x1的朋友清
單中
X1 在x2的朋友清單中
而且x2也在x1的朋友
清單中
Slide 7
Why unidirectional friends?
在大多數的Blog系統中,加入一個好友
是不需要對方認可的
Hub effect:藝人、名人、正妹帥哥
別忘了無名是以相簿起家
包括:wretch, yam, xuite, pchome
台灣大概只有MSN live space and pixnet的
好友需要確認
Slide 8
The hubs in Wretch
Slide 9
Balance theory
People tend to maintain balanced relationship:
Reciprocity: bidirectional tie
Transitivity: a friend’s friend tends to be friend
Bloggers like to but hard to know
symmetry, undirected
Who add me as a friend
Also hard to know a friend of distance more
than 2
Slide 10
誰加入你為好友
在某人A的部落格網頁上, 你可以看見他
的好友清單(如果他有, 而且是開放的),
但是你無從得知有哪些人將A加入好友,
除非....
你把所有其他的部落格看一遍來個地毯式搜
索徹底檢查
Like a one-way function
Easy to find the outgoing arcs but hard to
find the incoming arcs
Slide 11
人緣列表
Only in few blog systems (in Taiwan)
Other blog systems in Taiwan
MSN live spaces, Pixnet : need confirmation
Yam(天空部落)提供人緣列表
Wretch, PCHome, Xuite, Blogger, Yahoo, Sina, …
Wretch just provides the service recently.
Slide 12
Why crawling the friend network
學術研究
Social network analysis:
傳統上只能做小型社群: data acquisition
Online data: 有機會分析大型的朋友網路
Newman (01): Scientific collaboration networks
Ahn (07): CyWorld, 超過一千多萬人,韓國最大Blog
系統
提供bloggers查詢服務
人際關係搜尋引擎
Slide 13
WARM – blog friend
relationship search service
http://warm.stu.edu.tw
Slide 14
Slide 15
想知道誰將你加為好友
1
2
3
4
Slide 16
想知道誰將你加為好友(續)
輸出畫面中包含
雙向好友(雙箭頭表示)
單向好友(單箭頭表示)
點選鄰近程度可顯示你與
對方的距離
Slide 17
關係搜尋
1
2
3
5
4
Slide 18
利用關係搜尋
若ksbcboy想認識lindy7684,ksbcboy可
以利用【關係查詢】輸入自己與對方帳號
後查出現面的結果。
這表示要認識lindy7684,他可能要先認
識suzuka,想認識suzuka可能得先認識
cristin,而要認識cristin可以從yulu著手,
而yulu本身就是ksbcboy的朋友。
Slide 19
利用關係搜尋(續)
上面的例子中,只查出一條線,更通常
的情形可以查出很多條路線,例如如果
nocold同樣去查lindy則會得到下面的結
果,這時候代表他有很多條路線可以進
行
Slide 20
人氣排名
這是一個輸出的例子,當然,
排名一值會有改變。
這裡也顯示關注人數增加或減
少的情形以及排名的升降,另
外,也提供簡單的評論功能。
WARM的資料更新跟其他搜尋
引擎是一樣的,並無法做到及
時更新,所以增減的改變要在
下一次資料更新時才會顯現。
上次更新日期顯示在首頁中。
Slide 21
相似人氣
如果我們去查詢Jolin的相
似人氣,會得到類似右圖
的結果。這表示加入Jolin
的那些人中有10684位
(29%)也加SHE為好友。
除了看哪些人的粉絲重疊
比較高之外,也可能發現
跟你相似人氣者其實是你
的一位朋友。
Slide 22
相似好友
相似好友與相似人氣很像,
不同的是,他是查詢「你所
加的那些好朋友其實也是誰
的好朋友」
此外,相似好友還有一個用
途是可能找到志同道合的人,
也就是他加入的blog跟你很
像,那麼,他可能跟你興趣
相同。
Slide 23
好友群
所謂好友群是指一群彼此聯繫緊密的朋
友,她們內部聯繫緊密,而對外部的人
的連結相對較疏
一個人的好友通常可以分成若干群
高中同學
國中同學
女朋友
Slide 24
利用好友群功能
如果我們去查lindy在無
名的好友群,會得到類似
右圖的結果
通常可用來了解你的朋友
中哪些人彼此關係比較密
切。
發現他聯誼所認識的女孩
子跟他的哪位朋友彼此有
互連。
Slide 25
系統規模
Blog
用戶
鏈結
Wretch
2,948, 702
43,939,230
Yam
177,929
1,438,857
Pixnet
49,849
21,867
Xuite
62,257
159,891
Slide 26
有什麼用途?
對資工人來說,不過是BFS, database,
shortest path, 網頁程式等簡單技術的
應用(除了好友群)
他有用嗎?
Slide 27
網站流量
Slide 28
營運狀況
Slide 29
使用者需要的,就是有用的
我們不過證實了使用者的需求 –
ISP最需要知道的事情
社會科學是在研究人的行為
Slide 30
網站只是為了滿足人類的偷窺
慾望嗎?
人類在網路上的社交行為已經成為趨勢,
無法討論對錯,只能讓它變得更好
為何網路使用者會成為宅男腐女?
Slide 31
把要去台北的人帶上火車才發
現鐵軌只舖到台南
網路社群平台的最終目的為何?
社交平台,擴大人際關係
Social network 的diameter會隨時間變小
在真實社會中,我們會藉由社交活動認
識朋友的朋友,擴大自己的人際關係,
但是在網路上,Blog能提供足夠的交友
功能嗎?
Only publish, comments, cross-posting
越來越宅
Slide 32
提供更多的社會活動服務為各
平台提供商的責任與趨勢
目前僅僅剛開始, 勢必有越來越多
的服務
Slide 33
動機(續)
Slide 34
各大報導-雜誌
Slide 35
聯合報報導
Slide 36
蘋果報導
Slide 37
報導-TVBS
Slide 38
Slide 39
劈腿事件
Slide 40
報導後流量
Slide 41
隱私權迷思
抓到劈腿對我們來說是個意外,這樣的
意外是不是我們的錯誤?然而,換一個
角度想,常看到網友受騙的情事,如果
這個網站,可以讓人在結交往有時了解
一下對方的交友狀況,不也有預防犯罪
的功能嗎?
公開此服務讓網友了解別人可以對你做
什麼,如果你不願意,把你的資訊設為
保密狀態吧!
Slide 42
隱私權的問題
媒體報導過於辛辣,讓人有揭發隱私之
錯覺
We have only public data
劈腿故事與單向好友的迷思
別人出賣你是否是我的錯
有人大叫「我愛林志玲」此是否為林志玲的
隱私
Slide 43
技術與學術方面
Slide 44
The performance
動態資料
資料計算伺服器
網頁伺服器
靜態資料
資料擷取伺服器
資料庫
Slide 45
The difficulty of blog friend
network analysis
Blog friend relation differs from the real one
Data incompleteness
Hub-effect
Only for unidirectional relationships
How to verify
suffered for all social network analyses
Traditional method
Network reconstruction
good metrics need to be defined
Slide 46
關係搜尋: all shortest paths
Slide 47
Average distance
1.2
0.45
1
0.4
0.8
0.35
0.6
0.3
0.4
0.25
0.2
0.2
0
0
0.15
5
10
15
0.1
0.05
0
0
5
10
15
20
25
20
25
Slide 48
How to compute
BFS
O(mn) is too time-consuming
Random sampling (100 nodes is enough)
Is diameter a good metric?
Usually not strongly connected
Effect diameter (90 percentile)
Slide 49
六度分離理論
六度分離理論:大多數的人之間距離不超過6
所謂的關係, 定義很模糊, 我們都有很熟的朋友, 也有很多不
怎麼熟的朋友.
在BLOG上, 並非朋友都會設定好友, 從這一點上來說, BLOG的
好友比現實生活稀疏;
另一方面, 設為好友的未必是朋友(如名人或是仰慕的對象),
從這一點來說, BLOG好友又較真實來得多一些
整體來說, 除去名人效應(而名人通常並不設很多的好
友), BLOG的好友連接比真實來得少,
如果人們會透過WARM的查詢而發現原來未設好友的
朋友, 因而拉近了彼此的距離, 這就是WARM當初所希
望做到的
Slide 50
Degree 分佈 (log-log scale)
Power-law with two slops
Big-tail
1
1
10
100
1000
10000
100000
0.1
0.01
0.001
0.0001
0.00001
0.000001
0.0000001
1
1
0.1
0.01
三種會員等級
0.001
0.0001
0.00001
0.000001
0.0000001
10
100
1000
10000
Slide 51
Clustering 係數
Degree為k者其好友之間有關聯之機率
1
1
10
100
1000
0.1
0.01
0.001
0.0001
0.00001
(big-tail)
10000
100000
Slide 52
好友群
n 個點的Clique: 這n個人彼此都相互認識.
資料的不完整與名人效應
找clique是一個計算上非常困難的問題,
我們可以放鬆一些條件並用近似的方法來做
n 個點的k-clique: 指的是n個人的群體每個人都認
識其中的n-k個人
n 個點的k-plex: 指的是n個人的群體, 任意兩個人之
間的距離都不超過k, 距離的意思透過幾個人可以相
互認識, 直接認識距離就是1, 所以1-plex就是clique
Slide 53
Slide 54
The friend group
Define friend group as a clique in the
transitive extension
Find the max-clique in the extension
Density analysis
Slide 55
2-clique
d(u,v)<=2 for all u and v
Even 2-clique is too sparse
May have a small density 2/n
Slide 56
3/2-clique
We define the 3/2-clique
d(u,v)+d(v,u)<=3
Each pair is on a 3-cycle or bidirectional
friends
The density is at least ½.
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
The 3/2-clique are much more dense
than the theoretical lower bound
Well-structure network but not random at
all
A good method to find the friend group in
blogosphere with unidirectional friend
relationship
Slide 63
Degree of balance
Reciprocity
The prob. of that an edge is bidirectional
= the ratio of bidirectional edges
0.51 for Wretch
Transitivity degree
The prob. of that a friend’s friend is also a direct
friend.
0.0337 for Wretch (almost not depending on
degree)
Slide 64
Betweenness
The number of shortest paths passing
through a node (an edge)
Large for inter-cluster nodes
Small for intra-cluster nodes
Used to find community
Girvan-Newman’s algorithm
Slide 65
Betweenness
Not good for large networks
Friends of distance>2 have less influence
Hard to compute
GN algorithm takes O(m^2n) time
Maybe we should try to define the
betweenness with limit distances
Slide 66
Remarks
Social computing: 方興未艾
Social network analysis for blogosphere
or WWW
計算問題待解決
評估模式待定義
真相待發覺
機會與需求極大
商機無限
Slide 67
The End
Thank you
Social network analysis &
friend network in blogosphere
吳邦一
樹德資工系
Slide 2
Social network
Node: actor (people, group, organization)
Arc (edge) : social relation tie, such as friend,
collaboration, message transmission…
Directed or undirected (bidirectional or unidirectional)
Friend network:
Node: people
Arc: friend relationship
In blogosphere: a node is a blog
Slide 3
Social Network
Slide 4
Friend relation in blogosphere
By data mining
Similar hyper-linking
Similar interests
comments
Cross posting
From the explicit friend lists maintained
by bloggers themselves
Slide 5
Slide 6
Friend network in Blogosphere
A node is a blog
X1 在x3的朋友清單中
但x3不在x1的朋友清
單中
X1 在x2的朋友清單中
而且x2也在x1的朋友
清單中
Slide 7
Why unidirectional friends?
在大多數的Blog系統中,加入一個好友
是不需要對方認可的
Hub effect:藝人、名人、正妹帥哥
別忘了無名是以相簿起家
包括:wretch, yam, xuite, pchome
台灣大概只有MSN live space and pixnet的
好友需要確認
Slide 8
The hubs in Wretch
Slide 9
Balance theory
People tend to maintain balanced relationship:
Reciprocity: bidirectional tie
Transitivity: a friend’s friend tends to be friend
Bloggers like to but hard to know
symmetry, undirected
Who add me as a friend
Also hard to know a friend of distance more
than 2
Slide 10
誰加入你為好友
在某人A的部落格網頁上, 你可以看見他
的好友清單(如果他有, 而且是開放的),
但是你無從得知有哪些人將A加入好友,
除非....
你把所有其他的部落格看一遍來個地毯式搜
索徹底檢查
Like a one-way function
Easy to find the outgoing arcs but hard to
find the incoming arcs
Slide 11
人緣列表
Only in few blog systems (in Taiwan)
Other blog systems in Taiwan
MSN live spaces, Pixnet : need confirmation
Yam(天空部落)提供人緣列表
Wretch, PCHome, Xuite, Blogger, Yahoo, Sina, …
Wretch just provides the service recently.
Slide 12
Why crawling the friend network
學術研究
Social network analysis:
傳統上只能做小型社群: data acquisition
Online data: 有機會分析大型的朋友網路
Newman (01): Scientific collaboration networks
Ahn (07): CyWorld, 超過一千多萬人,韓國最大Blog
系統
提供bloggers查詢服務
人際關係搜尋引擎
Slide 13
WARM – blog friend
relationship search service
http://warm.stu.edu.tw
Slide 14
Slide 15
想知道誰將你加為好友
1
2
3
4
Slide 16
想知道誰將你加為好友(續)
輸出畫面中包含
雙向好友(雙箭頭表示)
單向好友(單箭頭表示)
點選鄰近程度可顯示你與
對方的距離
Slide 17
關係搜尋
1
2
3
5
4
Slide 18
利用關係搜尋
若ksbcboy想認識lindy7684,ksbcboy可
以利用【關係查詢】輸入自己與對方帳號
後查出現面的結果。
這表示要認識lindy7684,他可能要先認
識suzuka,想認識suzuka可能得先認識
cristin,而要認識cristin可以從yulu著手,
而yulu本身就是ksbcboy的朋友。
Slide 19
利用關係搜尋(續)
上面的例子中,只查出一條線,更通常
的情形可以查出很多條路線,例如如果
nocold同樣去查lindy則會得到下面的結
果,這時候代表他有很多條路線可以進
行
Slide 20
人氣排名
這是一個輸出的例子,當然,
排名一值會有改變。
這裡也顯示關注人數增加或減
少的情形以及排名的升降,另
外,也提供簡單的評論功能。
WARM的資料更新跟其他搜尋
引擎是一樣的,並無法做到及
時更新,所以增減的改變要在
下一次資料更新時才會顯現。
上次更新日期顯示在首頁中。
Slide 21
相似人氣
如果我們去查詢Jolin的相
似人氣,會得到類似右圖
的結果。這表示加入Jolin
的那些人中有10684位
(29%)也加SHE為好友。
除了看哪些人的粉絲重疊
比較高之外,也可能發現
跟你相似人氣者其實是你
的一位朋友。
Slide 22
相似好友
相似好友與相似人氣很像,
不同的是,他是查詢「你所
加的那些好朋友其實也是誰
的好朋友」
此外,相似好友還有一個用
途是可能找到志同道合的人,
也就是他加入的blog跟你很
像,那麼,他可能跟你興趣
相同。
Slide 23
好友群
所謂好友群是指一群彼此聯繫緊密的朋
友,她們內部聯繫緊密,而對外部的人
的連結相對較疏
一個人的好友通常可以分成若干群
高中同學
國中同學
女朋友
Slide 24
利用好友群功能
如果我們去查lindy在無
名的好友群,會得到類似
右圖的結果
通常可用來了解你的朋友
中哪些人彼此關係比較密
切。
發現他聯誼所認識的女孩
子跟他的哪位朋友彼此有
互連。
Slide 25
系統規模
Blog
用戶
鏈結
Wretch
2,948, 702
43,939,230
Yam
177,929
1,438,857
Pixnet
49,849
21,867
Xuite
62,257
159,891
Slide 26
有什麼用途?
對資工人來說,不過是BFS, database,
shortest path, 網頁程式等簡單技術的
應用(除了好友群)
他有用嗎?
Slide 27
網站流量
Slide 28
營運狀況
Slide 29
使用者需要的,就是有用的
我們不過證實了使用者的需求 –
ISP最需要知道的事情
社會科學是在研究人的行為
Slide 30
網站只是為了滿足人類的偷窺
慾望嗎?
人類在網路上的社交行為已經成為趨勢,
無法討論對錯,只能讓它變得更好
為何網路使用者會成為宅男腐女?
Slide 31
把要去台北的人帶上火車才發
現鐵軌只舖到台南
網路社群平台的最終目的為何?
社交平台,擴大人際關係
Social network 的diameter會隨時間變小
在真實社會中,我們會藉由社交活動認
識朋友的朋友,擴大自己的人際關係,
但是在網路上,Blog能提供足夠的交友
功能嗎?
Only publish, comments, cross-posting
越來越宅
Slide 32
提供更多的社會活動服務為各
平台提供商的責任與趨勢
目前僅僅剛開始, 勢必有越來越多
的服務
Slide 33
動機(續)
Slide 34
各大報導-雜誌
Slide 35
聯合報報導
Slide 36
蘋果報導
Slide 37
報導-TVBS
Slide 38
Slide 39
劈腿事件
Slide 40
報導後流量
Slide 41
隱私權迷思
抓到劈腿對我們來說是個意外,這樣的
意外是不是我們的錯誤?然而,換一個
角度想,常看到網友受騙的情事,如果
這個網站,可以讓人在結交往有時了解
一下對方的交友狀況,不也有預防犯罪
的功能嗎?
公開此服務讓網友了解別人可以對你做
什麼,如果你不願意,把你的資訊設為
保密狀態吧!
Slide 42
隱私權的問題
媒體報導過於辛辣,讓人有揭發隱私之
錯覺
We have only public data
劈腿故事與單向好友的迷思
別人出賣你是否是我的錯
有人大叫「我愛林志玲」此是否為林志玲的
隱私
Slide 43
技術與學術方面
Slide 44
The performance
動態資料
資料計算伺服器
網頁伺服器
靜態資料
資料擷取伺服器
資料庫
Slide 45
The difficulty of blog friend
network analysis
Blog friend relation differs from the real one
Data incompleteness
Hub-effect
Only for unidirectional relationships
How to verify
suffered for all social network analyses
Traditional method
Network reconstruction
good metrics need to be defined
Slide 46
關係搜尋: all shortest paths
Slide 47
Average distance
1.2
0.45
1
0.4
0.8
0.35
0.6
0.3
0.4
0.25
0.2
0.2
0
0
0.15
5
10
15
0.1
0.05
0
0
5
10
15
20
25
20
25
Slide 48
How to compute
BFS
O(mn) is too time-consuming
Random sampling (100 nodes is enough)
Is diameter a good metric?
Usually not strongly connected
Effect diameter (90 percentile)
Slide 49
六度分離理論
六度分離理論:大多數的人之間距離不超過6
所謂的關係, 定義很模糊, 我們都有很熟的朋友, 也有很多不
怎麼熟的朋友.
在BLOG上, 並非朋友都會設定好友, 從這一點上來說, BLOG的
好友比現實生活稀疏;
另一方面, 設為好友的未必是朋友(如名人或是仰慕的對象),
從這一點來說, BLOG好友又較真實來得多一些
整體來說, 除去名人效應(而名人通常並不設很多的好
友), BLOG的好友連接比真實來得少,
如果人們會透過WARM的查詢而發現原來未設好友的
朋友, 因而拉近了彼此的距離, 這就是WARM當初所希
望做到的
Slide 50
Degree 分佈 (log-log scale)
Power-law with two slops
Big-tail
1
1
10
100
1000
10000
100000
0.1
0.01
0.001
0.0001
0.00001
0.000001
0.0000001
1
1
0.1
0.01
三種會員等級
0.001
0.0001
0.00001
0.000001
0.0000001
10
100
1000
10000
Slide 51
Clustering 係數
Degree為k者其好友之間有關聯之機率
1
1
10
100
1000
0.1
0.01
0.001
0.0001
0.00001
(big-tail)
10000
100000
Slide 52
好友群
n 個點的Clique: 這n個人彼此都相互認識.
資料的不完整與名人效應
找clique是一個計算上非常困難的問題,
我們可以放鬆一些條件並用近似的方法來做
n 個點的k-clique: 指的是n個人的群體每個人都認
識其中的n-k個人
n 個點的k-plex: 指的是n個人的群體, 任意兩個人之
間的距離都不超過k, 距離的意思透過幾個人可以相
互認識, 直接認識距離就是1, 所以1-plex就是clique
Slide 53
Slide 54
The friend group
Define friend group as a clique in the
transitive extension
Find the max-clique in the extension
Density analysis
Slide 55
2-clique
d(u,v)<=2 for all u and v
Even 2-clique is too sparse
May have a small density 2/n
Slide 56
3/2-clique
We define the 3/2-clique
d(u,v)+d(v,u)<=3
Each pair is on a 3-cycle or bidirectional
friends
The density is at least ½.
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
The 3/2-clique are much more dense
than the theoretical lower bound
Well-structure network but not random at
all
A good method to find the friend group in
blogosphere with unidirectional friend
relationship
Slide 63
Degree of balance
Reciprocity
The prob. of that an edge is bidirectional
= the ratio of bidirectional edges
0.51 for Wretch
Transitivity degree
The prob. of that a friend’s friend is also a direct
friend.
0.0337 for Wretch (almost not depending on
degree)
Slide 64
Betweenness
The number of shortest paths passing
through a node (an edge)
Large for inter-cluster nodes
Small for intra-cluster nodes
Used to find community
Girvan-Newman’s algorithm
Slide 65
Betweenness
Not good for large networks
Friends of distance>2 have less influence
Hard to compute
GN algorithm takes O(m^2n) time
Maybe we should try to define the
betweenness with limit distances
Slide 66
Remarks
Social computing: 方興未艾
Social network analysis for blogosphere
or WWW
計算問題待解決
評估模式待定義
真相待發覺
機會與需求極大
商機無限
Slide 67
The End
Thank you