Social network analysis & friend network in blogosphere 吳邦一 樹德資工系 Social network   Node: actor (people, group, organization) Arc (edge) : social relation tie, such as.

Download Report

Transcript Social network analysis & friend network in blogosphere 吳邦一 樹德資工系 Social network   Node: actor (people, group, organization) Arc (edge) : social relation tie, such as.

Slide 1

Social network analysis &
friend network in blogosphere
吳邦一
樹德資工系


Slide 2

Social network



Node: actor (people, group, organization)
Arc (edge) : social relation tie, such as friend,
collaboration, message transmission…




Directed or undirected (bidirectional or unidirectional)

Friend network:




Node: people
Arc: friend relationship
In blogosphere: a node is a blog


Slide 3

Social Network


Slide 4

Friend relation in blogosphere


By data mining








Similar hyper-linking
Similar interests
comments
Cross posting

From the explicit friend lists maintained
by bloggers themselves


Slide 5


Slide 6

Friend network in Blogosphere





A node is a blog
X1 在x3的朋友清單中
但x3不在x1的朋友清
單中
X1 在x2的朋友清單中
而且x2也在x1的朋友
清單中


Slide 7

Why unidirectional friends?


在大多數的Blog系統中,加入一個好友
是不需要對方認可的






Hub effect:藝人、名人、正妹帥哥
別忘了無名是以相簿起家
包括:wretch, yam, xuite, pchome
台灣大概只有MSN live space and pixnet的
好友需要確認


Slide 8

The hubs in Wretch


Slide 9

Balance theory


People tend to maintain balanced relationship:


Reciprocity: bidirectional tie






Transitivity: a friend’s friend tends to be friend

Bloggers like to but hard to know




symmetry, undirected

Who add me as a friend

Also hard to know a friend of distance more
than 2


Slide 10

誰加入你為好友


在某人A的部落格網頁上, 你可以看見他
的好友清單(如果他有, 而且是開放的),
但是你無從得知有哪些人將A加入好友,
除非....




你把所有其他的部落格看一遍來個地毯式搜
索徹底檢查

Like a one-way function


Easy to find the outgoing arcs but hard to
find the incoming arcs


Slide 11

人緣列表


Only in few blog systems (in Taiwan)





Other blog systems in Taiwan




MSN live spaces, Pixnet : need confirmation
Yam(天空部落)提供人緣列表
Wretch, PCHome, Xuite, Blogger, Yahoo, Sina, …

Wretch just provides the service recently.


Slide 12

Why crawling the friend network


學術研究


Social network analysis:



傳統上只能做小型社群: data acquisition
Online data: 有機會分析大型的朋友網路





Newman (01): Scientific collaboration networks
Ahn (07): CyWorld, 超過一千多萬人,韓國最大Blog
系統

提供bloggers查詢服務


人際關係搜尋引擎


Slide 13

WARM – blog friend
relationship search service
http://warm.stu.edu.tw


Slide 14


Slide 15

想知道誰將你加為好友
1

2

3

4


Slide 16

想知道誰將你加為好友(續)


輸出畫面中包含





雙向好友(雙箭頭表示)
單向好友(單箭頭表示)

點選鄰近程度可顯示你與
對方的距離


Slide 17

關係搜尋
1

2

3
5

4


Slide 18

利用關係搜尋




若ksbcboy想認識lindy7684,ksbcboy可
以利用【關係查詢】輸入自己與對方帳號
後查出現面的結果。
這表示要認識lindy7684,他可能要先認
識suzuka,想認識suzuka可能得先認識
cristin,而要認識cristin可以從yulu著手,
而yulu本身就是ksbcboy的朋友。


Slide 19

利用關係搜尋(續)


上面的例子中,只查出一條線,更通常
的情形可以查出很多條路線,例如如果
nocold同樣去查lindy則會得到下面的結
果,這時候代表他有很多條路線可以進



Slide 20

人氣排名






這是一個輸出的例子,當然,
排名一值會有改變。
這裡也顯示關注人數增加或減
少的情形以及排名的升降,另
外,也提供簡單的評論功能。
WARM的資料更新跟其他搜尋
引擎是一樣的,並無法做到及
時更新,所以增減的改變要在
下一次資料更新時才會顯現。
上次更新日期顯示在首頁中。


Slide 21

相似人氣




如果我們去查詢Jolin的相
似人氣,會得到類似右圖
的結果。這表示加入Jolin
的那些人中有10684位
(29%)也加SHE為好友。
除了看哪些人的粉絲重疊
比較高之外,也可能發現
跟你相似人氣者其實是你
的一位朋友。


Slide 22

相似好友




相似好友與相似人氣很像,
不同的是,他是查詢「你所
加的那些好朋友其實也是誰
的好朋友」
此外,相似好友還有一個用
途是可能找到志同道合的人,
也就是他加入的blog跟你很
像,那麼,他可能跟你興趣
相同。


Slide 23

好友群




所謂好友群是指一群彼此聯繫緊密的朋
友,她們內部聯繫緊密,而對外部的人
的連結相對較疏
一個人的好友通常可以分成若干群
高中同學

國中同學

女朋友


Slide 24

利用好友群功能






如果我們去查lindy在無
名的好友群,會得到類似
右圖的結果
通常可用來了解你的朋友
中哪些人彼此關係比較密
切。
發現他聯誼所認識的女孩
子跟他的哪位朋友彼此有
互連。


Slide 25

系統規模
Blog

用戶

鏈結

Wretch

2,948, 702

43,939,230

Yam

177,929

1,438,857

Pixnet

49,849

21,867

Xuite

62,257

159,891


Slide 26

有什麼用途?
對資工人來說,不過是BFS, database,
shortest path, 網頁程式等簡單技術的
應用(除了好友群)
他有用嗎?


Slide 27

網站流量


Slide 28

營運狀況


Slide 29

使用者需要的,就是有用的
我們不過證實了使用者的需求 –
ISP最需要知道的事情
社會科學是在研究人的行為


Slide 30

網站只是為了滿足人類的偷窺
慾望嗎?
人類在網路上的社交行為已經成為趨勢,
無法討論對錯,只能讓它變得更好
為何網路使用者會成為宅男腐女?


Slide 31

把要去台北的人帶上火車才發
現鐵軌只舖到台南


網路社群平台的最終目的為何?





社交平台,擴大人際關係
Social network 的diameter會隨時間變小

在真實社會中,我們會藉由社交活動認
識朋友的朋友,擴大自己的人際關係,
但是在網路上,Blog能提供足夠的交友
功能嗎?



Only publish, comments, cross-posting
越來越宅


Slide 32

提供更多的社會活動服務為各
平台提供商的責任與趨勢
目前僅僅剛開始, 勢必有越來越多
的服務


Slide 33

動機(續)


Slide 34

各大報導-雜誌


Slide 35

聯合報報導


Slide 36

蘋果報導


Slide 37

報導-TVBS


Slide 38


Slide 39

劈腿事件


Slide 40

報導後流量


Slide 41

隱私權迷思




抓到劈腿對我們來說是個意外,這樣的
意外是不是我們的錯誤?然而,換一個
角度想,常看到網友受騙的情事,如果
這個網站,可以讓人在結交往有時了解
一下對方的交友狀況,不也有預防犯罪
的功能嗎?
公開此服務讓網友了解別人可以對你做
什麼,如果你不願意,把你的資訊設為
保密狀態吧!


Slide 42

隱私權的問題






媒體報導過於辛辣,讓人有揭發隱私之
錯覺
We have only public data
劈腿故事與單向好友的迷思



別人出賣你是否是我的錯
有人大叫「我愛林志玲」此是否為林志玲的
隱私


Slide 43

技術與學術方面


Slide 44

The performance
動態資料
資料計算伺服器

網頁伺服器
靜態資料
資料擷取伺服器

資料庫


Slide 45

The difficulty of blog friend
network analysis


Blog friend relation differs from the real one


Data incompleteness




Hub-effect




Only for unidirectional relationships

How to verify





suffered for all social network analyses

Traditional method
Network reconstruction

good metrics need to be defined


Slide 46

關係搜尋: all shortest paths


Slide 47

Average distance
1.2

0.45

1

0.4

0.8

0.35

0.6

0.3

0.4

0.25

0.2

0.2

0
0

0.15

5

10

15

0.1
0.05
0
0

5

10

15

20

25

20

25


Slide 48

How to compute


BFS





O(mn) is too time-consuming
Random sampling (100 nodes is enough)

Is diameter a good metric?



Usually not strongly connected
Effect diameter (90 percentile)


Slide 49

六度分離理論


六度分離理論:大多數的人之間距離不超過6










所謂的關係, 定義很模糊, 我們都有很熟的朋友, 也有很多不
怎麼熟的朋友.
在BLOG上, 並非朋友都會設定好友, 從這一點上來說, BLOG的
好友比現實生活稀疏;
另一方面, 設為好友的未必是朋友(如名人或是仰慕的對象),
從這一點來說, BLOG好友又較真實來得多一些

整體來說, 除去名人效應(而名人通常並不設很多的好
友), BLOG的好友連接比真實來得少,
如果人們會透過WARM的查詢而發現原來未設好友的
朋友, 因而拉近了彼此的距離, 這就是WARM當初所希
望做到的


Slide 50

Degree 分佈 (log-log scale)
Power-law with two slops
Big-tail

1
1

10

100

1000

10000

100000

0.1

0.01

0.001

0.0001

0.00001

0.000001

0.0000001

1
1
0.1

0.01

三種會員等級

0.001

0.0001

0.00001

0.000001

0.0000001

10

100

1000

10000


Slide 51

Clustering 係數
Degree為k者其好友之間有關聯之機率

1
1

10

100

1000

0.1
0.01
0.001
0.0001
0.00001

(big-tail)

10000

100000


Slide 52

好友群


n 個點的Clique: 這n個人彼此都相互認識.





資料的不完整與名人效應
找clique是一個計算上非常困難的問題,

我們可以放鬆一些條件並用近似的方法來做




n 個點的k-clique: 指的是n個人的群體每個人都認
識其中的n-k個人
n 個點的k-plex: 指的是n個人的群體, 任意兩個人之
間的距離都不超過k, 距離的意思透過幾個人可以相
互認識, 直接認識距離就是1, 所以1-plex就是clique


Slide 53


Slide 54

The friend group






Define friend group as a clique in the
transitive extension
Find the max-clique in the extension
Density analysis


Slide 55

2-clique



d(u,v)<=2 for all u and v
Even 2-clique is too sparse


May have a small density 2/n


Slide 56

3/2-clique


We define the 3/2-clique





d(u,v)+d(v,u)<=3
Each pair is on a 3-cycle or bidirectional
friends

The density is at least ½.


Slide 57


Slide 58


Slide 59


Slide 60


Slide 61


Slide 62



The 3/2-clique are much more dense
than the theoretical lower bound




Well-structure network but not random at
all
A good method to find the friend group in
blogosphere with unidirectional friend
relationship


Slide 63

Degree of balance


Reciprocity






The prob. of that an edge is bidirectional
= the ratio of bidirectional edges
0.51 for Wretch

Transitivity degree




The prob. of that a friend’s friend is also a direct
friend.
0.0337 for Wretch (almost not depending on
degree)


Slide 64

Betweenness


The number of shortest paths passing
through a node (an edge)





Large for inter-cluster nodes
Small for intra-cluster nodes
Used to find community


Girvan-Newman’s algorithm


Slide 65

Betweenness


Not good for large networks



Friends of distance>2 have less influence
Hard to compute




GN algorithm takes O(m^2n) time

Maybe we should try to define the
betweenness with limit distances


Slide 66

Remarks



Social computing: 方興未艾
Social network analysis for blogosphere
or WWW






計算問題待解決
評估模式待定義
真相待發覺
機會與需求極大
商機無限


Slide 67

The End
Thank you