SNA발표 (1)

Download Report

Transcript SNA발표 (1)

Network Analysis 발생 배경
• 사회 과학
• 다양한 네트워크 분석, 그
래프 이론
Newman et al, 2006
A very early example of network analysis comes from t
he city of Konigsberg (now Kaliningrad). Famous math
ematician Leonard Euler used a graph to prove that th
ere is no path that crosses each of the city's bridges on
ly once (Newman et al, 2006).
Introduction
Why do Networks Matter?
Local vision
Introduction
Why do Networks Matter?
Local vision
Introduction
High Schools as Networks
네트워크의 의미
• 네트워크 관점에서 사회를 살펴본다는 것은 개인을 각각 살펴본다
기보다는, 관계 네트워크 속에서의 개인을 살펴본다는 뜻이며, 이러
한 구조 속에서 개인의 사회적 행동을 살펴본다는 의미
“ Studying society from a network perspective is to study individuals
as embedded in a network of relations and seek explanations for
social behavior in the structure of these networks rather than in the
individuals alone.”
• 관계들의 네트워크가 중요하다는 것은 새로운 사실이 아니지만,
1900년 중반 이후 컴퓨터 기술의 발전이 네트워크 분석을 조금 더
용이하게 만들면서 보편화 됨
“ The idea that networks of relations are important in social science
is not new, but widespread availability of data and advances in
computing and methodology have made it much easier now to
apply SNA to a range of problems”
네트워크 분석의 적용 범위
- 조직: 회사 내 커뮤니케이션의 흐름
(Garton et al, 1997)
- 범죄자: 범죄자 네트워크 파악을 통한
치안
- 소셜네트워크 사이트 활성화 측정
- 정부 조직간의 효율적 정보 흐름
- 케이블 TV 회사의 망 개선
- 등등등….연결이 있는 곳이라면 어디라
도
왜, 언제 네크워크 분석을 쓰나?
예를 들면
• 네트워크의 효율성을 어떻게 증가시킬까..를 고민할때
• 관계들 속의 패턴을 발견하고 시각화 시키고 싶을때
• 네트워크 속의 정보의 흐름을 파악하고 싶을때.
• => 사람 하나 하나를 보는 것이 아니라, 이들 간의 관계,
연결을 살펴보고 싶을때
Types of Network
네트워크에서 중요 4 컨셉
1. Networks
: 네트워크의 전체 형태(visual)
2. Tie Strength
: 네트워크 내에서 연결의 강도가 강한가 약한가
3. Key Players
: 전체 네트워크 내에서 누가 중심이 되는 인물인가
4. Cohesion
: 전체 네트워크는 어떻게 뭉쳐져 있는가?
STEP 1.
네트워크 파악하기
네트워크 구성하기
대화를 통해 재구성하는 네트워크
(1) 이동석:
(2) 박환수:
(4) 이남민:
(1) 이동석:
(2)환수야, 애들한테 오늘 저녁 회식 한다고 해
(3)준호야, (4)남민아 우리 오늘 회식한대!
(3)준호야, 오늘 회식한다는데 가자!
(3)준호야, 회식 이야기 들었지?
Graph
관계
네트워크는
기본적으로
FROM, TO
로 구성
Vertex (node)
Edge (link)
네트워크 데이터 만들기
Step 1. Edge list 만들기 by analysts
Graph (방향성 있음)
From
To
Vertex
1
1
2
2
3
Vertex
2
3
3
4
4
Step 2. Adjacency matrix 만들기 by analysts, software
From
To
프로그램이 해줌
Vertex
1
2
3
4
1
0
0
0
2
1
0
0
3
1
1
1
4
0
1
0
네트워크의 방향성 유무
Directed
(who contacts whom)
Step 1. Edge list remains the same
Vertex
1
1
2
2
3
Vertex
2
3
3
4
4
Step 2. Adjacency matrix 대칭시키기 by analysts, software
From
To
Undirected
(who knows whom)
Vertex
1
2
3
4
1
1
1
0
2
1
1
1
3
1
1
0
4
0
1
0
에고 네트워크(Ego networks) 와 전체 네트워크 (whole networks)
pendant
연결을 넘어서….가중치 부여하기
30
5
22
Vertex
i
i
2
2
4
2
37
• 가중치는 아무 지표를 사용할 수 있습니
다.
• 예를 들면
• 빈도: 이메일, 대화
• 정보의 흐름
Vertex
• 정도: 친하기, 사랑하기
1
2
• 태도: 부정적, 아주 부정적…
3
• ……
4
1
0
0
0
Vertex
2
3
3
4
3
2
30
0
0
Weight
30
5
22
2
37
3
5
22
37
4
0
2
0
STEP 2.
연결 강도, 중심성 측정
(4가지 기본 지표)
1. Degree
Degree:
한 노드가 직접적으로(1단계만) 몇 개의 다
른 노드에 연결되어 있는가?
(방향성있는 경우)
자기에게 들어오는 엣지 수: IN-DEGREE
자기로부터 나가는 엣지 수: OUT-DEGREE
로 분리하기도 함
예)
옆의 3번의 경우 (방향성이 없음)
직접적으로 연결된 노드의 수는 4
따라서 3 노드의 디그리는 4
다음 컨셉 전에 알아야 할 컨셉
경로, 최단경로
경로(Path)
- 두 노드를 연결하는 모든 경우
- 예) 1번과 4번을 연결하는 경로
{1,2,4}, {1,3,4}, {1,2,3,4}, {1,3,2,4},
{1,2,5,3,4}, {1,3,5,2,4}
최단 경로(the shortest path)
- 경로 중에 최단 경로
- 예) {1,2,4}, {1,3,4},
2. Betweenness
어떤 노드의 Betweenness
: 전체 네트워크의 경로 중에 그 노드를 통
과해가는 최단 경로의 수
=> 얼마나 빠른 정보 전달의 중심에 있는
가?
* Betweenness 수치는 절대적인 숫자가 아
니라, 연구자에 따라 최대값을 1로 표준화
시키기도 함 (상대적 비교를 위해서)
3. Closeness
어떤 노드의 Closeness
- 한 노드가 네트워크 내의 다른 네트워크
로 연결되기 위해 거쳐야 할 Edge의 수
의 평균
- 몇 단계를 거쳐서 다른 노드 모두에 도
착하는가?
- 예) 3번 노드의 경우
- 1단계 연결 4개: 1,2,3,4 연결시
- 2단계 연결 2개: 6,7 연결시
- 따라서 1*4 + 2*2 = 8
- 전체 edge수 / 다른 노드 수 =
closeness
- 8/6 => 1.333333
4. Eigenvector
- 전체 네트워크에서 그 노드에 직접적으
로 연결된 다른 노드들의 아이겐벡터의
합
- 아이겐벡터 값이 높다는 것은, 그 노드
와 직접적으로 연결된 노드들이 영향력
이 있다는 이야기 (자신 노드 포함)
- 구글이 페이지 랭크에 사용하는 방법
요약. 4 지표의 해석 응용
• Degree
– 얼마나 많은 사람들이 직접적으로 연결되어 있는가?
• Betweenness
– 이 사람이 네트워크의 다른 두 사람 사이에 있을 가능성이
얼마나 높은가?
• Closeness
– 얼마나 빨리 네트워크 내의 다른 사람들에게 연결이 되는
가?
• Eigenvector
– 영향력 있는 사람들에 얼마나 잘 연결되어 있는가?
STEP 3.
키 플레이어 찾기
키 플레이어
(목적에 따라 다른 키 플레이어)
Degree(직접적 연결)으로 보자면
10번 노드가 가장 높음
그러나 3, 5번의 경우 Betweenness값이 높
음
 전체네트워크의 사람들 연결의 중간점
일 가능성이 높음
 이들 값이 높을 수록 이들을 기준으로
집단이 클러스터링 될 가능성이 높음
Broker 찾기
 어떤 연결이 끊어지면, 전체 네트워크의
정보 흐름이 제일 큰 타격을 입을까?
 3-5번 간 관계가 끊기면, 두 집간은 서로
연결될 방법이 없음
 Structural Holes, Broker라 부름
STEP 4.
네트워크의 응집도 찾기
1. Density
현재 연결된 엣지의 수/ 전체 연결가능한
모든 엣지의 수
=> 해석: 가능한 연결 중에 실제로 연결된
비율
2. Clustering
Clustering coefficient
: 이웃한 구성 요소들의 density
주로 Betweenness 가 높은 노드들을 기준
으로 다른 클러스터로 구분 가능
평균 거리, 최대 거리
최대 거리
: 네트워크 내의 가장 연결되지 않은 두 노
드간의 거리
 Distance, diameter라 부름
평균 거리
: 네트워크 내에 노드들이 평균적으로 몇단
계를 거쳐 연결되는가?
 예) 인간관계 6단계의 법칙..
 우리가 말하는 한다리 건너 안다..하는
의미..
네트워크 분석 툴
• 가장 쉽고, 공짜로 얻을 수 있는 프로그램
– Excel 2007, 2010용 NodeXL add-in
– 발표 할 때 시연했던 프로그램입니다.