RT²M: a Real-time Twitter Trend Mining System

Download Report

Transcript RT²M: a Real-time Twitter Trend Mining System

텍스트 마이닝 기법을 이용한 소셜 미디어
데이터 분석
2013. 7. 2
송민
연세대학교 문헌정보학과
Text and Social Media Mining (TSMM) Lab
1
1. Introduction
2. Related Works
2.1 Topic Modeling & Network Analysis on Social Media
2.2 Prediction on Social Issue & Presidential Election
3. Methodology
3.1 Twitter Mining System
3.2 Research Design
4. Topic Modeling and Network Analysis on
Korean Presidential Election
4.1 Multinomial Topic Modeling
4.2 Network Analysis
5. Conclusion
2
3
Introduction
WEB
2.0
paradigm
Communication
TECHNIC
4
Research Purpose
연구질문 1
트위터 상에서 발견되는 토픽은 실제 사회적 이슈와
어떠한 관계가 있는가?
연구질문 2
대선과 관련한 이용자들의 네트워크는 어떠한 특징을
보이는가?
5
6
System Overview
Sends Queries
Twitter4J Stream API
Query Terms
: “Geun Hae Park”,
“Jae In Moon”,
“Chul Su Ahn”,
“Presidential Election”
Gets Data in Real-time
Data Processing
(Morph. Anal.)
• Keywords
• Mentions
• User-Mention Pairs
• User-Keyword Pairs
Local Database
Has
Redis
DB
MySQL
DB
Has
• Twitter_ID
• Tweet
• Timestamp
RT2M System
Term
Co-occurrence
Retrieval
Topic Modeling
By Timeline
(Multi-nomial LDA)
Network Analysis
&
Visualization
TF/IDF-based
User Similarity
Calculation
Twitter Mining System
8
Twitter Mining System
동시출현 단어
검색
Term Co-occurrence
Retrieval
• 특정한 질의어를
입력하면
멘션에서 해당
질의어와 함께
출현한 단어를
동시출현 빈도
순으로 출력
• 결과는 100개,
500개, 1,000개,
2,000개 단위로
출력
멘션 기반
이용자
네트워크
시각화
Visualization Twitter
Users by Query
• 특정한 질의어를
입력하면 해당
질의어를
포함하여 멘션을
주고 받은
이용자들 간의
네트워크를
시각화하여 출력
이용자간
유사도 검색
TF-IDF Similarity
Calculation between Two
Users
• 두 이용자의
아이디를
입력하면 해당
이용자들이
작성한 멘션에
기반하여 TF-IDF를
계산하고, 이를
기반으로
이용자간의
유사도를 출력
토픽 모델링
Topic Modeling
• 해당기간 내 수집된
문서들을 시간을
third parameter로
하는 Multinomial LDA
알고리즘을
적용하여 토픽
모델링의 결과를
해당 토픽 내
단어분포와 함께
출력
9
Research Design
2012년 10월 1일부터 31일까지
트위터 한국어 홈페이지
트위터 상의
사회적 이슈를
시계열로 추적
본문에 “박근혜”, “문재인”, “안철수”, “대선”이라는
단어가 출현한 1,737,969 건의 트윗을 수집
‘대선’이라는
이슈를 중심으로
발생하는 사회적
네트워크의
특성을 규명
10
Multinomial Topic
Modeling
DMR Generative Model
11
User Network Analysis
소셜 네트워크 분석? 개인, 집단, 사회의 관계를 네트워크로 파악하는 연구방법론
node
node
tie
개인 또는 집단
node
node
tie
node
node
tie
tie
node
tie
node
tie
node
분석 기본 단위 : 트위터 멘션과 그 멘션의 방향성  NETWORK 추출 / 특성 분석
사용 라이브러리 : JUNG(Java Universal Network/Graph Framework)  네트워크 분석과 시각화
사용 알고리즘 : Community Detection / PageRank (JUNG)  이용자의 특성파악
12
13
Multinomial Topic Modeling
_
Result Overview
3.5
3
2.5
2
Topic_01
1.5
Topic_02
Topic_03
1
0.5
0
Topic_04
Topic_05
Topic_06
Topic_07
Topic_08
-0.5
Topic_09
Topic_10
-1
-1.5
-2
-2.5
14
Multinomial Topic Modeling
_
Result Overview
Topic
Label
Major Terms
Type
Topic_01
정수장학회
박근혜, 정수장학회, 안철수, 대선, 문재인, MBC, 최필립,
새누리당, 부산일보
rising
Topic_02
대선 후보
박근혜, 문재인, 안철수, 후보, 대선, 대통령
rising
Topic_03
박근혜 지지율
박근혜, 후보, 안철수, 대선, 새누리당, 문재인, 단일화, 대통령,
지지율, 선거
falling
Topic_04
안철수 의혹
안철수, 박근혜, 논문, 표절, 의혹, 다운계약서, 서울대
falling
Topic_05
대선 후보
박근혜, 문재인, 안철수, 후보, 대선, 대통령
rising
Topic_06
후보 단일화
안철수, 박근혜, 문재인, 대선, 후보, 무소속, 단일화
rising
Topic_07
박근혜 슬로건
박근혜, 문재인, 안철수, 나라, 내, 꿈이, 이루어지는
rising
Topic_08
박근혜 캠프 구성
박근혜, 문재인, 안철수, 민주당, 캠프, 김경재, 이, 대선, 장악한,
종북세력, 막으러, 들어왔다
rising
Topic_09
대선 후보
후보, 박근혜, 안철수, 새누리당, 무소속, 민주통합당, 문재인
falling
Topic_10
NLL 포기 의혹
박근혜, 문재인, NLL, 안철수, 노무현, 정문헌, 민주통합당
rising
15
Rising Issues
1.5
1
0.5
0
정수장학회
대선 후보
대선 후보
-0.5
후보 단일화
박근혜 슬로건
박근혜 캠프 구성
-1
NLL 포기 의혹
-1.5
-2
-2.5
16
-2
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
0
2012!/10!/12
-1.5
2012!/10!/11
10
2012!/10!/10
-1
2012!/10!/09
30
2012!/10!/08
0
2012!/10!/07
40
2012!/10!/06
0.5
2012!/10!/05
50
2012!/10!/04
1
2012!/10!/03
60
2012!/10!/02
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
2012!/10!/02
1.5
2012!/10!/01
-0.5
2012!/10!/01
Comparison
Topic #1 (Left) and Related News Articles (Right)
20
17
-1.5
-2
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
0
2012!/10!/02
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
2012!/10!/02
1.5
2012!/10!/01
-0.5
2012!/10!/01
Comparison
Topic #6 (Left) and Related News Articles (Right)
40
35
1
30
0.5
25
20
15
10
-1
5
0
18
-2
-2.5
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
0
2012!/10!/02
-1.5
2012!/10!/02
1.5
2012!/10!/01
-0.5
2012!/10!/01
Comparison
Topic #10 (Left) and Related News Articles (Right)
18
1
16
14
0.5
12
10
8
6
-1
4
2
0
19
Falling Issues
4
3
2
1
박근혜 지지율
안철수 의혹
0
대선 후보
-1
-2
-3
20
-2
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
2012!/10!/20
2012!/10!/19
2012!/10!/18
2012!/10!/17
2012!/10!/16
2012!/10!/15
2012!/10!/14
2012!/10!/13
2012!/10!/12
2012!/10!/11
2012!/10!/10
2012!/10!/09
2012!/10!/08
2012!/10!/07
2012!/10!/06
2012!/10!/05
2012!/10!/04
2012!/10!/03
0
2012!/10!/02
-1.5
2012!/10!/02
1.5
2012!/10!/01
-0.5
2012!/10!/01
Comparison
Topic #3 (Left) and Related News Articles (Right)
8
7
1
6
0.5
5
4
3
2
-1
1
0
21
Network Analysis
본 연구의 분석기법
1 멘션에 동시 출현한 자질과 그 빈도를
기반으로 대선과 관련된 트윗을 게재한 총
136,754명의 이용자 네트워크를 분석
실제 사회적
관계를
바탕으로 이미
잘 알고 있는
사람들과의
관계(쌍방향)
상대방의
동의가 없어도
일방적으로
팔로우하는
단방향적
관계를 형성
2 커뮤니티의 생성과 이용자의 영향력 간의
상관관계를 알아보기 위해 PageRank
기법으로 노드의 영향력을 평가
3 멘션을 기반으로 완전히 상호연결된 이용자
집단을 찾아내기 위해 커뮤니티 디텍션
알고리즘을 사용
Follow / following
“트윗이라는
하나의 ‘매체’를
구독하기 위한 소유의 기능”
22
Mention Directednessbased
ID Network Visualization
Nodes: 11,683(8.54%)
23
Community Detection
_ Voltage-clustering algorithm
#
Size
01
40,790
02
59,068
03
29,977
04
3,751
05
2,396
Modularity
1.25E-04
06
645
07
103
08
7
09
14
10
3
•
01-03 커뮤니티에 속한 이용자는 총
129,835명으로 전체 이용자 136,754명의
대부분인 94.94%를 차지하고 있다.
•
Modularity 값이 1.25E-04인 10개의
커뮤니티를 발견하였다.
– Modularity 값이 -0.5~1사이에 있을
경우, 커뮤니티 내부의 노드들은
밀집되어 있으며, 서로 다른 커뮤니티에
속한 노드들은 드물게 연결되어 있음을
의미한다.
– 대선 관련 이슈의 이용자 네트워크는
커뮤니티 내부의 밀도가 높으며,
커뮤니티 간의 연결은 적은 편이다.
Community Detection
대규모 네트워크의 데이터의
구조를 파악하기에 유용한 방법
24
Community Detection
_ SCAN
Frequently
Occurred Terms
Related
Topic
#
Size
1
2,995
후보, 박근혜, 안철수, 국민,
후보 단일화
대통령, 문재인, 단일화
3
537
안철수, 후보, 박근혜, 대선,
후보 단일화
국민, 단일화, 문재인
17
81
대선, 흑색선전, 후보자, 깨
끗한, 선거문화, 선거
공정선거
11
50
대선, 선거, 비방, 흑색선전,
후보자, 깨끗한
공정선거
33
40
상호존중, 통일정책, 질서,
제정, 실천, 국회
-
74
32
후보, 대선, 대통령, 도발,
평화, 안철수, 박근혜
-
39
24
340
22
후보, 박근혜, 대선, 행복,
국민
상처, 기대감, 관광, 여론조
사, 전화통화
박근혜 후원
-
•
1번과 3번 커뮤니티의 경우 고빈도어 사이에 뚜렷한 특징
없이 토픽 모델링 결과 출현했던 단어들이 출현하였으며,
각 커뮤니티에서 랜덤 표집으로 이용자를 추출하여
프로파일과 멘션을 확인한 결과 1번 커뮤니티에는
보수적 정치 성향의 이용자가, 3번 커뮤니티에는 진보적
정치 성향의 이용자가 주로 존재하는 것으로 확인되었다.
•
17번과 11번 커뮤니티의 경우 흑색선전, 깨끗한,
선거문화 등 특징적인 단어들이 출현하였으며 해당
이용자의 프로파일과 멘션을 분석한 결과 공정선거홍보
및 지방자치단체의 선거관리위원회 계정들로
확인되었다.
•
39번 커뮤니티는 ‘박근혜를 사랑하는 모임’이 주최하고
‘해핑’이 후원하는 박근혜 대통령 후보 공식 후원 업체로
박근혜 관련 콘텐츠를 생성하는 것으로 확인 되었다.
멘션 기반의 커뮤니티 분석으로는
토픽 모델링과의 관계를 파악하기 어려움
25
Mention-based
User Network
Visualization
질의어
질의어
박근혜
문재인
네트워크 시각화
안철수
네트워크 시각화
F
C
질의어
L
B
네트워크 시각화
J
G
H
F
A
D
I
G
E
A
D
K
C
C
26
Term Co-occurrence Comparison
_ by Query
박근혜
TF
안철수
TF
문재인
TF
1
대선
634,540
안철수
62,770
문재인
143,663
2
지지선언
589,728
문재인
53,554
대선
92,062
3
박근혜
530,307
박근혜
38,750
지지선언
62,766
4
여론조사
492,762
대선
35,468
안철수
57,420
5
지지
82,428
지지선언
11,672
여론조사
54,494
6
선언
80,904
여론조사
10,630
박근혜
49,785
7
무소속안철수
52,990
민주통합당
6,858
민주통합당
8,552
8
문재인
46,614
새누리당
6,752
새누리당
7,818
9
안철수
40,078
문재인캠프
6,540
문재인캠프
7,796
10
snspage
38,748
김정숙
5,740
투표시간연장
7,192
11
육영수
20,326
다운계약서
4,678
문재인tv
5,916
12
박정희
13,059
단일화
3,240
김정숙
5,768
13
박근혜정책
10,201
개념인터뷰
2,702
단일화
4,140
27
Term Co-occurrence
Network Visualization
 Total number of tweets: 1,678,403
28
 Total pairs of terms: 6,904,227
29
Conclusion
실시간으로 특정사건을
중심으로 발생하는 콘텐트 상의
사회적 이슈를 시계열로 추적한
결과
멘션을 기반으로 한 이용자
네트워크를
추출하여 분석한 결과
이용자들의 페이지랭크 값과
커뮤니티의 크기에 대한
상관분석 결과
영향력이 높은 이용자의
프로파일과 해당기간에 작성한
트윗 분석 결과
이용자들의 트위터 이용행태는 사회적 이슈의 출현과 변화를 적절히 반영
특정 사건의 전체 맥락에서 해당 토픽의 영향력 변화와 예측을 관찰하는데 유용
정치적 성향과는 달리 이용자들은 자신의 성향과 다른 후보에 대한 트윗을 작성
멘션을 기반으로 한 네트워크는 betweeness가 높은 노드의 탐지에 유용
보수적 정치성향의 이용자일수록
상호 연결성이 낮고 페이지랭크 값이 높다
특정한 토픽보다는 토픽 모델링을 통해 추출된 토픽 전반에 걸쳐 멘션을
주고 받고 있음
30
31