빅데이터저널리즘_활용(최용수).
Download
Report
Transcript 빅데이터저널리즘_활용(최용수).
(사)한국조사기자협회 정기 세미나
2015. 5. 7
최용수
[email protected]
성결대학교 멀티미디어공학부
2012년 말, 미국의 국제통신사 로이터
과거22년 동안 미국정부가 공개한 전미(全美)센서스(인구주택총조사)빅데이터를 분석
지난24년간 미국이 얼마나 불평등한 사회로 변해갔는지를 보도
-한 장의 지도와 그래프를 통해 이해하기 쉬운 기사가 됐다.
22년간 미국전역에서 쌓인 천문학적 용량의 센서스 데이터
일반인의 입장: 아무리 정독 해본다 한들 쉽게 이해할 수 없음.
로이터: 는 언론사로서,뉴스를 위해, 독자를 위해, 빅데이터를 분석
<전세계 정보량 증가 추이>
• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트)
※ 1.8제타바이트 = 1.8조 기가바이트
디지털 정보량
증가 추이
인공지능
* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta
1ZB(제타바이트) = 1021 Byte = 1조 GB
• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가
(IDC & EMC, ‘Digital Universe Study 2011’)
메인프레임
컴퓨터
데이터 규모
데이터 유형
데이터 특성
사물정보통신
인터넷/
모바일 시대
증강현실
모바일혁명
PC 시대
SNS
Web2.0
빅데이터
브로드밴드
시대 도래
www 1인 1PC
IT
everywhere
EB(Exa Byte)
ZB(Zetta Byte) 진입
ZB 본격화 시대
(90년대 말=100EB)
(2011년=1.8ZB)
(‘20년=‘11년대비 50배 증가 )
정형 데이터
비정형 데이터
사물정보, 인지정보
(데이터베이스, 사무정보)
(이메일, 멀티미디어, SNS)
(RFID, Sensor, 사물통신 )
구조화
다양성, 복합성, 소셜
현실성, 실시간성
?
데이터의 과거-현재-미래
저장
DB
축적
검색
▶
검색엔진 ▶
관리
KMS
활용
공유
▶
Web2.0 ▶
확산 및 공유
분석
추론
`
빅데이터 ▶
상황인식
가치창출
< 사람 이긴 컴퓨터 '왓슨'의 힘은 '분석능력‘ >
2011년 2월 퀴즈쇼 ‘제퍼디
(Jeopardy!)' 최종전에서 IBM이 제작한
슈퍼컴퓨터 '왓슨(Watson)'은 압도적인
결과 차이로 승리
인공지능 수퍼컴퓨터 ‘왓슨’, 의료계와
금융계에 적용
빅데이터의 특성과 효과
• 현실세계 데이터를 기반으로 한
정교한 패턴분석 가능
• 전혀 새로운 패턴의 정보를
찾아낼 수 있는 확률 증가
• 과거 데이터의 유지로
시계열적인 연속성을 갖는
데이터의 구성
• 과거, 현재, 미래 등 시간
흐름상의 추세 분석 가능
대규모
현실성
(Huge
Scale)
(Reality)
시계열성
(Trend)
• 현실 정보, 실시간 정보의
축적이 급증
• 개인의 경험, 인식, 선호 등
인지적인 정보 유통 증가
결합성
• 이종 데이터간의 결합으로
(Combination) 새로운 의미의 정보 발견
• 타분야 데이터 결합을 통한
안전성 검증, 시뮬레이션 가능
빅데이터는 새로운 기회를 창출하고, 위험을 해결하는
사회 발전의 엔진 역할을 수행
구분
기관명
주요 내용
Economist
데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적
(2010)
산업
Gartner
경제성
(2011)
McKinsey
(2011)
美 대통령
국가
과학기술자문위
경쟁력
싱가포르
투입 자본, 비즈니스의 새로운 원자재 역할
데이터는 21세기 원유, 데이터가 미래 경쟁 우위를 좌우
기업은 다가올 ‘데이터 경제 시대’를 이해하고 정보
고립(Information Silo)을 경계해야 성공 가능
빅 데이터는 혁신, 경쟁력, 생산성의 핵심 요소
의료, 공공행정 등 5대 분야에서 6천억불 이상 가치 창출
미국 정부기관들이 데이터를 지식으로, 지식을 행동으로
변환하는 전략에 집중해야 함을 주장
데이터를 기반으로 싱가포르를 위협하는 리스크에 대한
평가와 환경변화를 탐지
미래 사회 특징
빅데이터의 역할과 가치
• 현실세계 데이터 기반의 패턴분석, 미래 전망
불확실성
통찰력
• 다양한 가능성 시나리오, 시뮬레이션 제공
• 다각적인 상황이 고려 된 통찰력과 유연성 확보
• 환경, 소셜 데이터 분석을 통한 이상 징후 감지
리스크
대응력
• 이슈의 빠른 분석을 통한 실시간 의사결정 지원
• 국가, 기업 경영 투명성 제고 및 비용 절감
스마트
• 상황인지, 인공지능 기반의 신규 서비스 창출
경쟁력
• 개인화, 지능화 기반 차세대 사업 모델 발굴
• 평판, 트렌드 분석을 통한 기업 경쟁력 확보
• 타분야간의 결합을 통한 새로운 지식의 발견
융 합
창조력
• 상관관계 이해를 통한 시행착오 최소화
• 방대한 데이터 활용을 통한 新융합 시장 창출
전산화된 데이터와 컴퓨터의 등장, 저널리즘을 매료
英Manchester
Guardian(1821)
국가공식기록물에 대한
분석을 통해, 기존에 알
려진 8,000명 보다 훨씬
많은 수인25,000명이 무
상교육을 받고 있다고 밝
힘
* 세계최초로 저널리즘에 데이터를 이용
중앙일보 탐사보도팀의 탐사보도
“MB 정부인사대해부“
이명박 정부의 인사데이
터를 컴퓨터로 분석해,
대통령측근 정부인사의
특징파악
기존 데이터 저널리즘의 특징
보도기사의 내용보강에 주안점을 둔 데이터수집, 분
석작업
(Data Journalism Handbook, 2012)
전문적 데이터 분석도구를 활용할 수 있는 전문가 집
단에 의해 이루어지는 산물
(Development of CAR, 2000)
데이터전문가:
숨겨진 데이터의 발굴
기자:
데이터를 사용, 기사를 강화
원자료(Raw Data)의 사회과학적 연구방법론을 통한
통계적 분석으로 저널리즘의 객관성 강화
* 제44회한국기자상수상
저널리즘은 컴퓨터를 데이터분석의 수단으로
삼아 기사의 정확성과 객관성을 높이는 도구
로 사용해 왔음
데이터의 수집과 분석을 담당하는 전문가와 뉴스스
토리를 만들어 내는 기자의 만남이 보다 정교한 저널
리즘을 가능하게 함
Data
Filter
Visualize
Story