빅데이터저널리즘_활용(최용수).

Download Report

Transcript 빅데이터저널리즘_활용(최용수).

(사)한국조사기자협회 정기 세미나
2015. 5. 7
최용수
[email protected]
성결대학교 멀티미디어공학부
2012년 말, 미국의 국제통신사 로이터
과거22년 동안 미국정부가 공개한 전미(全美)센서스(인구주택총조사)빅데이터를 분석
지난24년간 미국이 얼마나 불평등한 사회로 변해갔는지를 보도
-한 장의 지도와 그래프를 통해 이해하기 쉬운 기사가 됐다.
22년간 미국전역에서 쌓인 천문학적 용량의 센서스 데이터
일반인의 입장: 아무리 정독 해본다 한들 쉽게 이해할 수 없음.
로이터: 는 언론사로서,뉴스를 위해, 독자를 위해, 빅데이터를 분석
<전세계 정보량 증가 추이>
• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트)
※ 1.8제타바이트 = 1.8조 기가바이트
디지털 정보량
증가 추이
인공지능
* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta
1ZB(제타바이트) = 1021 Byte = 1조 GB
• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가
(IDC & EMC, ‘Digital Universe Study 2011’)
메인프레임
컴퓨터
데이터 규모
데이터 유형
데이터 특성
사물정보통신
인터넷/
모바일 시대
증강현실
모바일혁명
PC 시대
SNS
Web2.0
빅데이터
브로드밴드
시대 도래
www 1인 1PC
IT
everywhere
EB(Exa Byte)
ZB(Zetta Byte) 진입
ZB 본격화 시대
(90년대 말=100EB)
(2011년=1.8ZB)
(‘20년=‘11년대비 50배 증가 )
정형 데이터
비정형 데이터
사물정보, 인지정보
(데이터베이스, 사무정보)
(이메일, 멀티미디어, SNS)
(RFID, Sensor, 사물통신 )
구조화
다양성, 복합성, 소셜
현실성, 실시간성
?
데이터의 과거-현재-미래
저장
DB
축적
검색
▶
검색엔진 ▶
관리
KMS
활용
공유
▶
Web2.0 ▶
확산 및 공유
분석
추론
`
빅데이터 ▶
상황인식
가치창출
< 사람 이긴 컴퓨터 '왓슨'의 힘은 '분석능력‘ >
2011년 2월 퀴즈쇼 ‘제퍼디
(Jeopardy!)' 최종전에서 IBM이 제작한
슈퍼컴퓨터 '왓슨(Watson)'은 압도적인
결과 차이로 승리
인공지능 수퍼컴퓨터 ‘왓슨’, 의료계와
금융계에 적용
빅데이터의 특성과 효과
• 현실세계 데이터를 기반으로 한
정교한 패턴분석 가능
• 전혀 새로운 패턴의 정보를
찾아낼 수 있는 확률 증가
• 과거 데이터의 유지로
시계열적인 연속성을 갖는
데이터의 구성
• 과거, 현재, 미래 등 시간
흐름상의 추세 분석 가능
대규모
현실성
(Huge
Scale)
(Reality)
시계열성
(Trend)
• 현실 정보, 실시간 정보의
축적이 급증
• 개인의 경험, 인식, 선호 등
인지적인 정보 유통 증가
결합성
• 이종 데이터간의 결합으로
(Combination) 새로운 의미의 정보 발견
• 타분야 데이터 결합을 통한
안전성 검증, 시뮬레이션 가능
빅데이터는 새로운 기회를 창출하고, 위험을 해결하는
사회 발전의 엔진 역할을 수행
구분
기관명
주요 내용
Economist
󰋯데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적
(2010)
산업
Gartner
경제성
(2011)
McKinsey
(2011)
美 대통령
국가
과학기술자문위
경쟁력
싱가포르
투입 자본, 비즈니스의 새로운 원자재 역할
󰋯데이터는 21세기 원유, 데이터가 미래 경쟁 우위를 좌우
󰋯기업은 다가올 ‘데이터 경제 시대’를 이해하고 정보
고립(Information Silo)을 경계해야 성공 가능
󰋯빅 데이터는 혁신, 경쟁력, 생산성의 핵심 요소
󰋯의료, 공공행정 등 5대 분야에서 6천억불 이상 가치 창출
󰋯미국 정부기관들이 데이터를 지식으로, 지식을 행동으로
변환하는 전략에 집중해야 함을 주장
󰋯데이터를 기반으로 싱가포르를 위협하는 리스크에 대한
평가와 환경변화를 탐지
미래 사회 특징
빅데이터의 역할과 가치
• 현실세계 데이터 기반의 패턴분석, 미래 전망
불확실성
통찰력
• 다양한 가능성 시나리오, 시뮬레이션 제공
• 다각적인 상황이 고려 된 통찰력과 유연성 확보
• 환경, 소셜 데이터 분석을 통한 이상 징후 감지
리스크
대응력
• 이슈의 빠른 분석을 통한 실시간 의사결정 지원
• 국가, 기업 경영 투명성 제고 및 비용 절감
스마트
• 상황인지, 인공지능 기반의 신규 서비스 창출
경쟁력
• 개인화, 지능화 기반 차세대 사업 모델 발굴
• 평판, 트렌드 분석을 통한 기업 경쟁력 확보
• 타분야간의 결합을 통한 새로운 지식의 발견
융 합
창조력
• 상관관계 이해를 통한 시행착오 최소화
• 방대한 데이터 활용을 통한 新융합 시장 창출
전산화된 데이터와 컴퓨터의 등장, 저널리즘을 매료
英Manchester
Guardian(1821)
국가공식기록물에 대한
분석을 통해, 기존에 알
려진 8,000명 보다 훨씬
많은 수인25,000명이 무
상교육을 받고 있다고 밝
힘
* 세계최초로 저널리즘에 데이터를 이용
중앙일보 탐사보도팀의 탐사보도
“MB 정부인사대해부“
이명박 정부의 인사데이
터를 컴퓨터로 분석해,
대통령측근 정부인사의
특징파악
기존 데이터 저널리즘의 특징
보도기사의 내용보강에 주안점을 둔 데이터수집, 분
석작업
(Data Journalism Handbook, 2012)
전문적 데이터 분석도구를 활용할 수 있는 전문가 집
단에 의해 이루어지는 산물
(Development of CAR, 2000)
데이터전문가:
숨겨진 데이터의 발굴
기자:
데이터를 사용, 기사를 강화
원자료(Raw Data)의 사회과학적 연구방법론을 통한
통계적 분석으로 저널리즘의 객관성 강화
* 제44회한국기자상수상
저널리즘은 컴퓨터를 데이터분석의 수단으로
삼아 기사의 정확성과 객관성을 높이는 도구
로 사용해 왔음
데이터의 수집과 분석을 담당하는 전문가와 뉴스스
토리를 만들어 내는 기자의 만남이 보다 정교한 저널
리즘을 가능하게 함
Data
Filter
Visualize
Story