Transcript pptx

네트워크 컴퓨팅 프로젝트
주제: 빅 데이터의 오늘과, 내일
B반
발표자: 이광복
팀원:
김정훈
박기호
이광복
목차
1. Big Data
- Big data 정의 및 특징
- Big data 배경
2. 빅 데이터 기술 및 업체 동향
- 기술 동향
- 업체 동향
- 적용 사례
3. 전망
- 향후 전망
- 관련 이슈 및 과제
네트워크 컴퓨팅
1. Big Data
- 정의 및 특징(1)
네트워크 컴퓨팅
IT 업계의 새로운 화두 Big Data란??
단순히 많은 양의 데이터
너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 검색,
분석, 시각화 등을 하기 어려운 데이터 집합
그러한 데이터 집합을 활용하는 영역이나 기술까지
데이터 베이스의 규모에 초점을 맞춘 정의 (McKinsey, 2011)
- 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
데이터 베이스가 아닌 업무수행에 초점을 맞춘 정의 (IDC, 2011)
-다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고
데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
1. Big Data
- 정의 및 특징(2)
네트워크 컴퓨팅
빅 데이터의 3가지 특징
대용량
데이터의 기하급수적인 증가
방대한 데이터의 집합
다양성
데이터 종류의 증가
비정형,
구조화 되지 않은 데이터
속 도
실시간 데이터 생성, 활용
빠른 데이터 분석, 처리
1. Big Data
- 배경
네트워크 컴퓨팅
빅 데이터의 등장 배경
비정형 데이터의 증가
SNS의 대중화
데이터 분석 기술의 발전
Big Data
소셜미디어 상호작용, 스마트폰 등 인터넷 연결기기의 폭증, 멀티미디어 콘텐츠의 활용증대
빅데이터 분석을 통해 의미있는 정보를 실시간으로 도출, 비즈니스적 가치 확보
구글, IBM, HP, 후지쯔, NEC 등 글로벌 IT 기업들은 빅데이터 지원 제품 및 서비스 제공
2. 빅 데이터 기술 및 업체 동향
데이터의 증가
- 기술 동향(1)
네트워크 컴퓨팅
더욱 고사양 고가의 장비로 교체?
전 서비스 영역에서 개인화 서비스와 소셜 서비스를 제
공해야 하는 환경으로 변화
기존의 시스템, 소프트웨어 아키텍처의 Scale-Up만으
로는 한계
2. 빅 데이터 기술 및 업체 동향
- 기술 동향(2)
네트워크 컴퓨팅
분산 처리 시스템
-효과적인 분산처리 시스템을 통한 유연한 서버 운용이 핵심 경쟁력
-서버 사양과 단일 스토리지 용량보다는 이를 효율적으로 운용하는 소프트웨어가 중요해 짐
-기술이 발전하고 있는 과정, 대부분 오픈소스 형태
2. 빅 데이터 기술 및 업체 동향
- 기술 동향(3)
네트워크 컴퓨팅
R
캐스케이딩(Cascading)
R은 오픈소스 프로그래밍 언어이자
통계적
컴퓨팅
하둡용
오픈소스
소프트웨어 추상화 계층(abstraction
과 가상화를 지원하는 소프트웨어
환경이다.
대량
layer)으로, 사용자들이 JVM 기반 언어를 활용해 하둡
의 데이터 셋을 통계적으로 분석하기
위한
툴로
큰 프로세싱
엘라스틱서치(ElasticSearch)
아파치
H베이스(Apache
HBase) 워크플로(data
클러스터에서
데이터
인기를
누리고
있다.
processing
workflow)를
제작, 실행할 수 있도록 지원
엘라스틱서치(ElasticSearch)는
레스트풀
아파치 H베이스(Apache한다.
HBase)는
구글의 빅테이블(BigTable)을분산형
본떠 자바로
몽고DB(MongoDB)
(RESTful)
오픈소스
검색 작업
서버다.
이는 복잡성을
특별한 설정
작성된 오픈소스 비관계 캐스케이딩의
열지향
분산형장점은
데이터베이스(non-relational
맵리듀스
근간의
스크라이브(Scribe)
없이도
거의
실시간의
검색과 멀티테넌시
columnar distributed database)로,
하둡있다.
분산형
파일시스템(HDFS,
Hadoop
숨겨준다는데
몽고DB(MongoDB)는
대중적으로
사랑받는
또
다
(multitenancy)를
지원하는
스케일러블
솔루션
Distributed
Filesystem)에 기반한
구동을개발한
목적으로
설계됐다.
이는 폴트
톨러
스크라이브(Scribe)는
페이스북이
서버로,
2008년부터
사용
른 NoSQL
데이터
스토어다.
몽고DB는
역동적
스키
(scalable대량의
solution)이다.
현재는 스텀블어폰
런트 스토리지(fault-tolerant
storage)와
희소 데이터(sparse
되기 시작했다. 이는 여러
서버들에서 실시간으로
스트림되는 data)에의
로그
마(dynamic
schema)를
통해 H베이스는
정형 데이터를
(StumbleUpon)이나
모질라와
같은
여러
기업들이
신속한 접속을
지원한다.
지난
몇
해간
시장의
관심을
모은
NoSQL
데이터를 종합하는 역할을 한다.
BSON(Binary
JSON)이라고data
하는store)
JSON
문서있다.
이를
채택하고
데이터 페이스북의
스토어(NoSQL
중형태의
하나다.
자체 스케일링(scaling)
작업을 위해 설계된 스크라이
로 저장한다. 시장의 여러 대기업들이
몽고DB를 채
카산드라(Cassandra)
브는 현재 매일 수백 억 건의 메시지를 처리하고 있다.
택하고 있다.
또 하나의 NoSQL 데이터 스토어 아파치
카산드라
아파치
카우치DB(Apach CouchDB)
는 자신들의 인박스 서치(Inbox Search) 기능을 지
하둡(Hadoop)
원할 목적으로 페이스북이 개발한 오픈소스
아파치 분산형
카우치DB(Apach CouchDB) 역시 오픈소스
데이터베이스 관리 시스템이다. 페이스북이
2010년
NoSQL 데이터 스토어 중 하나다. 이는 JSON을 이
데이터포기하고
집약적 분산형
애플리케이션(data-intensive
distributed application)용
카산드라를
H베이스를
채택하긴
했지만, 저장하고
용해 데이터를
있으며 자바스크립트를 쿼
오픈소스
소프트웨어
프레임워크이다.
복수의
컴퓨터를 연결해 처리하기 위해
카산드라는
여전히
많은 기업들에서
활용되고
있다.
리 랭기지(query language)로, 맵리듀스와 HTTP를
맵리듀스 기능과 분산 파일 시스템을 도입했고, 이로부터 하둡의 역사가 시작
API로 사용하고 있다.
됐다. 현재 하둡은 빅 데이터를 구성하는 정형, 반정형, 비정형 데이터를 저장
하는 가장 대중적인 테크놀로지로 사랑받고 있다.
2. 빅 데이터 기술 및 업체 동향
- 업체 동향(1)
네트워크 컴퓨팅
빅 데이터는 클라우드 기반의 대용량 데이터 처리 기술인 하둡(Hadoop)을 비롯해,
전통적인 RDBMS를 보완하기 위한 NoSQL(Notonly SQL), 그리고 각종 데이터 시각화
(Data Visualization) 기법에 이르기까지 방대한 기술 세트를 사용한다.
따라서 데이터를 저장하고 분석하는 부분에서 경쟁사보다 우수한 기술을 보유한 신생 기업
이 나타나면 이를 경쟁적으로 인수하고 있는 상황이다.
위키본(Wikibon)에 따르면, 2011년 빅 데이터 시장 규모는 52억 달러였으며 하드웨어, 소
프트웨어, 서비스 분야 중 서비스 매출이 44%로서 가장 큰 비중을 차지했다.
빅 데이터 시장에서 앞서가기 위해서는 서비스 역량이 가장 중요할 것으로 판단.
빅 데이터의 궁극적인 목적은 기술의 도입이 아니라 이를 통해 비즈니스 통찰력을 도출하고
실제로 비즈니스를 향상시키는 것이기 때문이다.
2. 빅 데이터 기술 및 업체 동향
- 업체 동향(2)
네트워크 컴퓨팅
● 데이터 저장부터 관리, 분석까지 빅데이터와 관한 모든 것을 제공하기 위해
그린플럼, 아이실론 등 빅데이터 솔루션 업체 및 데이터 관련 다수업체 인수
● 빅데이터 스토리지 솔루션 (아이실론, 이트모스), 콘텐츠 관리 솔루션 등 제공
● EMC 애널리스트 랩을 운영하며 데이터 사이언티스트(Data Scientist) 육성
● 140억 달러 이상을 투자하여 비즈니스 분석 관련업체 인수 - 분석용 데이터
저장관리 업체(네티자), 데이터 통합 업체(에센셜), 분석 솔루션 업체 등
● 빅데이터 솔루션 : InfoSphere BigInsight(Hadoop). InfoSphere Streams
● 지속가능한 지구를 만들기 위해 지구 데이터(기온, 토양상태, 교통 흐름 등)를
분석하는 ‘스마트 플래닛(smart planet)’ 프로젝트 전개
● 세계적인 DB 업체, ‘하이페리온社’를 인수로 분석기술 확보
● 오라클 빅데이터 어플라이언스 제품 출시
2. 빅 데이터 기술 및 업체 동향
- 업체 동향(3)
네트워크 컴퓨팅
● 업무용 어플리케이션 업체에서 최근 DB 전문업체로 변신
● 메모리 기반 DB 어플라이언스(HANA) 제시
● BI 소프트웨어, 플랫폼을 제공하는 ‘비즈니스 오브젝트社’ 인수
● 데이터웨어하우징 및 비즈니스 인텔리전스(BI) 전문업체
● 비정형 데이터의 고급분석, 관리 솔루션 업체 인수(애스터데이터)
● 애스터 맵리듀스 플랫폼 제시
● BI 솔루션 업체 ‘버티카’, 기업용 검색엔진 업체 ‘오토노미’ 인수
● 버티카와 오토노미를 결합하여 빅데이터 분석 시장에 진입
● 인스턴트-온 엔터프라이즈(Instant-On Enterprise) 솔루션으로 기업경영의사
결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공
2. 빅 데이터 기술 및 업체 동향
- 업체 동향(4)
네트워크 컴퓨팅
● 비즈니스 인텔리젼스(BI) 소프트웨어 공급업체
● BI(Business Intelligence)에 빅데이터 분석 처리를 접목하여 사업 역량 강화
● 대용량 데이터 처리 기술 발표: GFS(Google File System, 2003년),
MapReduce(2004년), Sawzall(2005년), Bigtable(2006년)
● 빅쿼리(Big Query) 서비스 공개(2011년): 이용자(기업 등)가 업로드한 거대한
양의 데이터 분석 처리를 지원하는 서비스
● 윈도 애저(Windows Azure)와 윈도 서버 플랫폼용 아파치 하둡 개발 계획
● 하둡(Hadoop) 기술 전문업체 ‘호튼웍스’와 협력
2. 빅 데이터 기술 및 업체 동향
- 적용 사례(1)
네트워크 컴퓨팅
구글 독감예보
• 시간별, 지역별 독감 관련 검색어 빈도를 지도에 표시,
확산 정도 뿐만 아니라 확산되는 방향에 따라 예보도 하는 서비스 제공
• 미국 질병통제예방센터보다 2주나 빠르고 정확히 예측
http://www.google.org/flutrends/
구글 실시간 번역 및 오타체크 서비스
• 미리 번역한 문서에서 뜻이 비슷한 문장과 어구를 대응시키는 방식.
엄청난 양의 데이터를 통원해 번역의 정확성을 크게 높임.
수십억장의 문서를 바탕으로 총 65개의 번역서비스 제공.
• 매일 3억 건씩 발생하는 검색창의 오타입력과 수정 정보를 활용해
오타체크 프로그램 제작
2. 빅 데이터 기술 및 업체 동향
- 적용 사례(2)
네트워크 컴퓨팅
페이스북 친구 추천
• 회원들의 관계 데이터들을 수집해 지인들이 많이 겹치는 사람을 우선
적으로 친구로 추천.
같은 학교, 직장, 동아리 사람들을 친구로 추천, 심지어 자신을 검색한
적이 있는 사람을 친구로 추천.
아마존 추천 기능
• ‘데이터는 절대 버리지 않는다’는 경영진 기조를 바탕으로 데이터 분
석을 경영 철학화
• 소비자 성향 및 패턴을 분석하여 ‘당신이 아마도 좋아할 것들’ 이라는
말을 붙여 구매를 유도하는 추천엔진 개발. 매출의 30%가 추천엔진에
서 발생
2. 빅 데이터 기술 및 업체 동향
- 적용 사례(3)
네트워크 컴퓨팅
T-mobile 고객 이탈 방지
• 매일 170억 건 이상의 통화 및 송수신 내역을 담은 데이터 발생, 이를
분석해 다른 통신사로 옮긴 고객이 사전에 보였던 특유의 패턴 발견
• 고객간 소셜 네트워크를 분석, 영향력이 큰 고객을 따라 지인들이 동
반 이탈하는 현상 발견. 이탈 징후 보이는 고객에게 맞춤형 추가혜택 제
공하여 Lock-in 유도
• 시스템 구축 직후인 2011년 2/4분기 이탈 고객 수 5만 명으로 1/4분
기 9만 9,000명 절반 수준으로 감소
포드 스마트 자동차
• 시시각각으로 운전데이터를 수집, 유저가 어디로 향하려 하는가 등을
실시간으로 예측하는 등의 미래 스마트자동차 개발 목표
• 구글과 '하이브리드 자동차스마트 서비스' 공동 개발 중. 실시간으로
수집되는 교통정보 데이터를 분석하여 교통혼잡지역을 피함과 동시에
운전자의 운전습관에 기초하여 가장 에너지를 절약하는 방식으로 운전
자의 목적지 경로를 추천
3. 전망
- 향후 전망(1)
네트워크 컴퓨팅
5년간 Big Data 시장규모 전망
$50.1억
$534억
3. 전망
- 향후 전망(2)
빅 데이터 활용이 정보통신, 교육, 의료, 금융 등 사회 각 분야로 확산되면서
사회전반의 생산성 향상에 기여할 전망
네트워크 컴퓨팅
3. 전망
- 향후 전망(3)
네트워크 컴퓨팅
향후 빅 데이터 시장 전개 방향
첫째, 데이터의 가치가 증대됨에 따라 업체들간에 데이터를 거래하는 데이터 마켓플레이
스가 주목 받게 될 것이다.
둘째, 물리적 현상을 나타내는 데이터를 수집함에 따라 온라인과 오프라인의 연계가 더
욱 중요해질 것이다.
셋째, 빅 데이터에서 탁월한 성과를 내기 위해서는 무엇보다도 빅 데이터를 활용할 수
있는 성숙된 IT/조직 문화의 확립해야 한다.
더불어 IT 및 비즈니스 도메인 지식을 갖춘 인력, 그리고 통계학, 수학적 지식을 갖춘 데이터
사이언티스트를 확보하는 것이 중요한 선결과제라고 볼 수 있다.
3. 전망
- 관련 이슈 및 과제
네트워크 컴퓨팅
개인정보 유출 및 사생활 침해 문제
보안 및 영업비밀의 유출 문제
소유권 및 사용권 문제
인프라 구축과 전문인력 확보
감사합니다.
소아과