Transcript PPT

Korea University of Technology and Education
Hongyeon Kim
IoT and Big Data
Hongyeon Kim
2014
News.
대량의 데이터를 생성하는 구조가 없으면 불가능.
센서를 통한 데이터 수집만으로는 데이터의 분석이 불가능.
2020년 IoT 연결 기기 대수가 260억 대에 달하고 IoT 서비스 업체들은 3,000억 달러 매출.
Joe Skorupa: IoT 기기 대수의 증가가 데이터센터 업체에게 더 많은 과제를 줄 것.
다양한 기기에서 발생한 데이터를 처리하는 빅데이터 솔루션들에 대한 관심이 증가.
신제품 개발의 증가: 대용량 로그 분석 플랫폼 (라벤더)
Data & Knowledge Engineering Lab.
1
Increase – Big data.


Increase the volume of data.
SNS, Youtube, and so on.
35 ZB
8.6 ZB
1.8 ZB
2011
2015
Data & Knowledge Engineering Lab.
2020
2
Big! – Big data.

1.8ZB?

35ZB?!!
53
10KB
24,900,000
63 bldg.
81,390,355
Data & Knowledge Engineering Lab.
3
Caution – Big data.

Big data = The volume of data is big?
I cannot
process it.
10TB
I cannot
share it.
10GB
Data & Knowledge Engineering Lab.
4
Factors – Big data.

3V.
Volume
Velocity
Variety
Terabytes
Tables
Transactions
…
Batch
Real time
Streams
…
Structured
Semi-Structured
Un-Structured
…
Data & Knowledge Engineering Lab.
5
Variety – Big data.

Structured (정형).



Semi-Structured (반정형).



고정된 필드에 저장된 데이터.
R-DB, Spreadsheet.
고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포
함하는 데이터.
XML, HTML.
Un-Structured (비정형).


고정된 필드에 저장되어 있는 않은 데이터.
Document (text), Image, Video, Sound.
Data & Knowledge Engineering Lab.
6
Framework – Big data.

Framework.



Hadoop. – MapReduce.
MongoDB.
MapReduce.


HDFS (Hadoop Distributed File System).
Map & Reduce. – A pair Key & Value(s).
Data & Knowledge Engineering Lab.
7
Techniques – Big data.

Recommendation.


Skyline.


Sparse data.
Multi-dimension data.
Triangle counting.

Graph data.
Data & Knowledge Engineering Lab.
8
Trend – IoT & Big data.

Using google trend (Korea, World)
Data & Knowledge Engineering Lab.
9
Purpose – IoT & Big data.

Big data.




IoT.



사용자가 생성하는 데이터의 증가로 인하여 필요성 대두.
데이터 집합에서 가치를 추출.
이에 따른 프레임 워크 등이 개발.
사물 인터넷의 등장에 따라 데이터의 양이 폭발적으로 증가.
단순 환경 모니터링이 아닌 데이터 활용을 통한 이익 추구.
IoT & Big data.

기기에서 수집되는 데이터를 분석하여 기기와 관련된 사용자들에게
보다 많은 정보를 제공.
Data & Knowledge Engineering Lab.
10
Example 1 – IoT & Big data.

SFPark (link).

특정 시간에 주차량이 증가하는 구간을 분석.

유동적으로 주차 공간을 늘리는 방안을 시행.
Data & Knowledge Engineering Lab.
11
Example 2 – IoT & Big data.

HarvestGeek (link).

농장 면적의 증가에 따른 데이터 양의 증가를 어떻게 처리할 것인가?
Data & Knowledge Engineering Lab.
12
Example 3 – IoT & Big data.

Corventis (link).


단순 모니터링이기 때문에 미리 예측하거나 분석한 정보를 사용자에
게 제공하지 않음.
자신의 체질, 체형, 성별, 행동양식 등이 유사한 과거 다른 환자의 정보
와 비교하여 자신의 상태를 예측 및 분석.
Data & Knowledge Engineering Lab.
13
Example 4 – IoT & Big data.

Social Vending System.


자판기에 인터넷을 연결 (SNS, 판매량 파악).
특정 품목에 따른 판매량 등을 분석하여 해당 품목의 수를 늘리는 등
의 일을 수행할 수 있음.
Data & Knowledge Engineering Lab.
14
Feature – IoT & Big data.

Feature of data.



Stream > Static.
Sliding window, Continuous query, and so on.
MapReduce in Hadoop.




일괄 (Batch) 처리 위주.
연속된 데이터를 처리할 때, 추가 비용 (시간)이 발생.
서울 심야버스 사례.
Alternative: HBase, Impala.
Data & Knowledge Engineering Lab.
15
Techniques – IoT & Big data.

Structure.
Pig
(Data flow)
ZooKeeper
(Coordinati
on)
Hive
(SQL)
Sqoop
MapReduce
HBase
HDFS
(Hadoop Distributed File System)
Data & Knowledge Engineering Lab.
16
Techniques – IoT & Big data.

HBase.


하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스.
다차원 키를 이용한 희소 (Sparse) 행렬 형태의 데이터 모델을 사용.



Row key, Column key, Time stamp.
읽기 연산 보다는 쓰기 연산이 주로 사용됨.
MapReduce를 사용함으로 질의에 대한 결과 응답 시간의 지연 시간이
발생함.
Data & Knowledge Engineering Lab.
17
Techniques – IoT & Big data.

Impala.

질의 (SQL)를 이용하여 HDFS의 데이터를 분석하는 시스템.



기존 SQL과 유사한 Hive-SQL 사용.
실시간 데이터 분석이 가능.
데이터가 저장된 위치에서 프로세스를 처리하기 때문에, 타 시스템보
다 빠르게 수행됨.
Data & Knowledge Engineering Lab.
18
Techniques – IoT & Big data.

Impala.

Column File Format [1].


이 포맷은 하나의 레코드를 각각의 컬럼으로 분할해 쓰기 때문에, 레코드
에서 일부 컬럼만을 조회할 때 이득을 볼 수 있음.
즉, 전체 컬럼을 조회할 때에는 같은 디스크 I/O가 발생하지만, 일부 컬럼
을 조회할 때에는 더 적은 디스크 I/O가 발생함.
[1] Melnik, Sergey, et al. "Dremel: interactive analysis of web-scale datasets."Proceedings of the VLDB Endowment 3.1-2 (2010): 330-339.
Data & Knowledge Engineering Lab.
19
Techniques – IoT & Big data.

Tajo.



표준 SQL 및 사용자 정의 함수 지원을 통한 기존 DB 시스템과의 호환
성을 보장.
효율적인 분산 처리 엔진과 비용 기반 최적화 엔진 기술을 적용.
구조.

Tajo Master.


Tajo Worker.


Tajo 클러스터 전체의 자원 관리와 테이블 정보 관리.
실제로 query를 실행.
Query Master.


SQL query 처리는 동적으로 할당.
각 query에 대해 독립적인 Query Master가 존재.
 Query 처리 간의 간섭을 제거.
 Query Master의 부담을 최소화.
Data & Knowledge Engineering Lab.
20
Techniques – IoT & Big data.

Tajo.
Tajo Master
Catalog server
Resource manager
Cost-based
Join Ordering
Query Master1
Query Master2
SQL
Query
Parser
Master3
SQL Parser
SQL Parser
Logical Planner
Logical Planner
Logical Planner
Logical Optimizer
Logical Optimizer
Logical Optimizer
Global Planner
Global Planner
Global Planner
Tajo Worker 1
Query Master 1
Tajo Worker 2
Query Master 1
Tajo Worker 3
Query Master 1
Physical
Planner
Physical
Operator
Storage
Manager
Data & Knowledge Engineering Lab.
21
Techniques – IoT & Big data.

MongoDB.

문서 기반의 NoSQL 데이터베이스.


Document-Oriented Storage.


데이터 복제 가능.
Full Index Support.


모든 데이터가 JSON 형태로 저장, No schema.
Replication.


NoSQL DB: RDB보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저
장 및 검색을 위한 매커니즘을 제공.
다양한 인덱싱 제공.
Querying.

Key 뿐만 아니라 get, put과 같은 다양한 종류의 쿼리를 제공.
Data & Knowledge Engineering Lab.
22
Conclusion.

IoT? Big data?


서로 상호 보안적인 측면이 존재.
사물 인터넷 (IoT)에서 발생한 데이터를 Big data 기술을 통해 어떻게
분석해야 하는지가 가장 중요함.

시계열 데이터 분석 기술을 접목.
 데이터가 연속적으로 시간의 흐름에 따라 생성되기 때문에.

Volume + Velocity + Variety = Value.
Data & Knowledge Engineering Lab.
23
Digression – IoT & Big data.
Data & Knowledge Engineering Lab.
24