Transcript ch11

第十一章 巨量資料技術與實務
本章目標
 本章從技術與產品的角度介紹巨量資料意義、特性、
架構、發展趨勢及巨量資料模型、檔案系統、處裡引
擎、資料分析的技術類型與應用。
 從本章的閱讀,讀者不但可以理解巨量資料的基本概
念與架構,也可以進一步根據不同巨量資料的需求,
思索實現的可能技術與處理方法。
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
大綱
 11-1 巨量資料技術概念與發展
 11-2 巨量資料模型處理類型與應用
 11-3 巨量資料檔案系統類型與應用
 11-4 巨量資料處理引擎類型與應用
 11-5 巨量資料分析類型與應用
 11-6 巨量資料產品與實務
 11-7 小結
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-1 巨量資料技術概念與發展
 巨量資料處理的目的在於滿足多樣、不同速度存取、
大量資料處理需求
 巨量資料處理4V特性:




Volume:處理大量的資料
Variety:處理結構化、非結構化等各種型態的多樣性資料
Velocity:處理不同速度需求的資料
Value:權衡成本與價值
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
巨量資料4V特性
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
巨量資料技術架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-2 巨量資料模型處理類型與應用
 Advanced SQL:Disk cluster DB
 Advanced SQL:In-Memory
 NoSQL:Key Value store
 NoSQL:Tabular store
 NoSQL:Document database
 NoSQL:Graph database
 NoSQL:Object database
 NoSQL:XML database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
SQL/NoSQL技術
資料模型
處理技術
類別
說明
產品舉例
Disk Cluster 利用多個資料庫平行擷取與處理 Teradata, Greenplum, Sybase IQ,
DB
資料
SQL Server Parallel
Advanced
SQL
將資料分散在1或多個記憶體,平
In-Memory
HANA, TimesTen, memcached
行擷取與處理
資料庫沒有關係綱目(schema),
Key Value
Bigtable, HBase, Redis, Dunamo,
將索引放在資料內容中,可處理
store
memcached, MongoDB
無一定結構的訊息資料
以欄為主的儲存方式,提升資料
Tabular store
Bigtable, HBase, Hypertable
延展性
物件導向方式儲存資料結構,適 ObjectStore, GemStone,
Object store
NoSQL
合處理圖形、財務資料
Starcounter DB
Graph
用來記錄與處理聯結關係,如:
Neo4J DB, InfiniteGraph
database 社群網路
Document
文件式資料處理
CouchDB, MongoDB
database
XML
處理與儲存XML形式的文件格式 MarkLogic, Exist
database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
Advanced SQL:Disk cluster DB
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
Advanced SQL:In-Memory
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Key Value store
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Tabular store-1
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Tabular store-2
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Document database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Graph database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:Object database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
NoSQL:XML database
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-3 巨量資料檔案系統類型與應用
 GFS 巨量資料檔案模型
 DFS 巨量資料檔案模型
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
GFS巨量資料檔案模型
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
HDFS巨量資料檔案模型
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-4 巨量資料處理引擎
 MapReduce 巨量資料處理引擎
 Hadoop相關巨量資料處理技術
 IBM江河運算處理架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
MapReduce巨量資料處理引擎
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
Hadoop相關巨量資料處理技術
框架與處理技術
說明
HBase
欄位導向資料模型處理架構
HDFS
分散式檔案處理架構
MapReduce
大量檔案資料處理引擎架構
Big
類似SQL處理語法以擷取、轉換資料作業
Hive
類似SQL處理語法以分析、綜整的資料倉儲作業
Mahout
一系列資料探勘的演算法
Apache Zookeeper
協調眾多處理程序的作業
11-1
Apache Sqoop
將非結構化資料轉換至結構化資料庫
Apache Flume
大量資料搬移、合併作業
Apache Ooize
工作流程排程系統以排序與監控資料處理作業
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
IBM 江河運算處理架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-5 巨量資料分析
 巨量資料分析類型
 巨量資料展現類型
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
巨量資料分析類型
巨量資料分析類型(列舉)
事件關聯分析
關聯各種事件,找出脈絡可循的模式
拓樸關係分析
找出與建立各種狀況、節點間關係,以減少搜尋
的時間
統計模式分析
根據既有的數學模式、拓樸關係、歷史資料可以
預測未來發生的狀況
文字模式分析
從文字中發現可能的模式與軌跡
適配分析
據既有的關係、模式,分析資料是否符合或接近
經濟模型分析
11-1
說明
11-2
根據供需法則,決定如何最佳化地使用資源
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
巨量資料視覺化展現-1
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
巨量資料視覺化展現-2
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
11-6 巨量資料產品與實務
 IBM巨量資料產品解決方案
 Oracle巨量資料產品解決方案
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
IBM 巨量資料平台架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
IBM 巨量資料整合架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑
Oracle 巨量資料架構
11-1
11-2
11-3
11-4
11-5
11-6
Cloud Computing.黃正傑