Transcript ch11
第十一章 巨量資料技術與實務 本章目標 本章從技術與產品的角度介紹巨量資料意義、特性、 架構、發展趨勢及巨量資料模型、檔案系統、處裡引 擎、資料分析的技術類型與應用。 從本章的閱讀,讀者不但可以理解巨量資料的基本概 念與架構,也可以進一步根據不同巨量資料的需求, 思索實現的可能技術與處理方法。 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 大綱 11-1 巨量資料技術概念與發展 11-2 巨量資料模型處理類型與應用 11-3 巨量資料檔案系統類型與應用 11-4 巨量資料處理引擎類型與應用 11-5 巨量資料分析類型與應用 11-6 巨量資料產品與實務 11-7 小結 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-1 巨量資料技術概念與發展 巨量資料處理的目的在於滿足多樣、不同速度存取、 大量資料處理需求 巨量資料處理4V特性: Volume:處理大量的資料 Variety:處理結構化、非結構化等各種型態的多樣性資料 Velocity:處理不同速度需求的資料 Value:權衡成本與價值 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 巨量資料4V特性 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 巨量資料技術架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-2 巨量資料模型處理類型與應用 Advanced SQL:Disk cluster DB Advanced SQL:In-Memory NoSQL:Key Value store NoSQL:Tabular store NoSQL:Document database NoSQL:Graph database NoSQL:Object database NoSQL:XML database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 SQL/NoSQL技術 資料模型 處理技術 類別 說明 產品舉例 Disk Cluster 利用多個資料庫平行擷取與處理 Teradata, Greenplum, Sybase IQ, DB 資料 SQL Server Parallel Advanced SQL 將資料分散在1或多個記憶體,平 In-Memory HANA, TimesTen, memcached 行擷取與處理 資料庫沒有關係綱目(schema), Key Value Bigtable, HBase, Redis, Dunamo, 將索引放在資料內容中,可處理 store memcached, MongoDB 無一定結構的訊息資料 以欄為主的儲存方式,提升資料 Tabular store Bigtable, HBase, Hypertable 延展性 物件導向方式儲存資料結構,適 ObjectStore, GemStone, Object store NoSQL 合處理圖形、財務資料 Starcounter DB Graph 用來記錄與處理聯結關係,如: Neo4J DB, InfiniteGraph database 社群網路 Document 文件式資料處理 CouchDB, MongoDB database XML 處理與儲存XML形式的文件格式 MarkLogic, Exist database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 Advanced SQL:Disk cluster DB 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 Advanced SQL:In-Memory 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Key Value store 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Tabular store-1 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Tabular store-2 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Document database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Graph database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:Object database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 NoSQL:XML database 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-3 巨量資料檔案系統類型與應用 GFS 巨量資料檔案模型 DFS 巨量資料檔案模型 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 GFS巨量資料檔案模型 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 HDFS巨量資料檔案模型 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-4 巨量資料處理引擎 MapReduce 巨量資料處理引擎 Hadoop相關巨量資料處理技術 IBM江河運算處理架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 MapReduce巨量資料處理引擎 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 Hadoop相關巨量資料處理技術 框架與處理技術 說明 HBase 欄位導向資料模型處理架構 HDFS 分散式檔案處理架構 MapReduce 大量檔案資料處理引擎架構 Big 類似SQL處理語法以擷取、轉換資料作業 Hive 類似SQL處理語法以分析、綜整的資料倉儲作業 Mahout 一系列資料探勘的演算法 Apache Zookeeper 協調眾多處理程序的作業 11-1 Apache Sqoop 將非結構化資料轉換至結構化資料庫 Apache Flume 大量資料搬移、合併作業 Apache Ooize 工作流程排程系統以排序與監控資料處理作業 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 IBM 江河運算處理架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-5 巨量資料分析 巨量資料分析類型 巨量資料展現類型 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 巨量資料分析類型 巨量資料分析類型(列舉) 事件關聯分析 關聯各種事件,找出脈絡可循的模式 拓樸關係分析 找出與建立各種狀況、節點間關係,以減少搜尋 的時間 統計模式分析 根據既有的數學模式、拓樸關係、歷史資料可以 預測未來發生的狀況 文字模式分析 從文字中發現可能的模式與軌跡 適配分析 據既有的關係、模式,分析資料是否符合或接近 經濟模型分析 11-1 說明 11-2 根據供需法則,決定如何最佳化地使用資源 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 巨量資料視覺化展現-1 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 巨量資料視覺化展現-2 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 11-6 巨量資料產品與實務 IBM巨量資料產品解決方案 Oracle巨量資料產品解決方案 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 IBM 巨量資料平台架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 IBM 巨量資料整合架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑 Oracle 巨量資料架構 11-1 11-2 11-3 11-4 11-5 11-6 Cloud Computing.黃正傑