大数据建设思路及技术架构解析ppt讲座
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hbase是一個列式數據 庫,存儲列式數據 Zookeeper在Hadoop架構 中負責應用程式的協調 工作,以保持Hadoop集 群內的同步工作。
Hadoop最底層是一個HDFS(Hadoop Distributed File System,分散式檔 案系統),存儲在HDFS中的檔先被分成 塊,然後再將這些塊複製到多個主機 中(DataNode,資料節點)。 Sqoop是為資料的互通性而設計,可以從關聯式資料庫導入資料到 Hadoop,並能直接導入到HDFS或Hive。
1.數據的獲得
1.數據的獲得
大數據產生的根本原因在於感知式系統的廣 泛使用。隨著技術的發展,人們已經有能力製造 極其微小的帶有處理功能的感測器,並開始將這 些設備廣泛的佈置於社會的各個角落,通過這些 設備來對整個社會的運轉進行監控。這些設備會 源源不斷的產生新資料,這種數據的產生方式是 自動的。因此在數據收集方面,要對來自網路包 括物聯網、社交網路和機構資訊系統的資料附上 時空標誌,去偽存真,盡可能收集異源甚至是異 構的數據,必要時還可與歷史數據對照,多角度 驗證數據的全面性和可信性。
2.數據的匯集和存儲
數據只有不斷流動和充分共 用,才有生命力。應在各專用 數據庫建設的基礎上,通過數 據集成,實現各級各類資訊系 統的數據交換和數據共用。數 據存儲要達到低成本、低能耗、 高可靠性目標,通常要用到冗 餘配置、分佈化和雲計算技術, 在存儲時要按照一定規則對數 據進行分類,通過過濾和去重, 減少存儲量,同時加入便於日 後檢索的標籤。
第一課:大數據技術架構解析
制பைடு நூலகம்:小兵张嘎
目錄
一、大數據建設思路
二、大數據基本架構 三、大數據的目標效果 四、課程總結
一、大數據建設思路
大數據數量龐大,格式多樣化。大量數據由 家庭、製造工廠和辦公場所的各種設備、互聯網 事務交易、社交網路的活動、自動化感測器、移 動設備以及科研儀器等生成。它的爆炸式增長已 超出了傳統IT基礎架構的處理能力,給企業和社 會帶來嚴峻的資料管理問題。因此必須開發新的 資料架構,圍繞“數據收集、數據管理、數據分 析、知識形成、智慧行動”的全過程,開發使用 這些資料,釋放出更多數據的隱藏價值。
大數據的處理類型:
• 批次處理--先存儲後處理 • 流處理--直接處理數據
數據挖掘的任務: 關聯分析 聚類分析 分類 預測 時序模式 偏差分析
5.大數據的價值:決策支持系統DDS
大數據的神奇之處就是 通過對過去和現在的數據進 行分析,它能夠精確預測未 來;通過對組織內部的和外 部的數據整合,它能夠洞察 事物之間的相關關係;通過 對海量數據的挖掘,它能夠 代替人腦,承擔起企業和社 會管理的職責。
2. Hadoop核心設計
3. Hbase分散式數據存儲系統
3. Hbase分散式數據存儲系統
• Client:使用HBase RPC機制與HMaster和HRegionServer進行通信 • Zookeeper:協同服務管理,HMaster通過Zookeepe可以隨時感知各個
HRegionServer的健康狀況
基於分散式技術構建的大數據平臺能夠有效 降低數據存儲成本,提升數據分析處理效率,並 具備海量數據、高併發場景的支撐能力,可大幅 縮短數據查詢回應時間,滿足企業各上層應用的 數據需求。
本課程主要學習內容: 1.大數據要做些什麽事? 2.與大數據平臺相關的技術是什麽? 3.大數據平臺要達到哪些目標?
4.數據應用
• 查詢應用 平臺實現條件不固定、不可預見、格式靈活的 按需查詢功能; • 固定報表應用 視統計維度和指標固定的分析結果的展示,可 根據業務系統的需求,分析產生各種業務報表數 據等; • 動態分析應用 按關心的維度和指標對數據進行主題性的分析, 動態分析應用中維度和指標不固定。
四.課程總結
4. 大數據平臺系統功能建議
5. 大數據平臺系統功能說明
• 應用系統
對於大多數企業而言,運營領域的應用是大數據最核心的應用,之前企業 主要使用來自生產經營中的各種報表數據,但隨著大數據時代的到來,來自 於互聯網、物聯網、各種感測器的海量數據撲面而至。於是,一些企業開始 挖掘和利用這些數據,來推動運營效率的提升。 借助大數據平臺,未來的互聯網路將可以讓商家更瞭解消費者的使用習慣, 從而改進使用體驗。基於大數據基礎上的相應分析,能夠更有針對性的改進 用戶體驗,同時挖掘新的商業機會。 數據源是指數據庫應用程式所使用的數據庫或者數據庫伺服器。豐富的數 據源是大數據產業發展的前提。數據源在不斷拓展,越來越多樣化。如:智 慧汽車可以把動態行駛過程變成數據,嵌入到生產設備裡的物聯網可以把生 產過程和設備動態狀況變成數據。對數據源的不斷拓展不僅能帶來採集設備 的發展,而且可以通過控制新的數據源更好地控制數據的價值。然而我國數 位化的數據資源總量遠遠低於美歐,就已有有限的數據資源來說,還存在標 準化、準確性、完整性低,利用價值不高的情況,這大大降低了數據的價值。
二.大數據基本架構
• 基於上述大數據的特徵,通過傳統IT技術存儲和處理大數 據成本高昂。 • 一個企業要大力發展大數據應用首先需要解決兩個問題: 一是低成本、快速地對海量、多類別的數據進行抽取和存 儲;二是使用新的技術對數據進行分析和挖掘,為企業創 造價值。因此,大數據的存儲和處理與雲計算技術密不可 分,在當前的技術條件下,基於廉價硬體的分散式系統 (如Hadoop等)被認為是最適合處理大數據的技術平臺。 • Hadoop是一個分散式的基礎架構,能夠讓用戶方便高效地 利用運算資源和處理海量數據,目前已在很多大型互聯網 企業得到了廣泛應用,如亞馬遜、Facebook和Yahoo等。 其是一個開放式的架構,架構成員也在不斷擴充完善中。
• 數據品質校驗 根據規則對所存儲的數據進行一致性、完整性 和準確性的校驗,保證數據的一致性、完整性和 準確性; • 數據品質管控 通過建立企業數據的品質標準、數據管控的組 織、數據管控的流程,對數據品質進行統一管控, 以達到數據品質逐步完善。
3.數據共享
• 消除網狀接口,建立大數據共用中心,為各業務 系統提供共用數據,降低接口複雜度,提高系統 間接口效率與品質; • 以即時或准即時的方式將整合或計算好的數據向 外系統提供。
6.數據的使用
大數據有三層內涵: 數據量巨大、來源多樣和類型 多樣的數據集; 新型的數據處理和分析技術; 運用數據分析形成價值。
大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性 的影響。大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然, 這裡的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。
• HMaster:管理用戶對表的增刪改查操作 • HRegionServer:HBase中最核心的模組,主要負責回應使用者I/O請
求,向HDFS檔案系統中讀寫數據
• HRegion:Hbase中分散式存儲的最小單元,可以理解成一個Table • HStore:HBase存儲的核心。由MemStore和StoreFile組成。 • HLog:每次用戶操作寫入Memstore的同時,也會寫一份資料到HLog文件
• 數據平臺
• 數據源
三.大數據的目標效果
1.數據整合
• 統一數據模型
承載企業數據模型,促進企業各域數據邏輯模型的統一;
• 統一數據標準
統一建立標準的數據編碼目錄,實現企業數據的標準化與統一存儲;
• 統一數據視圖
實現統一數據視圖,使企業在客戶、產品和資源等視角獲取到一致的資訊。
2.數據質量管控
1. Hadoop體系架構
Hadoop的核心是MapReduce(映射和 化簡編程模型)引擎,Map意為將單個 任務分解為多個,而Reduce則意為將 分解後的多工結果匯總,該引擎由 JobTrackers(工作追蹤,對應命名節 點)和TaskTrackers(任務追蹤,對應 資料節點)組成。當處理大資料查詢 時,MapReduce會將任務分解在多個 節點處理,從而提高了資料處理的效 率,避免了單機性能瓶頸限制。 Hive是Hadoop架構中的數據倉庫, 主要用於靜態的結構以及需要經 常分析的工作。Hbase主要作為 面向列的數據庫運行在HDFS上, 可存儲PB級的數據。Hbase利用 MapReduce來處理內部的海量數 據,並能在海量數據中定位所需 的數據且訪問它。 Thrift是一個軟體框架,用來進行可 擴展且跨語言的服務的開發,最初由 Facebook開發,是構建在各種程式設計 語言間無縫結合的、高效的服務。
3.數據的管理
大數據管理的技術也層出 不窮。在眾多技術中,有6種數 據管理技術普遍被關注,即分 散式存儲與計算、記憶體數據 庫技術、列式數據庫技術、雲 數據庫、非關聯式的數據庫、 移動數據庫技術。其中分散式 存儲與計算受關注度最高。左 圖是一個圖書數據管理系統。
4.數據的分析
數據分析處理:有些行業的 數據涉及上百個參數,其複雜性不 僅體現在數據樣本本身,更體現在 多源異構、多實體和多空間之間的 交互動態性,難以用傳統的方法描 述與度量,處理的複雜度很大,需 要將高維圖像等多媒體資料降維後 度量與處理,利用上下文關聯進行 語義分析,從大量動態而且可能是 模棱兩可的數據中綜合資訊,並匯 出可理解的內容。