大数据建设思路及技术架构解析ppt讲座

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hbase是一個列式數據庫，存儲列式數據 Zookeeper在Hadoop架構中負責應用程式的協調工作，以保持Hadoop集群內的同步工作。
Hadoop最底層是一個HDFS(Hadoop Distributed File System，分散式檔案系統)，存儲在HDFS中的檔先被分成塊，然後再將這些塊複製到多個主機中(DataNode，資料節點)。 Sqoop是為資料的互通性而設計，可以從關聯式資料庫導入資料到 Hadoop，並能直接導入到HDFS或Hive。
1.數據的獲得
1.數據的獲得
大數據產生的根本原因在於感知式系統的廣泛使用。隨著技術的發展，人們已經有能力製造極其微小的帶有處理功能的感測器，並開始將這些設備廣泛的佈置於社會的各個角落，通過這些設備來對整個社會的運轉進行監控。這些設備會源源不斷的產生新資料，這種數據的產生方式是自動的。因此在數據收集方面，要對來自網路包括物聯網、社交網路和機構資訊系統的資料附上時空標誌，去偽存真，盡可能收集異源甚至是異構的數據，必要時還可與歷史數據對照，多角度驗證數據的全面性和可信性。
2.數據的匯集和存儲
數據只有不斷流動和充分共用，才有生命力。應在各專用數據庫建設的基礎上，通過數據集成，實現各級各類資訊系統的數據交換和數據共用。數據存儲要達到低成本、低能耗、高可靠性目標，通常要用到冗餘配置、分佈化和雲計算技術，在存儲時要按照一定規則對數據進行分類，通過過濾和去重，減少存儲量，同時加入便於日後檢索的標籤。
第一課：大數據技術架構解析
制பைடு நூலகம்：小兵张嘎
目錄
一、大數據建設思路
二、大數據基本架構三、大數據的目標效果四、課程總結
一、大數據建設思路
大數據數量龐大，格式多樣化。大量數據由家庭、製造工廠和辦公場所的各種設備、互聯網事務交易、社交網路的活動、自動化感測器、移動設備以及科研儀器等生成。它的爆炸式增長已超出了傳統IT基礎架構的處理能力，給企業和社會帶來嚴峻的資料管理問題。因此必須開發新的資料架構，圍繞“數據收集、數據管理、數據分析、知識形成、智慧行動”的全過程，開發使用這些資料，釋放出更多數據的隱藏價值。
大數據的處理類型：
• 批次處理--先存儲後處理 • 流處理--直接處理數據
數據挖掘的任務：關聯分析聚類分析分類預測時序模式偏差分析
5.大數據的價值：決策支持系統DDS
大數據的神奇之處就是通過對過去和現在的數據進行分析，它能夠精確預測未來;通過對組織內部的和外部的數據整合，它能夠洞察事物之間的相關關係;通過對海量數據的挖掘，它能夠代替人腦，承擔起企業和社會管理的職責。
2. Hadoop核心設計
3. Hbase分散式數據存儲系統
3. Hbase分散式數據存儲系統
• Client：使用HBase RPC機制與HMaster和HRegionServer進行通信 • Zookeeper：協同服務管理，HMaster通過Zookeepe可以隨時感知各個
HRegionServer的健康狀況
基於分散式技術構建的大數據平臺能夠有效降低數據存儲成本，提升數據分析處理效率，並具備海量數據、高併發場景的支撐能力，可大幅縮短數據查詢回應時間，滿足企業各上層應用的數據需求。
本課程主要學習內容: 1.大數據要做些什麽事? 2.與大數據平臺相關的技術是什麽? 3.大數據平臺要達到哪些目標?
4.數據應用
• 查詢應用平臺實現條件不固定、不可預見、格式靈活的按需查詢功能; • 固定報表應用視統計維度和指標固定的分析結果的展示，可根據業務系統的需求，分析產生各種業務報表數據等; • 動態分析應用按關心的維度和指標對數據進行主題性的分析，動態分析應用中維度和指標不固定。
四.課程總結
4. 大數據平臺系統功能建議
5. 大數據平臺系統功能說明
• 應用系統
對於大多數企業而言，運營領域的應用是大數據最核心的應用，之前企業主要使用來自生產經營中的各種報表數據，但隨著大數據時代的到來，來自於互聯網、物聯網、各種感測器的海量數據撲面而至。於是，一些企業開始挖掘和利用這些數據，來推動運營效率的提升。借助大數據平臺，未來的互聯網路將可以讓商家更瞭解消費者的使用習慣，從而改進使用體驗。基於大數據基礎上的相應分析，能夠更有針對性的改進用戶體驗，同時挖掘新的商業機會。數據源是指數據庫應用程式所使用的數據庫或者數據庫伺服器。豐富的數據源是大數據產業發展的前提。數據源在不斷拓展，越來越多樣化。如：智慧汽車可以把動態行駛過程變成數據，嵌入到生產設備裡的物聯網可以把生產過程和設備動態狀況變成數據。對數據源的不斷拓展不僅能帶來採集設備的發展，而且可以通過控制新的數據源更好地控制數據的價值。然而我國數位化的數據資源總量遠遠低於美歐，就已有有限的數據資源來說，還存在標準化、準確性、完整性低，利用價值不高的情況，這大大降低了數據的價值。
二.大數據基本架構
• 基於上述大數據的特徵，通過傳統IT技術存儲和處理大數據成本高昂。 • 一個企業要大力發展大數據應用首先需要解決兩個問題：一是低成本、快速地對海量、多類別的數據進行抽取和存儲;二是使用新的技術對數據進行分析和挖掘，為企業創造價值。因此，大數據的存儲和處理與雲計算技術密不可分，在當前的技術條件下，基於廉價硬體的分散式系統 (如Hadoop等)被認為是最適合處理大數據的技術平臺。 • Hadoop是一個分散式的基礎架構，能夠讓用戶方便高效地利用運算資源和處理海量數據，目前已在很多大型互聯網企業得到了廣泛應用，如亞馬遜、Facebook和Yahoo等。其是一個開放式的架構，架構成員也在不斷擴充完善中。
• 數據品質校驗根據規則對所存儲的數據進行一致性、完整性和準確性的校驗，保證數據的一致性、完整性和準確性; • 數據品質管控通過建立企業數據的品質標準、數據管控的組織、數據管控的流程，對數據品質進行統一管控，以達到數據品質逐步完善。
3.數據共享
• 消除網狀接口，建立大數據共用中心，為各業務系統提供共用數據，降低接口複雜度，提高系統間接口效率與品質; • 以即時或准即時的方式將整合或計算好的數據向外系統提供。
6.數據的使用
大數據有三層內涵：數據量巨大、來源多樣和類型多樣的數據集; 新型的數據處理和分析技術; 運用數據分析形成價值。
大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性的影響。大數據應用的關鍵，也是其必要條件，就在於"IT"與"經營"的融合，當然，這裡的經營的內涵可以非常廣泛，小至一個零售門店的經營，大至一個城市的經營。
• HMaster:管理用戶對表的增刪改查操作 • HRegionServer：HBase中最核心的模組，主要負責回應使用者I/O請
求，向HDFS檔案系統中讀寫數據
• HRegion:Hbase中分散式存儲的最小單元，可以理解成一個Table • HStore：HBase存儲的核心。由MemStore和StoreFile組成。 • HLog：每次用戶操作寫入Memstore的同時，也會寫一份資料到HLog文件
• 數據平臺
• 數據源
三.大數據的目標效果
1.數據整合
• 統一數據模型
承載企業數據模型，促進企業各域數據邏輯模型的統一;
• 統一數據標準
統一建立標準的數據編碼目錄，實現企業數據的標準化與統一存儲;
• 統一數據視圖
實現統一數據視圖，使企業在客戶、產品和資源等視角獲取到一致的資訊。
2.數據質量管控
1. Hadoop體系架構
Hadoop的核心是MapReduce(映射和化簡編程模型)引擎，Map意為將單個任務分解為多個，而Reduce則意為將分解後的多工結果匯總，該引擎由 JobTrackers(工作追蹤，對應命名節點)和TaskTrackers(任務追蹤，對應資料節點)組成。當處理大資料查詢時，MapReduce會將任務分解在多個節點處理，從而提高了資料處理的效率，避免了單機性能瓶頸限制。 Hive是Hadoop架構中的數據倉庫，主要用於靜態的結構以及需要經常分析的工作。Hbase主要作為面向列的數據庫運行在HDFS上，可存儲PB級的數據。Hbase利用 MapReduce來處理內部的海量數據，並能在海量數據中定位所需的數據且訪問它。 Thrift是一個軟體框架，用來進行可擴展且跨語言的服務的開發，最初由 Facebook開發，是構建在各種程式設計語言間無縫結合的、高效的服務。
3.數據的管理
大數據管理的技術也層出不窮。在眾多技術中，有6種數據管理技術普遍被關注，即分散式存儲與計算、記憶體數據庫技術、列式數據庫技術、雲數據庫、非關聯式的數據庫、移動數據庫技術。其中分散式存儲與計算受關注度最高。左圖是一個圖書數據管理系統。
4.數據的分析
數據分析處理：有些行業的數據涉及上百個參數，其複雜性不僅體現在數據樣本本身，更體現在多源異構、多實體和多空間之間的交互動態性，難以用傳統的方法描述與度量，處理的複雜度很大，需要將高維圖像等多媒體資料降維後度量與處理，利用上下文關聯進行語義分析，從大量動態而且可能是模棱兩可的數據中綜合資訊，並匯出可理解的內容。