大数据与建模
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与建模
LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】
1、SQL用于访问和处理数据库的标准的计算机语言。用来访问和操作数据库系统。SQL语句用于取回和更新数据库中的数据。SQL可与数据库程序系统工作。比如MS
Access,DB2,Infermix,MS SQL Server,Oracle,Sybase以及其他数据库系统。SQL可以面向数据库执行查询,从数据库取回数据,在数据库中插入新的记录,更新数据库中的数据,从数据库删除记录,创建新数据库,在数据库中创建新表,在数据库中创建存储过程,在数据库中创建视图和设置表、存储过程和视图的权限等。
2、Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可好的,因为他假设计算单元和存户会失败,因此他维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为他以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop
依赖于社区服务器,因此他的成本较低,任何人都可以使用。 3、HPCC(high performance computinggand communications)高性能计算与通信的缩写。1993年,由美国科学、工程技术联邦协调理事会向国会提交了“重大挑战项目”高性能计算与通信的报告,也就是被称为HPCC计划的报告,及美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。 4、Strom是自由的开源软件,一个分布式的、容错的实时计算系统。Strom可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量出具,Strom很简单,支持许多种编程语言,使用起来非常有趣。Strom由Twitter开元而来,其他知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。Strom有许多应用领域:实时分析、在线机器学习、不停顿的计算,分布式RPC(员过程调用协议,一种通过网络
从远程计算机程序上请求服务)、ETL (Extraction Transformation Lcading 的缩写,即数据抽取、转换和加载)等等。Strom的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Strom是可扩展、容错,很容易设置和操作。 5、Rapidminer是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据以叔能简化数据挖掘过程的涉及和评价。功能和特点:免费提供数据挖掘技术和库;100%用JAVA代码(可运行在操作系统);数据挖掘过程简单,强大和直观;内部XML保证了标准化的格式来表示交换数据挖掘过程;可以用简单脚本语言自动进行大规模进程;多层次的数据视图,确保有效和透明的数据;图形用户界面的互动原型;命令行(批处理模式)自动大规模应用;JAVA API(应用编程接口);简单的插件和推广机制;强大的可视化引擎,许多尖端的高位数据的可视化建模;400过个数据挖掘运营商支持。6、Pentaho
BI平台不同于传统的BI产品,他是一个以流程为中心的,面向解决方案(Soiution、)的框架。
其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一些列的面向商务智能的独立产品如Free\Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。Pentaho
SDK共包含五个部分:Pentaho
平台、Pentaho
示例数据库、可独立运行的Pentaho
平台、Pentaho
解决方案示例和一个预先配置好的Pentaho
网络服务器。其中Pentaho
平台是Pentaho
平台最主要的部分,囊括了Pentaho
平台源代码的主题。什么是Power BIPower BI
是软件服务、应用和连接器的集合。他们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。无论你的数据是简单的Excel电子表格还是基于云和本地混合数据仓库的集合,Power BI都可以让你轻松地连接到数据源,直观看到(或发现)重要内容,与任何所希望的人进行共
享。 Power BI的组成部分:Power BI包含Windows桌面应用程序(称为Power BI Desktop)、联机SAAS(软件及服务)服务(称为Power BI服务)。及移动Power BI应用(可在Windows手机和平板电脑及IOS和Android设备上使用)。这三个元素、Desktop、服务和移动,旨在使用户通过最有效的方式创建、共享和使用商业见解。 Power BI的操作一般流程:1、将数据导入Power BI
Desktop,并创建报表。2、发布到Power BI服务,你可在该服务中创建新的可视化效果或构建仪表板。3、与他人(尤其是差旅人员)共享你的仪表板4、在Power BI
Desktop应用中查看共享仪表板和报表并与其交互。 Power BI的基本构建模块:可视化效果:有时称之为视觉对象,是数据的可视化表示形成,例如图标、图形、彩色编码的地图或其他你可创建用以直观呈现你的数据的有趣事物。数据集:Power BI用来创建其可视化效果的数据集合,基于EXCEL工作簿中的单个表,你可以有一个简单的数据集,数据集也可以是许多不同源的组合,你可以筛选和组合以提供一个用在Power
BI中的唯一集合数据。报表:在Power BI中,报表是一起显示在一个或多个页面的可视化效果集合。就想你可能会对销售演示文稿创建的任何其他报表,或者你将对学校分配编写报表一样,在Power BI中,报表是批次相关的项目的集合。仪表盘:Power BI仪表板非常类似与汽车中的仪表板,是单个页面中你可与其他人共享的视觉对象的集合。通常,这是提供对你尝试呈现的数据以及情景的快速了解的选定视觉对象组。磁贴:在Power BI中,磁贴是在报表或仪表板中找到单个可视化效果。他是包含每个单个视觉对象的矩形框。当你在Power BI中创建报表或仪表板时,可以以任何你想要呈现信息的方式来颖或排列磁贴。 Power BI高颜值、可交互、钻取的仪表板;高智商、问与答功能,让你的报告会说话;高效率、数据源可配置自动更新实现实时的仪表板展现;可拓展的可视化图表。 Power Query 是负责抓取和整理数据的,他可以抓取几乎市面上所有格式的源数据,然后再按照我们需要的格式整理出来。通过Power Query我们可以快速将多个数据源的数据合并、追加到一起,任意组合数据、将数据进行分组、透视等整理操作。Power Query