【转载】必看:数据平台的搭建教程及软件工具

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【转载】必看:数据平台的搭建教程及软件⼯具
按系统功能分,不同的数据平台对应着不同的常⽤软件。

在⼤数据兴盛的今天,欲进军数据界的你,应该对此有更进⼀步的了解。

1.数据挖掘模块
作为⼀个跨学科的计算机科学分⽀,数据挖掘是⽤⼈⼯智能、机器学习、统计学和数据库的交叉⽅法在相对较⼤型的数据集中发现模式的计算过程,属于⾮传统的数据处理。

相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。

【现阶段常⽤的数据挖掘软件】AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语⾔、RapidMiner、SAS、SPSS、Weka等。

2.ETL模块
⽬前,对于传统ETL,⼤部分ETL软件都可以胜任;但是对于⼤数据下的ETL,ETL⼯具对其⽀持⾮常有限。

Informatica为⼤数据下的ETL开发推出InformaticaBigData版本,它将之前的Mapping翻译为HQL脚本,从⽽在Hive引擎上执⾏。

IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专⽤数据库的脚本翻译,以利⽤不同的更为强⼤的数据处理引擎。

TalendETL则把Mapping翻译为SparkSQL,从⽽利⽤Spark引擎对数据进⾏处理。

【现阶段常⽤的ETL软件】IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration(Kettle)、TalendETL等,主要表现为通过拖拽和配置的⽅式可视化、免编码地完成ETL⼯作;脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等,主要表现为通过特定的语法进⾏编码实现ETL⼯作。

3.调度模块
调度模块,可以对企业内跨平台和跨主机的软硬件资源进⾏统⼀调度。

这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。

【现阶段常⽤的调度软件】ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。

这些调度软件往往提供GUI和CLI的配置⽅式,其中Control-M在⼤企业中⽤的最多,TaskCtl在中⼩型企业中⽤的最多。

4.数据交换模块
数据交换模块,包括数据导⼊和数据导出。

数据导⼊包括⽂件⽇志接⼊、数据库⽇志接⼊、关系型数据库接⼊和应⽤程序接⼊等。

【现阶段常⽤的数据交换软件】⽂件⽇志接⼊可采⽤Flume等;数据库⽇志接⼊则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库⽇志或变更表;关系型数据库和NoSQL数据库接⼊则使⽤ApacheSqoop、⼤众点评wormhole、TaobaoDataX等;应⽤程序接⼊则通过应⽤程序对外接⼝进⾏接⼊。

5.报表模块
报表⼯具的学习成本和开发难度⽐起⼿⼯编写页⾯来说,⽆疑更低,⽽且,它的开发周期和项⽬风险也得到了有效的控制。

【现阶段常⽤的报表软件】
BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。

这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能⼒。

6.监控模块
监控模块,可以对系统硬件(交换机、路由器和主机等的电⼒、通信、磁盘、内存、CPU等)、系统软件(Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等)和数据(数据的⼀致性、稳定性和可靠性等)进⾏实时监控,发现问题及时告警甚⾄按预设⽅案⾃动进⾏处理。

【现阶段常⽤的监控软件】Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。

7.DQ模块
DQ模块,主要对数据质量进⾏控制,包括源数据的质量检查、数据清洗、数据融合和数据监控等,贯穿数据处理的整个⽣命周期。

尽管DQ 模块⾮常重要,但是⽬前好些数据处理项⽬都没有专门的DQ模块,这些功能以脚本形式零散分布于不同的作业中。

【现阶段常⽤的DQ软件】AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。

8.资产权限模块
资产权限模块,能够统⼀对⼀些⽆形资产(企业的各种数据库表、视图、ETL作业、报表、邮件等)进⾏权限管控,保障信息安全和共享。

该模块完整实现的⼯作量还是⽐较⼤的,多数企业都会借助不同软件⾃带的权限管理能⼒,形成分散的资产权限模块。

【现阶段常⽤的资产权限软件】并没有完全开箱即⽤的资产权限模块。

想要纵横⼤数据世界,傍⾝技能必不可少,善⽤⼯具能让你百战不殆!
來源:简书
著作权归作者所有。

商业转载请联系作者获得授权,⾮商业转载请注明出处。

相关文档
最新文档