第4章数据采集与清洗习题答案

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1）请阐述数据采集有哪些方法？

（1）系统日志采集

许多公司的平台每天会产生大量的日志（一般为流式数据，如搜索引擎的pv，查询等），处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据，并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本特征。目前常用的开源日志采集平台包含有：Apache Flume、Fluentd、Logstash、Chukwa、Scribe以及Splunk Forwarder等。这些采集平台大部分采用的是分布式架构，以满足大规模日志采集的需要。具体的日志采集平台在下一节会介绍。

（2）网络数据采集

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛（或数据采集机器人）、分词系统、任务与索引系统等技术进行综合运用而完成，并且随着互联网技术的发展和网络海量信息的增长，对信息的获取与分拣会成为一种越来越大的需求。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。由于采用多个系统并行抓取数据，这种方式能充分利用机器的计算资源和存储能力，大大提高系统抓取数据的能力，同时大大降低了开发人员的开发速率，使得开发人员可以很快的完成一个数据系统的开发。

（3）数据库采集

数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中，然后使用特定的数据处理系统进行进一步分析。目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。这种方法通常在采集端部署大量数据库，并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。

2）数据采集平台有哪些？

Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka

3）为什么要进行数据清洗？

数据的不断剧增是大数据时代的显著特征，大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而在众多数据中总是存在着许多“脏”数据，即不完整、不规范、不准确的数据，因此数据清洗就是指把“脏数据”彻底洗掉，包括检查数据一致性，处理无效值和缺失值等，从而提高数据质量。在实际的工作中，数据清洗通常占开发过程的50%-70%左右的时间。

4）数据清洗有哪些流程？

（1）数据清洗-预处理

（2）数据清洗-缺省值清洗

（3）数据清洗-格式与内容清洗

（4）数据清洗-逻辑错误清洗

（5）数据清洗-多余的数据清洗

（6）数据清洗-关联性验证

5）什么是数据标准化？

数据的标准化，是通过一定的数学变换方式，将原始数据按照一定的比例进行转换，使之落入到一个小的特定区间内，例如0~1或-1~1的区间内，消除不同变量之间性质、量纲、数量级等特征属性的差异，将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的数值都处于同一个数量级别上，从而便于不同单位或数量级的指标能够进行综合分析和比较。

6）请阐述什么是数据仓库。

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境，它研究和解决从数据库中获取信息的问题，并为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

7）实施ETL有哪些常见工具？

目前在市场上常见的ETL工具包含有：

（1）Talend

Talend是第一家针对的数据集成工具市场的ETL开源软件供应商。T alend 以它的技术和商业双重模式为ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务，提供了一个针对所有规模的公司的公开的，创新的，强大的灵活的软件解决方案。

（2）DataStage

DataStage是IBM公司的商业软件，是一种数据集成软件平台，能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。DataStage 支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。并且Datastage全部的操作在同一个界面中，不用切换界面，能够看到数据的来源，整个job的情况。

（3）Kettle

Kettle 中文名称叫水壶，是一款国外开源的ETL工具，纯java编写，可以在Windows、Linux、Unix上运行，数据抽取高效稳定。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

（4）Informatica PowerCenter

Informatica PowerCenter是一款非常强大的ETL工具，支持各种数据源之间的数据抽取、转换、加载等数据传输，多用于大数据和商业智能等领域。一般应用企业根据自己的业务数据构建数据仓库，在业务数据和数据仓库间进行ETL 操作。

第4章 数据采集与清洗习题答案

第4章数据采集与清洗习题答案