数据采集第一章 数据采集与预处理准备
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
右击Ubuntu操作系统桌面,从弹出的菜单中选择【open in Terminal】命令打开终端,在终端中输入命令【sudo apt-get install python-pip】安装pip。如图所示:
pip 是一个现代的,通用的Python包管理工具,提供了对 Python 包的查找、下载、安装、卸载的功能。我们需要将pip更新 到最新版本。在命令行中执行命令【pip install --upgrade pip】 如图所示:
第一章 数据采集与预处理准备
目录
Contents
01
认识数据采集技术 熟悉数据采集平台
02
认识数据预处理技术
来自百度文库 01
学习目标
学习目标
技能目标
熟悉数据采集技术 熟悉数据预处理技术 学会数据采集与预处理环境搭建
知识目标
识记数据采集与预处理的概念和目的 领会数据采集与预处理的意义
02
任务1.1:认识数据采集技术,熟悉数据采集平台
(4)科学实验系统 科学实验系统实际上也属于物理信息系统,但其实验环境是
预先设定的,主要用于研究和学术,数据是有选择的、可控的, 有时可能是人工模拟生成的仿真数据。数据往往表现为具有不同 形式的数据。
数据采集方法
①系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统
日志采集,如Hadoop的Chukwa、Cloudera 的Flume、 Facebook 的Scribe 等这些工具均采用分布式架构,能满足每秒 数百MB 的日志数据采集和传输需求。
②网络数据采集方法:对非结构化数据的采集 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上
获取数据信息,该方法可以将非结构化数据从网页中抽取出来,将其 存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、 音频、视频等文件或附件的采集,附件与正文可以自动关联。
除了网络中包含的内容之外,对于网络流量的采集可以使用DPI 或DFI等带宽管理技术进行处理。 ③其他数据采集方法
② 修改权限和命名 首先,使用id命令确定本机的用户和组。如图所示:
其次,执行以下命令更改用户和组修改文件权限,效果如图所示: cd /usr/local sudo chown -R a(用户):a(组) apache-flume-1.7.0-bin
数据采集来源
根据MapReduce 产生数据的应用系统分类,大数据的采集主 要有四种来源:管理信息系统、web信息系统、物理信息系统、科 学实验系统。 (1)管理信息系统
管理信息系统是指企业、机关内部的信息系统,如事务处理系 统、办公自动化系统,主要用于经营和管理,为特定用户的工作和 业务提供支持。数据的产生既有终端用户的始输人,也有系统的二 次加工处理。系统的组织结构上是专用的,数据通常是结构化的。
任务描述
(1)学习数据采集等相关知识内容,熟悉大数据的定义、大数据的基本特征及数 据采集的相关技术、工具或产品。 (2)熟悉数据采集的来源和采集方法。 (3)完成scrapy平台搭建。 (4)完成Apache Flume平台搭建。
任务目标
(1)知道数据采集的来源和采集的方法。 (2)学会数据采集平台的搭建。
对于企业生产经营数据或学科研究数据等保密性要求较高的数 据,可以通过与企业、研究机构合作或授权的方式,使用特定系统接 口等相关方式采集数据。
任务实施
scrapy系统环境搭建 Scrapy是Python开发的一个快速、高层次的屏幕抓取和
web抓取框架,任何人都可以根据需求方便的对它进行修改,用 于从web页面中提取结构化的数据,它提供了多种类型爬虫的基 类,如BaseSpider、sitemap、web2.0爬虫的支持。 (1)安装所需的环境
(2) Web信息系统 web信息系统包括互联网上的各种信息系统,如社交网站、社会
媒体、系统引擎等,主要用于构造虚拟的信息空间,为广大用户提供 信息服务和社交服务。系统的组织结构是开放式的,大部分数据是半 结构化或无结构的。数据的产生者主要是在线用户。 (3)物理信息系统
物理信息系统是指关于各种物理对象和物理过程的信息系统,如 实时监控、实时检测,主要用于生产调度、过程控制、现场指挥、环 境保护等。系统的组织结构上是封闭的,数据由各种嵌入式传感设备 产生,可以是关于物理、化学、生物等性质和状态的基本测量值,也 可以是关于行为和状态的音频、视频等多媒体数据。
pip更新完成后,就可以安装Scrapy了。在命令行中执行 命令【pip install scrapy】如图所示:
(2)验证scrapy框架安装是否成功 在命令行中输入命令【scrapy】,出现如图所示内容,即为
安装成功
日志系统环境搭建
Flume是Cloudera提供的一个高可用的,高可靠的,分布式 的海量日志采集、聚合和传输的系统,Flume支持在日志系统中 定制各类数据发送方,用于收集数据;同时,Flume提供对数据 进行简单处理,并写到各种数据接受方(可定制)的能力。
知识准备
大数据(Big Data),指无法在一定时间范围内用常规软件 工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能 具有更强的决策力、洞察发现力和流程优化能力的海量、高增长 率和多样化的信息资产。
数据采集概念
数据采集的ETL 工具负责将分布的、异构数据源中的不同种类 和结构的数据如文本数据、关系数据以及图片、视频等非结构化数 据等抽取到临时中间层后进行清洗、转换、分类、集成,最后加载 到对应的数据存储系统如数据仓库中,成为联机分析处理、数据挖 掘的基础。
(1)安装flume Flume需要jdk环境支持,可以使用java -version查看系统是
否配置了JDK环境,显示如图结果即为配置了jdk环境
否则,需要先下载安装JDK环境。 ① 到官方网站下载apache-flume-1.8.0-bin.tar.gz。 执行以下命令,完成压缩包的解压与安装。 cd ~/Downloads sudo tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local
pip 是一个现代的,通用的Python包管理工具,提供了对 Python 包的查找、下载、安装、卸载的功能。我们需要将pip更新 到最新版本。在命令行中执行命令【pip install --upgrade pip】 如图所示:
第一章 数据采集与预处理准备
目录
Contents
01
认识数据采集技术 熟悉数据采集平台
02
认识数据预处理技术
来自百度文库 01
学习目标
学习目标
技能目标
熟悉数据采集技术 熟悉数据预处理技术 学会数据采集与预处理环境搭建
知识目标
识记数据采集与预处理的概念和目的 领会数据采集与预处理的意义
02
任务1.1:认识数据采集技术,熟悉数据采集平台
(4)科学实验系统 科学实验系统实际上也属于物理信息系统,但其实验环境是
预先设定的,主要用于研究和学术,数据是有选择的、可控的, 有时可能是人工模拟生成的仿真数据。数据往往表现为具有不同 形式的数据。
数据采集方法
①系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统
日志采集,如Hadoop的Chukwa、Cloudera 的Flume、 Facebook 的Scribe 等这些工具均采用分布式架构,能满足每秒 数百MB 的日志数据采集和传输需求。
②网络数据采集方法:对非结构化数据的采集 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上
获取数据信息,该方法可以将非结构化数据从网页中抽取出来,将其 存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、 音频、视频等文件或附件的采集,附件与正文可以自动关联。
除了网络中包含的内容之外,对于网络流量的采集可以使用DPI 或DFI等带宽管理技术进行处理。 ③其他数据采集方法
② 修改权限和命名 首先,使用id命令确定本机的用户和组。如图所示:
其次,执行以下命令更改用户和组修改文件权限,效果如图所示: cd /usr/local sudo chown -R a(用户):a(组) apache-flume-1.7.0-bin
数据采集来源
根据MapReduce 产生数据的应用系统分类,大数据的采集主 要有四种来源:管理信息系统、web信息系统、物理信息系统、科 学实验系统。 (1)管理信息系统
管理信息系统是指企业、机关内部的信息系统,如事务处理系 统、办公自动化系统,主要用于经营和管理,为特定用户的工作和 业务提供支持。数据的产生既有终端用户的始输人,也有系统的二 次加工处理。系统的组织结构上是专用的,数据通常是结构化的。
任务描述
(1)学习数据采集等相关知识内容,熟悉大数据的定义、大数据的基本特征及数 据采集的相关技术、工具或产品。 (2)熟悉数据采集的来源和采集方法。 (3)完成scrapy平台搭建。 (4)完成Apache Flume平台搭建。
任务目标
(1)知道数据采集的来源和采集的方法。 (2)学会数据采集平台的搭建。
对于企业生产经营数据或学科研究数据等保密性要求较高的数 据,可以通过与企业、研究机构合作或授权的方式,使用特定系统接 口等相关方式采集数据。
任务实施
scrapy系统环境搭建 Scrapy是Python开发的一个快速、高层次的屏幕抓取和
web抓取框架,任何人都可以根据需求方便的对它进行修改,用 于从web页面中提取结构化的数据,它提供了多种类型爬虫的基 类,如BaseSpider、sitemap、web2.0爬虫的支持。 (1)安装所需的环境
(2) Web信息系统 web信息系统包括互联网上的各种信息系统,如社交网站、社会
媒体、系统引擎等,主要用于构造虚拟的信息空间,为广大用户提供 信息服务和社交服务。系统的组织结构是开放式的,大部分数据是半 结构化或无结构的。数据的产生者主要是在线用户。 (3)物理信息系统
物理信息系统是指关于各种物理对象和物理过程的信息系统,如 实时监控、实时检测,主要用于生产调度、过程控制、现场指挥、环 境保护等。系统的组织结构上是封闭的,数据由各种嵌入式传感设备 产生,可以是关于物理、化学、生物等性质和状态的基本测量值,也 可以是关于行为和状态的音频、视频等多媒体数据。
pip更新完成后,就可以安装Scrapy了。在命令行中执行 命令【pip install scrapy】如图所示:
(2)验证scrapy框架安装是否成功 在命令行中输入命令【scrapy】,出现如图所示内容,即为
安装成功
日志系统环境搭建
Flume是Cloudera提供的一个高可用的,高可靠的,分布式 的海量日志采集、聚合和传输的系统,Flume支持在日志系统中 定制各类数据发送方,用于收集数据;同时,Flume提供对数据 进行简单处理,并写到各种数据接受方(可定制)的能力。
知识准备
大数据(Big Data),指无法在一定时间范围内用常规软件 工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能 具有更强的决策力、洞察发现力和流程优化能力的海量、高增长 率和多样化的信息资产。
数据采集概念
数据采集的ETL 工具负责将分布的、异构数据源中的不同种类 和结构的数据如文本数据、关系数据以及图片、视频等非结构化数 据等抽取到临时中间层后进行清洗、转换、分类、集成,最后加载 到对应的数据存储系统如数据仓库中,成为联机分析处理、数据挖 掘的基础。
(1)安装flume Flume需要jdk环境支持,可以使用java -version查看系统是
否配置了JDK环境,显示如图结果即为配置了jdk环境
否则,需要先下载安装JDK环境。 ① 到官方网站下载apache-flume-1.8.0-bin.tar.gz。 执行以下命令,完成压缩包的解压与安装。 cd ~/Downloads sudo tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local