大数据技术与应用习题答案第5-6章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)请阐述大数据存储的定义。
大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。因此,大数据的存储是数据分析与应用的前提。
2)文件存储和对象存储有什么区别?
文件存储(NAS)相对块存储来说更能兼顾多个应用和更多用户访问,同时提供方便的数据共享手段。对象存储是一种新的网络存储架构。存储标准化组织SINA早在2004年就给出了对象存储的定义,但早期多出现在超大规模系统中,所以并不为大众所熟知,相关产品一直也不温不火。一直到云计算和大数据的概念全民强推,才慢慢进入公众视野。对象存储的优势是互联网或者公网,主要解决海量数据,海量并发访问的需求。总体上讲,对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。它的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统,每个对象存储设备具备一定的职能,能够自动管理其上的数据分布。
3)什么是NoSQL,有什么特点?
NoSQL数据库又叫作非关系数据库,它是英文“Not Only SQL”的简写,即“不仅仅是SQL”。和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。NoSQL数据库一般都具备水平可扩展的特性,并且可以支持超大规模数据存储,灵活的数据模型也可以很好地支持Web 2.0应用,此外还具有强大的横向扩展能力。典型的NoSQL数据库包含以下几种:键值数据库、列族数据库、文档数据库和图形数据库。值得注意的是:每种类型的数据库都能够解决传统关系数据库无法解决的问题。
4)什么是NewSQL,有什么特点?
NewSQL 数据库是对各种新的可扩展/高性能数据库的简称,它是一种相对较新的形式,旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分。这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL 等特性。因此,NewSQL 数据库也被定义为下一代数据库的发展方向。作为一种相对较新的形式,NewSQL旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分,它的目标是将SQL的ACID保证与NoSQL的可扩展性和高性能相结合。
NewSQL数据库改变了数据的定义范围。它不再是原始的数据类型,如整数、浮点,它的数据可能是整个文件。此外,NewSQL数据库是非关系的、水平可扩展、分布式并且是开源的。
5)什么是云数据库?
云数据库是指被优化或部署到一个虚拟计算环境中的数据库,是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。因此,云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,可以实现按需付费和按需扩展。
6)什么是图形数据库?
图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。不过值得注意的是:图形数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。
(1)请阐述什么是大数据分析。
大数据分析的主要任务主要有:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
(2)大数据分析的类型有哪些?
大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
(3)举例两种数据挖掘的应用场景?
(1)电子邮件系统中垃圾邮件的判断
电子邮件系统判断一封Email是否属于垃圾邮件。这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
(2)金融领域中金融产品的推广营销
针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。将全体客户划分为诸如:理财偏好者、基金偏好者、活期偏好者、国债偏好者等。其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
(4)简述数据挖掘的分类算法及应用。
K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。
决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。
KNN算法也叫作K最近邻算法,是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。在这里专指人工神经网络。它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。