大数据作业

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

互联网时代的大数据技术课后习题

1、新摩尔定律的含义是什么?

是由杰弗里·摩尔(Geoffrey Moore)创立的关于技术产品生命周期的定律,被称为新摩尔定律。在技术产品的采用生命周期里,不同类型的接纳者所占大致比例为:创新者(Innovator):2.5%、早期采用者(Early Adopters):

13.5%、早期大众(Early Majority):34%、晚期大众(Late Majority):34%、

落伍者(Laggards):16% ;关键是,技术在从早期采用者到到早期大众接纳过程有一个鸿沟,大部分技术产品无法跨越这个鸿沟就死掉了。

2、大数据现象是怎么形成的?

数据变身大数据,大数据这一概念的形成,有三大标志性事件

2008年9月,美国《自然》杂志专刊第一次提出大数据概念。

2011年2月1日,《科学》(Science) 杂志专刊一-Dealing with data, 通过社会调查的方式,第一-次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的"数据困境"

2011年5月,麦肯锡研究院发布报告一Big data: The next frontier for innovation, competition, and productivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库I具获取、储存、管理和分析能力的数据集。

3、大数据有哪些特征?

大数据有三大特征

第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

第三个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

4、如何对大数据的来源进行分类?

从大数据的来源来看

按数据来源行业划分

主要分为以下几个大类:国家数据库、企业数据、机器设备数据、个人数据。

国家数据库

包含公开的和保密的两个方面。

公开的如GDP、CPI、固定资产投资等宏观经济数据,包括历年统计年鉴或人口普查的数据,以及地理信息数据、金融数据、房地产数据、医疗统计数据等等。

保密的数据有军事数据、航空航天、卫星监测、刑事档案等等不可公开的大量数据。

企业数据

如公司百度、阿里巴巴、腾讯、新浪微博、亚马逊、facebook等公司的用户消费行为数据及社交行为数据。旅游公司的酒店、交通、门票等订单数

据,医院的检测数据及死亡病因数据,农业的养殖培育数据等等,不胜枚举。

机器设备数据。

如行车仪、基站数据、智能家居、智能穿戴设备等。

个人数据

比如个人拍摄的照片、录音、聊天记录、邮件、电话记录、文档等等隐私数据。

按数据存储的形式进行划分

结构化数据

非结构化数据

5、大数据预处理的方法有哪些

数据清理

数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

数据集成

数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

数据变换

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

数据归约

数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

6、大数据的挖掘方法有哪些?

数据挖掘的方法

⑴神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

⑵遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

⑶决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

⑷粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。

⑸覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。

⑹统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。

⑺模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型–云模型,并形成了云理论。

相关文档
最新文档