大数据作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三题数据混杂不准确怎么办?

小数据时代我们总试图收集一些非常干净的数据、高质量的数据。当大数据来临,我们就不去追求那种特别的精确性,我们可能会满足于某种大的方向,而不是知道现象的每一个英寸。在宏观上失去了精确性,我们却可以在微观上获得准确性。大数据有三个主要的特点,全体的、混杂的和相关的关系,这三种性质是大数据的特点,同时会相互加强促进。

针对数据混杂的问题,主要有三点:

1.不同属性维度,不同处理技术。

2.异构的转化

3.矛盾样本如何办(可进行异常点分析)

在大数据中进行自动数据清理是数据达到合理质量水平的方法。数据清理的步骤有:

1.元素化

2.标准化

3.效验

4.匹配

5.档案化

第四题相关关系有哪些处理方法?

关联分析就是从给定的数据集发现频繁出现的项集模式知识。

两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。

关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入lift(提高度或兴趣度)、相关性等参数,使得所挖掘的规则更符合需求。

按照不同情况,关联规则可以进行分类如下:

1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。

布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。

在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony 打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

3.基于规则中涉及到的数据的维数,关联规则可以分为单维关联规则和多维关联规则。

在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

相关文档
最新文档