实验8-1 大数据分析报告

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验8-1 数据分析

一、实验目的

1.理解数据挖掘的一般流程。

2.掌握数据探索和预处理的方法。

3.使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。

4.使用WEKA软件,对给定的数据进行预处理。

二、实验容

在D盘中以“班级-学号-”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。

0. 数据集介绍

银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act (是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。

1.数据探索之数据质量分析

新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。

【要求】

(1)请找出bank_data.xlsx表中的含有缺失值的记录。

(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。

(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。

【提示】

(1)请找出bank_data.xlsx表中的含有缺失值的记录。

方法1:条件格式法

1)选取A1:L601区域。

2)开始--> 条件格式--> 新建规则(N)...,在"新建格式规则"对话框中,选择空值。如图8-1所示。

图8-1 “新建格式规则”对话框

3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图8-2所示。

图8-2 设置条件格式

方法2:

1)缺失值定位。“开始”→“编辑/ 查找和选择”→“定位”对话框→“定位条件”按钮。

2)“定位条件”对话框→选择“空值”,如图8-3所示。

图8-3 “转到(G)…”下拉菜单命令和“定位条件”对话框(2)绘制“income”属性箱线图和点比例图。高级筛选出异常值。

“加载项/ PHStat”→“Descriptive Statistics”→“Boxplot…”或”Dot Scale Diagram…“命令。如图8-4所示。注意选中“income”属性,如果数据

区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。

(a)(b)

(c)(d)

图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。

表8-1 四分位数表

箱线图公式数值

最小值=MIN(E2:E601) 5014.21

高级筛选,筛选出大于Qu,小于QL的离群点。

1)设置条件区域,如图8-5所示。

图8-5 高级筛选“条件区域”

2)设置高级筛选。

2.数据探索之数据特征分析

建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对其进行数据特征分析。

【要求】

(1)针对age属性进行分布分析。填写8-2和8-3表。

表8-2 年龄分布分析表表8-3 年龄数据统计表

(2)根据上一步的age属性分组,分别用EXCEL分布工具和PHSTAT软件绘制直方图。

(3)同理,将收入属性分组,计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主要群体。

【提示】

(1)age分为三组(青年组、中年组和老年组),填写age数据统计,如表8-4所示。

表8-4 年龄数据分布公式表

组距=INT(O9/O10) 16 O11 表8-5 年龄统计公式表

年龄段N13 年龄区间

O13

分组数据

P13

组中值

Q13

频数

R13

累积频数

S13

累积百分比

T13

青年N14 =O6+O11 =(O6+P14)/2 {=FREQUENCY(B2:B601

,P14:P16)}

=R14+S13 =S14/$O$4

中年

N15

=P14+O11 =(P14+P15)/2 =R15+S14 =S15/$O$4

老年

N16

=O5 =(P15+P16)/2 =R16+S15 =S16/$O$4 (2)数据分析工具分析。

1)EXCEL数据分析

“数据”选项卡→“数据分析”按钮→“直方图”选项→“直方图”对话框。

注意,输入区域为:age数据,接收区域为:分组数据,输出区域为:分析结果

放置区域。如图8-6(a)(b)(c)所示。

图8-6(a)“数据分析”路径(b)“数据分析”对话框(c)“直方图”对话框

结果如表8-6和图8-7所示。

表8-6 数据分析工具直方图分析结果表

接收频率累积 %接收频率累积 %

3419532.50%5021435.67%

5021468.17%3419568.17%

67191100.00%67191100.00%

其他0100.00%其他0100.00%

图8-7 数据分析工具绘制的直方图

2)PHSTAT软件操作步骤如下:

图8-8 PHSTAT软件直方图路径

注意,PHSTAT软件绘制直方图过程中,作图区的数据不能包含公式。

选中age属性(B2:B601),分组数据属性(V14:V16),组中值属性(W14:16)

相关文档
最新文档