数据分析方法与技术作业及答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、填写题(抄题,写答案)
1.数据分析“六步曲”按顺序依次是:明确分析目的和内容、数据收集、数据处理、
数据分析、数据展现、报告撰写。
2.定量数据一般可分为计量的、计数的、二种类型。定性数据一般可分为有序的、名义的、二
种类型。
3.数据收集方法总的可分为一手数据、二手数据、两大类。前一类方法常用的具体方法有调查法、
观察法、实验法;后一类方法常用的具体方法有机构查询、书刊查询、网络查询。
4.SPSS中有三种主要的工作窗口,它们是:数据编辑窗口、结果浏览窗口、程序编辑窗口;
在进行数据表编辑时,有二种主要视图,它们是:数据视图、变量视图。
5.SPSS中对变量属性进行定义时,对变量的命名在Name 栏中设置,定义变量值标签在Values 栏中
设置。
6.根据数据的计量性质,可以将数据分为定量的数据和定性的数据;根据数据获得的直接性,可以
将数据分为一手数据和二手数据。
7.统计检验的一种思路是:设定原假设H0,构造相应的统计判断量,当根据实验数据或样本数据计算出
的统计判断量落在拒绝区域,则拒绝原假设;反之,则落在接受区域,接受原假设。在SPSS软件的统计操作中,通过计算样本数据的实际显著性概率Sig.,并将其与给定的显著性概率水平α比较,当Sig. < α时(填“>” 或“<” ),则拒绝原假设。
8.方差分析主要用来判断样本数据之间的差异是由不可控的随机因素造成的还是由研究中施加的对
结果形成影响的可控因素造成的。
9.因子分析法是多元统计分析中处理降维的一种,其最主要的工作是降维,即将具有错综复杂关
系的变量或者样品综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。
10.下图所示因子分析结果中,数值6.845的含义是第一主成分特征根,数值84.421的含义是前三个
主成分的累计贡献率;在Extraction Sums块中,有三行数据,其含义是根据提取因子条件----特征值大于1,共选出了三个公共因子。
11.下图所示椭圆圈中信息的含义11变量,200样例。
12.强规则是指:同时满足最小支持度阈值和最小置信度阈值的规则。
13.Statistica中实现聚类分析的过程是:[Statistics]/[ Multivariate Exploratory Techniques]/
[ Cluster Analysis ]。
14.在对二值变量定类数据的距离进行计算时,若认为所取两个值的地位不对等,则可以用雅克比匹配
系数对距离进行度量。
15.熵可以作为训练集的不纯度度量,熵越大,不纯度就越高(高或低)。决策树的分枝原则就
是使划分后的样本的子集越纯越好,即它们的熵越小越好。
16.C&RT算法的全称是Classification and Regression Trees ,它所构成的决策树是二叉树,该算法用
gini指标指标作为选择分枝方案的依据,在选择分枝方案时,需经两步完成,第一步,在每个节点处评估所有属性的每个标准问题的gini 指标,第二步,选择gini 指标最大的标准问题作为分枝方案。
17.已知某数据集中某属性的不同取值为,{2.6,1,2.9,2,5,4.2,2.3,3 },则该属性的标准问题
集为{Is A≤1.5,Is A≤2.15,Is A≤2.45,Is A≤2.75,Is A≤2.95,Is A≤3.6,Is A≤4.6} 。
18.已知某数据集中某属性的不同取值为,{优,良,中,差},则该属性的标准问题集为{Is A∈{优},
Is A∈{良},Is A∈{中},Is A∈{优,良},Is A∈{良,中},Is A∈{优,中},Is A∈{优,良,中}。
二、单项选择题(抄题干及你认为正确的选项,图可以不画)
1.Excel中,当把F7单元格复制到G8单元格时出现了如下信息提示,关于这一现象,以下描述正确的
是( C )。
(A) G8单元格的数据应该是17,可能格式设置为小数点后5位,超过了单元格显示区域,出现此提示
(B) C8或D8单元格的数据有问题(C) D8和E8不能相加
(D) F8为空值,无法加总得到结果
2.在Excel中,要实现如下图所示的汇率换算,可以在D5单元格中输入(B ),之后将它复制到下面的
单元格,就可以实现不同币值的换算。
(A) $C$2*C5 (B) =C$2*C5 (C) =6.912*786 (D) =C2*C5
3.以下关于SPSS中定义变量值标签的描述中,错误的是(C)
(A) 定义值标签可简化数据录入
(B) 在显示数据表时,通过点击工具栏中的Value Labels按钮,可以在标签和值之间切换显示
(C) 通过定义值标签可以为不同范围的数据定义不同的标签显示
(D) 值标签的定义可以实现只输入标签就可以输入实际的数据
4.SPSS19版本中数据文件的扩展名是(A)
(A) .sav (B) .sps (C) .dat (D) .xls
5.如果将数据分析方法论比喻成服装设计图,则服装制作中的平面、立体剪裁、合缝、包缝等相当于数
据分析中的(C)
(A) 分析工具(B) 分析技术(C) 分析思路(D) 补充分析
6.以下统计量中,反映集中趋势的量有(B,C,E )
(A) 标准误(B) 平均值(C) 众数(D)方差(E)四分位数
7.以下关于SPSS中定义变量值标签的描述中,错误的是(C )
(A) 定义值标签可简化数据录入
(B) 在显示数据表时,通过点击工具栏中的Value Labels按钮,可以在标签和值之间切换显示
(C) 通过定义值标签可以为不同范围的数据定义不同的标签显示
(D) 值标签的定义可以实现只输入标签就可以输入实际的数据
8.SPSS中实现二变量相关分析的过程是( A )。
(A) 【Analyze】/【Correlate】/【Bivariate】(B) 【Analyze】/【Compare Means】/【Bivariate】
(C) 【Analyze】/【Correlate】/【Partial】(D) 【Analyze】/【Factor Analysis】
9.因子分析中KMO检验的作用是(C )。
(A) 检验各因子的齐次性(B) 说明各原始变量与因子的相关性
(C) 检验因子分析的可行性(D) 其作用与LSB检验效果相同
10.EM聚类主要基于(C )进行聚类。
(A) 样本点之间的距离(B) 样本点之间的相似度(C) 数理统计模型
(D) 熵函数的计算
11.以下关于信度的描述中,错误的是(D ):
(A) 信度是反映测量的稳定性与一致性的一个指标
(B) 大部分信度指标都是以相关系数表示的
(C) 如果一个问卷在测试中不受调查环境各种因素的影响,就说该问卷的信度系数等于1
(D) 问卷信度的高低,取决于我们对系统误差的控制程度
12.以下关于信度的描述中,正确的是(B ):
(A) 信度高,则效度一定高
(B) 效度高,则信度一定高
(C) 0.6 <α< 0.7 量表设计存在问题,但有参考价值
(D) 折半信度系数是从问卷中取出一半来计算其克朗巴哈α系数
13.对数据挖掘这一概念的理解,以下描述错误的是(A )。
(A) 发现的知识要可接受、可理解,且要有普遍的指导意义
(B) 一般数据源是历史数据,具有相对的稳定性
(C) 发现的是用户感兴趣的知识
(D) 数据源必须是真实的、大量的、含噪声的
14.关于下图所反映的关联规则分析结果,以下描述中错误的是(D)。