南开《数据科学导论》20春期末考核答案

合集下载

[南开]-《大数据导论》20春期末考核-辅导资料答案

南开大学《大数据导论》20春期末考核注：请认真核对以下题目，确定是您需要的科目在下载！！！
一、单选题 (共 10 道试题,共 20 分)
1.大数据的特点不包含
/A/.数据体量大
/B/.价值密度高
/C/.处理速度快
/D/.数据不统一
[解析]本题为必答题，请参考课本资料，分析作答
【参考答案是】：D
2.PaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题，请参考课本资料，分析作答
【参考答案是】：B
3.IaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题，请参考课本资料，分析作答
【参考答案是】：C
4.购物篮问题是##的典型案例
/A/.数据变换
/B/.关联规则挖掘
/C/.数据分类
[解析]本题为必答题，请参考课本资料，分析作答
【参考答案是】：B
5.基础设施即服务的英文简称是
/A/.IaaS
/B/.PaaS
/C/.SaaS
[解析]本题为必答题，请参考课本资料，分析作答
【参考答案是】：A。

奥鹏南开20春学期《数据科学导论》在线作业标准答案

【答案】：A.D
24. Apriori 算法的计算复杂度受()影响。【选项】： A 支持度阈值 B 项数 C 事务数 D 事务平均宽度
【答案】：A.B.C.D
25. 距离度量中的距离可以是() 【选项】： A 欧式距离 B 曼哈顿距离 C Lp 距离 D Minkowski 距离
【答案】：A.B.C.D
【答案】：C
14. 层次聚类对给定的数据进行()的分解。【选项】： A 聚合 B 层次 C 分拆 D 复制
【答案】：B
15. 层次聚类适合规模较()的数据集【选项】： A大 B中 C小 D 所有
【答案】：C
16. 通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
【答案】：D
21. 数据科学具有哪些性质() 【选项】： A 有效性 B 可用性 C 未预料 D 可理解
【答案】：A.B.C.D
22. 下列选项是 BFR 的对象是() 【选项】： A 废弃集 B 临时集 C 压缩集 D 留存集
【答案】：A.C.D
23. 多层感知机的学习过程包含()。【选项】： A 信号的正向传播 B 信号的反向传播 C 误差的正向传播 D 误差的反向传播
【答案】：A.B.C
31. 利用 K 近邻法进行分类时,k 值过小容易发生过拟合现象。【选项】： T对 F错
【答案】：A
32. Apriori 算法是一种典型的关联规则挖掘算法。【选项】： T对 F错
【答案】：A
33. 贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布有关。【选项】： T对 F错
【选项】： A 简单函数变换 B 规范化 C 属性构造 D 连续属性离散化

2020年奥鹏南开大学 20春学期《数据

南开大学20春学期（1709、1803、1809、1903、1909、2003）《数据科学导论》在线作业试题参考答案相关题目如下1.实体识别的常见形式()【选项】：A 同名异义B 异名同义C 单位不统一D 属性不同【答案】：D2.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()【选项】：A 简单函数变换B 规范化C 属性构造D 连续属性离散化【答案】：B3.单层感知机模型属于()模型。

【选项】：A 二分类的线性分类模型B 二分类的非线性分类模型C 多分类的线性分类模型D 多分类的非线性分类模型【答案】：A4.通过变量标准化计算得到的回归方程称为()。

【选项】：A 标准化回归方程B 标准化偏回归方程C 标准化自回归方程D 标准化多回归方程【答案】：A5.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()【选项】：A 异常值B 缺失值C 不一致的值D 重复值【答案】：C6.以下哪些不是缺失值的影响()A 数据建模将丢失大量有用信息B 数据建模的不确定性更加显著C 对整体总是不产生什么作用D 包含空值的数据可能会使建模过程陷入混乱，导致异常的输出【答案】：C7.层次聚类适合规模较()的数据集【选项】：A 大B 中C 小D 所有【答案】：C8.以下哪个不是处理缺失值的方法()【选项】：A 删除记录B 按照一定原则补充C 不处理D 随意填写【答案】：D9.聚类的最简单最基本方法是()。

A 划分聚类B 层次聚类C 密度聚类D 距离聚类【答案】：A10.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

【选项】：A 1,线性B 2,线性C 1,非线性D 2,非线性【答案】：A11.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()【选项】：A 1,2,3,4B 1,2,3,5C 1,2,4,5D 1,3,4,512.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

数据科学导论----20

最新奥鹏远程南开大学《数据科学导论》20春期末考核-参考答案 - 百度文库《数据科学导论》 20 春期末考核1. 下面不是分类的常用方法的有 ()【选项】：A K 近邻法B 朴素贝叶斯C 决策树D 条件随机场【答案】： D 条件随机场 |2. BFR 聚类用于在 () 欧氏空间中对数据进行聚类【选项】：A 高维B 中维C 低维D 中高维【答案】： A 高维 |3. 聚类是一种 () 。

【选项】：A 有监督学习B 无监督学习C 强化学习D 半监督学习【答案】： B 无监督学习 |4. 数据库中相关联的两张表都存储了用户的个人信息 , 但在用户的个人信息发生改变时只更新了一张表中的数据 , 这时两张表中就有了不一致的数据 , 这属于 ()【选项】：A 异常值B 缺失值C 不一致的值D 重复值【答案】： C 不一致的值 |5. 某商品的产量 (X, 件 ) 与单位成本 (Y, 元 / 件 ) 之间的回归方程为 ^Y=100-1.2X, 这说明 () 。

【选项】：A 产量每增加一台，单位成本增加 100 元B 产量每增加一台，单位成本减少 1.2 元C 产量每增加一台，单位成本平均减少 1.2 元D 产量每增加一台，单位平均增加 100 元【答案】： C 产量每增加一台，单位成本平均减少 1.2 元 |6. 在 k 近邻法中 , 选择较小的 k 值时 , 学习的“ 近似误差” 会(),“ 估计误差” 会 () 。

【选项】：A 减小，减小B 减小，增大C 增大，减小D 增大，增大【答案】： B 减小，增大 |7. 在回归分析中 , 自变量为 (), 因变量为 () 。

【选项】：A 离散型变量，离散型变量B 连续型变量，离散型变量C 离散型变量，连续型变量D 连续型变量，连续型变量【答案】： D 连续型变量，连续型变量 |8. 手肘法的核心指标是 () 。

【选项】：A SESB SSEC RMSED MSE【答案】： B SSE |9. 特征选择的四个步骤中不包括 ()。

南开《数据科学导论》20春期末考核-00001参考答案

A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答案:C
15.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:A
二、多选题(共5道试题,共10分)
16.系统日志收集的基本特征有()
A.高可用性
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱，导致异常的输出
答案:C
13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:C
14.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

南开大学《计算机科学导论》20春期末考核答卷

南开⼤学《计算机科学导论》20春期末考核答卷南开⼤学《计算机科学导论》20春期末考核注：请认真核对以下题⽬，确定是您需要的科⽬在下载⼀、单选题 (共 15 道试题,共 30 分)1.E中的任⼀实体可以通过R与F中的⾄多⼀个实体联系则R叫做E到F的()A.⼀对⼀联系B.多对⼀联系C.多对多联系D.⾮法联系解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:B2.数据库中的元祖是指A.关系中除含有属性名所在⾏以外的其他⾏B.关系中包含属性名所在⾏在内的所有⾏C.关系中的任意⼀列D.关系中的所有列解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:A3.打印机属于哪⼀种计算机硬件设备A.输⼊设备B.输出设备C.存储设备D.系统接⼝解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合A.并B.交C.差D.笛卡尔积解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:D5.法国⼈Blaise Pascal建造了()A.齿轮驱动机械B.四则运算器C.织布机6.3度布尔函数共有多少个A.3B.8C.27D.256解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:D7.下列哪种语⾔是⾯向对象的编程语⾔A.PascalB.BASICC.CD.C++解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:D8.以下哪个选项⽤于实现SQL语⾔的查询功能A.seleceB.insertC.deleteD.update解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:A9.以下哪项不属于冯诺依曼体系结构的核⼼部件A.运算器B.存储器C.输⼊输出设备D.控制器解析：参看教材183，并认真复习，完成以上题⽬参考标准答案:C10.RGB表⽰法中某种颜⾊的份额通常在以下哪对数字之间A.0-255B.0-256C.128-25511.下列哪种存储器的读取速度最快?A.主存储器B.CPU寄存器。

南开20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业答案

18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
答案:D
3.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
答案:B
4.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
答案:A
答案:D
8.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:A
9.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
答案:C
10.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
C.组合方法
D.比较方法
答案:AB
25.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
答案:AB
26.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:ABCD
27.k近邻法的基本要素包括()。

《数据科学导论》20春期末考核答卷

《数据科学导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
标准答案:D
2.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
标准答案:A
3.聚类是一种()。

A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
标准答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
标准答案:C
5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台，单位成本增加100元
B.产量每增加一台，单位成本减少1.2元
C.产量每增加一台，单位成本平均减少1.2元
D.产量每增加一台，单位平均增加100元
标准答案:C
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大。

《计算机科学导论》20春期末考核【南开大学答案51245】

《计算机科学导论》20 春期末考核【南开大学答案 51245】
《计算机科学导论》20 春期末考核红字部分为答案！
单选题 1.E 中的任一实体可以通过 R 与 F 中的至多一个实体联系则 R 叫做 E 到 F 的() A.一对一联系 B.多对一联系 C.多对多联系 D.非法联系
2.数据库中的元祖是指 A.关系中除含有属性名所在行以外的其他行 B.关系中包含属性名所在行在内的所有行 C.关系中的任意一列 D.关系中的所有列
4.计算机应用软件可用于 A.科学计算 B.文字处理 C.工程设计 D.数据处理
5.操作系统的特性包括 A.并发性 B.共享性 C.虚拟性 D.不确定性
6.计算机网络的拓扑结构包括 A.星型拓扑 B.网状拓扑 C.树状拓扑 D.环状拓扑
7.布尔函数最小化的作用有 A.降低成本 B.提高电路可靠性 C.在一块芯片上设计更合适的电路 D.减少电路计算时间
3.程序完成一项任务所需的并且按照一定顺序排列起来的一系列指令。
4.基本操作是指算法运行中起主要作用且花费最多时间的操作，引入基本操作的概念，用其执行次数来度量算法的时间代价，是算法分析的基础。
10.RGB 表示法中某种颜色的份额通常在以下哪对数字之间 A.0-255 B.0-256 C.128-255 D.128-1024
11.下列哪种存储器的读取速度最快? A.主存储器 B.CPU 寄存器 C.大容量辅助存储器 D.Cache
12.三位二进制数最多表示多少种不同状态 A.3 B.5 C.6 D.8
7.布尔代数提供的是在集合{0,1}上的运算和规则 A.错误 B.正确
8.不同数形的两个数字可能表示同等数量的实体 A.错误 B.正确
9.视频中的一幅图像叫做一帧 A.错误 B.正确

南开《大数据开发技术(一)》20春期末考核答案

《大数据开发技术（一）》20春期末考核-00001试卷总分:100 得分:70一、单选题(共15 道试题,共30 分)1.使用Amazon云环境部署Hadoop的说法中错误的是()。

A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务答案:D2.Xtimeline是哪种可视化工具()A.信息图表B.地图工具C.时间线工具D.分析工具答案:C3.Amazon Redshift属于()A.关系数据库B.键值数据库C.NoSQL数据库D.数据仓库答案:D4.SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流A.Client LayerB.Services LayerC.Platform LayerD.Infrastructure Layer答案:A5.UMP系通过()来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Procy服务器C.愚公系统D.Agent服务器答案:C6.Hbase采用()作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统答案:A7.关于MapReduce工作流程,说法错误的是()。

A.不同的Map任务之间不会进行通信B.不同的Reduce任务之间不会发生任何信息交换C.用户可以显式地从一台机器向另一台机器发送消息D.所有的数据交换都是通过MapReduce框架自身去实现的答案:C8.针对流数据,“量子恒道”开发了海量数据实时流计算框架()。

A.Time TunnelB.SparkC.Super MarioD.Storm答案:C9.关于Hadoop集群,以下说法错误的是()。

A.SecondaryNameNode可以和NameNode共用一台机器B.JobTracker指派的任务由TaskTracker执行C.SecondaryNameNode可以和DataNode共用一台机器Node可以和JobTracker共用一台机器答案:C10.关于Strom中Bolt说法错误的是()。

南开20春学期(1709、1803、1809、1903、1909、2003)《大数据导论》在线作业参考答案3

20春学期（1709、1803、1809、1903、1909、2003）《大数据导论》在线作业
试卷总分:100 得分:98
一、单选题(共15 道试题,共30 分)
1.大数据的特点不包含
A.数据体量大
B.数据不统一
C.处理速度快
D.价值密度高
答案:B
2.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
3.下面哪一项不是中国发展大数据产业的基础()。

A.大数据技术创新取得明显突破
B.大数据应用推动势头良好
C.大数据产业支撑薄弱
D.信息化积累了丰富的数据资源
答案:C
4.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
答案:A
5.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的。

奥鹏南开《数据科学导论》20春期末考核.doc

1.下面不是分类的常用方法的有()A.K近邻法B.朴素贝叶斯C.决策树D.条件随机场【参考答案】: D2.BFR聚类用于在()欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维【参考答案】: A3.聚类是一种()。

A.有监督学习B.无监督学习C.强化学习D.半监督学习【参考答案】: B4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A.异常值B.缺失值C.不一致的值D.重复值【参考答案】: C5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台，单位成本增加100元B.产量每增加一台，单位成本减少1.2元 C.产量每增加一台，单位成本平均减少1.2元 D.产量每增加一台，单位平均增加100元【参考答案】: C6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小，减小B.减小，增大C.增大，减小D.增大，增大【参考答案】: B7.在回归分析中,自变量为(),因变量为()。

A.离散型变量，离散型变量B.连续型变量，离散型变量C.离散型变量，连续型变量D.连续型变量，连续型变量【参考答案】: D8.手肘法的核心指标是()。

A.SESB.SSEC.RMSED.MSE【参考答案】: B9.特征选择的四个步骤中不包括()A.子集产生B.子集评估C.子集搜索D.子集验证【参考答案】: C10.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差B.方差C.测差D.残差【参考答案】: D11.K-means聚类适用的数据类型是()。

A.数值型数据B.字符型数据C.语音数据D.所有数据【参考答案】: A12.以下哪些不是缺失值的影响()A.数据建模将丢失大量有用信息B.数据建模的不确定性更加显著C.对整体总是不产生什么作用D.包含空值的数据可能会使建模过程陷入混乱，导致异常的输出【参考答案】: C13.下列两个变量之间的关系中,哪个是函数关系()。

南开大学20春《大数据导论》期末考核答卷附标准答案

南开大学20春《大数据导论》期末考核附标准答案
试卷总分:100 得分:100
一、单选题 (共 10 道试题,共 20 分)
1.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
答案:C
答案:正确
22.每个簇的质心(centroid)是该簇中所有数据对象的均值。
答案:正确
23.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。
答案:正确
24.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )
答案:正确
25.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
答案:D
9.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
答案:C
10.下列哪个工具常用来开发移动友好地交互地图()
A.Visual.ly
B.Leaflet
C.Gephi
D.BPizza Pie Charts
答案:B
二、多选题 (共 10 道试题,共 20 分)
答案:ABCD
16.数据预处理的过程主要是
A.数据集成
B.数据规约
C.数据清洗
D.数据变换
答案:ABCD
17.交通数据处理包括以下几个步骤()
A.数据聚类
B.数据组织
C.数据清洗

奥鹏南开《大数据开发技术(二)》20春期末考核.doc

1.GraphX中。

方法可以查询顶点信息A. numVerticesB. numEdgesC. verticesD. edges【参考答案】：C2. MLlib中可以调用mllib. tree. DecisionTree类中的静态方法（）训练回归树A. trainClassifierB. trainRegressorC. LogisticRegressionModelbeledPoint【参考答案】：B3.以下哪个函数可以对RDD进行去重OA. sortByB.filterC. distinctD. intersection【参考答案】：c4,图是一种数据元素间为。

关系的数据结构A.多对多B.一对一C.一对多D.多对一【参考答案】：A5.GraphX中。

方法可以查询度数A.degreesB. degreeC.verticesD. edges【参考答案】：A6. Scala中。

方法返回一个列表，包含除了第一个元素之外的其他元素A. headB. initC. tailD. last【参考答案】：C1. GraphX 中 graph. triplets 可以得到 OA.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图【参考答案】：C8. spark-submit配置项中。

表示启动的executor数量A. 一一num-executors NUMB. 一一executor-memoryMEM C. 一一total-executor-cores NUM D. 一一executor-coures NUM【参考答案】：A9.。

是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上A. SparkRB.BlinkDBC. GraphXD. Ml lib【参考答案】:A10.Spark GraphX 中类 Graph 的collectNeighborIds(edgeDirection： EdgeDirection)方法可以。

南开20秋学期《数据科学导论》在线作业参考答案

A.抽样
B.剪枝
C.缓冲
D.并行
答案:B
6.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
答案:C
7.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
答案:ABCD
23.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
答案:AB
24.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答案:ABC
25.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
答案:BC
答案:C
10.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答案:B
11.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
答案:B
12.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A.高可用性
B.高可靠性
C.可扩展性

南开大学《数据科学导论》20秋在线作业-1(参考答案)

1.对于k近邻法，下列说法错误的是()。

A.不具有显式的学习过程B.适用于多分类任务C.k值越大，分类效果越好D.通常采用多数表决的分类决策规则答案：C2.以下哪个不是处理缺失值的方法?()A.删除记录B.按照一定原则补充C.不处理D.随意填写答案：D3.在一元线性回归模型中，残差项服从()分布。

A.泊松B.正态C.线性D.非线性答案：B4.一元线性回归中，真实值与预测值的差称为样本的()。

A.误差B.方差C.测差D.残差答案：D5.Apriori算法的加速过程依赖于以下哪个策略?()A.抽样B.剪枝C.缓冲D.并行答案：B6.数据库中相关联的两张表都存储了用户的个人信息，但在用户的个人信息发生改变时只更新了一张表中的数据，这时两张表中就有了不一致的数据，这属于()。

A.异常值B.缺失值C.不一致的值D.重复值答案：C7.单层感知机模型属于()模型。

A.二分类的线性分类模型B.二分类的非线性分类模型C.多分类的线性分类模型D.多分类的非线性分类模型答案：A8.层次聚类适合规模较()的数据集。

A.大B.中C.小D.所有答案：C9.通过构造新的指标—线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()。

A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案：C10.例如将工资收入属性值映射到[-1，1]或者[0，1]内属于数据变换中的()。

A.简单函数变换B.规范化C.属性构造D.连续属性离散化答案：B11.在有统计学意义的前提下，标准化偏回归系数的绝对值越大，说明相应的自变量对y的作用()。

A.越小B.越大C.无关D.不确定答案：B12.考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5};假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含()。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据科学导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
答案:D
2.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
答案:A
3.聚类是一种()。

A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
答案:C
5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台，单位成本增加100元
B.产量每增加一台，单位成本减少1.2元
C.产量每增加一台，单位成本平均减少1.2元
D.产量每增加一台，单位平均增加100元
答案:C
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大
答案:B
7.在回归分析中,自变量为(),因变量为()。

A.离散型变量，离散型变量
B.连续型变量，离散型变量
C.离散型变量，连续型变量
D.连续型变量，连续型变量
答案:D
8.手肘法的核心指标是()。

A.SES
B.SSE
C.RMSE
D.MSE
答案:B
9.特征选择的四个步骤中不包括()
A.子集产生
B.子集评估
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。

A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱，导致异常的输出答案:C。