奥鹏南开课程考试《数据分析》19秋期末考核
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《数据结构》在线作业-1
B、1
C、2
D、4
正确答案:B
第7题,具有n(n0)个结点的完全二叉树的深度为( )
A、
B、
C、
D、
正确答案:C
第8题,二叉树是非线性数据结构,所以()
A、它不能用顺序存储结构存储
B、它不能用链式存储结构存储
C、顺序存储结构和链式存储结构都能存储
D、顺序存储结构和链式存储结构都不能使用
D、将n个结点从小到大排序
正确答案:A
第26题,用邻接表表示图进行广度优先遍历时,通常是采用()来实现算法的
A、栈
B、队列
C、树
D、图
正确答案:B
第27题,下列关键字序列中,()是堆
A、16,72,31,23,94,53
B、94,23,31,72,16,53
C、16,53,23,94,31,72
第43题,栈和队列的存储方式既可是顺序方式,也可是链接方式。
A、错误
B、正确
正确答案:B
第44题,二叉树中每个结点有两棵非空子树或有两棵空子树。
A、错误
B、正确
正确答案:A
第45题,两个栈共享一片连续内存空间时,为提高内存利用率,减少溢出机会,应把两个栈的栈底分别设在这片内存空间的两端。
A、错误
B、正确
正确答案:B
第46题,对于一棵非空二叉树,它的根结点作为第一层,则它的第i层上最多能有2i—1个结点。
A、错误
B、正确
正确答案:A
第47题,队是一种插入与删除操作分别在表的两端进行的线性表,是一种先进后出型结构。
A、错误
2020年南开《大数据导论》19秋期末考核-参考答案
F错
【答案】:T对|
25. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
【选项】:
T对
F错
【答案】:F错|
26.未来考验零售企业的是如何挖掘消费者需求
【选项】:
T对
F错
【答案】:T对|
27.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。
【选项】:
T对
F错
【答案】:T对|
28.数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。
【选项】:
T对
F错
【答案】:T对|
29. Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。
B平台即服务
C基础设施即服务
D硬件即服务
【答案】:C基础设施即服务|
9.基础设施即服务的英文简称是
【选项】:
A IaaS
B PaaS
C SaaS
【答案】:A IaaS |
10.下列哪个工具常用来开发移动友好地交互地图()
【选项】:
A Leaflet
B Visual.ly
C BPizza Pie Charts
南开大学
《大数据导论》19秋期末考核
2020年参考答案
一页试读
1.以下不是数据仓库基本特征的是()
【选项】:
A数据仓库是面向主题的
B数据仓库是面向事务的
C数据仓库的数据是相对稳定的
D数据仓库的数据是反映历史变化的
【答案】:B数据仓库是面向事务的|
2020年奥鹏南开大学《数据科学导论》19秋期末考核-参考答案资料
2020年南开大学《数据科学导论》19秋期末考核参考答案
1. 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
【选项】:
A 产量每增加一台,单位成本增加100元
B 产量每增加一台,单位成本减少1.2元
C 产量每增加一台,单位成本平均减少1.2元
D 产量每增加一台,单位平均增加100元
【答案】:C 产量每增加一台,单位成本平均减少1.2元|
2. 变量之间的关系一般可以分为确定性关系与()。
【选项】:
A 非确定性关系
B 线性关系
C 函数关系
D 相关关系
【答案】:A 非确定性关系|
3. 根据映射关系的不同可以分为线性回归和()。
【选项】:
A 对数回归
B 非线性回归
C 逻辑回归。
奥鹏南开课程考试《财务分析概论》19秋期末考核
某企业2015和2016年的流动资产平均占用额分别为1200万元和1600万元,流动资产周转率分别为5次和6次,则2016年比2015年的销售收入增加了()。
A.1800万元B.3600万元C.3200万元D.800万元正确答案:B下列影响现金净流量的经济业务为()。
A.出售无形资产B.提取盈余公积C.计提折旧D.以固定资产对外投资正确答案:A每股现金流量主要衡量( )。
A.偿债能力B.支付能力C.盈利能力D.财务质量正确答案:C下列经济业务会使企业资产负债率提高的是()A.收回应收账款B.发行债券C.销售产成品D.用固定资产对外进行长期投资正确答案:B某企业某月生产产品100件,单位产品材料的计划消耗量为5千克,实际消耗量为6千克;材料计划单价为每千克50元,实际单价为每千克45元。
运用连环替代法计算单位产品材料消耗量变动对材料费用的影响是()A.5000元#4500元B.-4500元C.-5000元正确答案:A提高企业营业利润的方式可以通过( )。
A.增加营业外收入B.降低营业外支出C.降低所得税D.增加销售收入正确答案:D下列关于现金流量表的说法不正确的是( )。
A.提供反映企业整体财务状况的信息B.提供反映企业偿债能力和支付能力的信息C.提供反映企业分配经营成果的信息D.提供预测企业未来发展状况的信息正确答案:C营业利润是指()A.利润总额与利息支出之和B.利润总额与利息收入之和C.营业收入与营业成本费用及税金之间的差D.净利润与利息支出之和正确答案:C所有者权益按其形成来源分类,一般分为()两类。
A.投入资本和留存收益B.投入资本和利润C.投入资本和债务D.投入资本和销售收入正确答案:A能够反映所有者投入资金盈利能力的指标是()A.总资产报酬率B.总资产周转率C.销售利润率D.资本金利润率正确答案:D在发展能力分析中,只有销售能力增长()资产能力增长,才被认为是有效益的增长。
A.高于B.同步C.低于D.平行正确答案:A不能用资产负债表进行分析的项目有( )。
奥鹏南开课程考试《大数据开发技术(二)》19秋期末考核
GraphX中()是存放着Edg对象的RDDA.RDD[Edge]B.EdgeRDDC.RDD[(VertexId,VD)]D.VertexRDD正确答案:AGraphX中graph.vertices可以得到()A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图正确答案:AScala中哪个函数可以创建区间数组()A.concatB.ofDimC.fillD.range正确答案:Dvar a=10;while(a20){a+=1;}共循环了()次A.9B.10C.11D.12正确答案:BScala通过()来定义变量A.valB.valC.defineD.def正确答案:AScala中()方法返回一个列表,包含除了第一个元素之外的其他元素A.headB.initC.tailst正确答案:CSpark GraphX中类Graph的reverse方法可以()A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性正确答案:ASpark中运行交互式SQL查询的大规模并行查询引擎是()A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib正确答案:CSpark中DataFrame的()方法是进行连接查询A.whereB.joinC.limitD.apply正确答案:BSpark中的每个RDD一般情况下是由()个分区组成的A.0B.1C.多D.无数正确答案:CScala列表中()可以表示为一个空列表A.NillB.NilC.ListD.None正确答案:BSpark Streming中()函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream 时,返回类型为(K,(V,W))键值对的一个新 DStream。
A.unionB.reduceC.joinD.cogroup正确答案:DSpark GraphX中类Graph的aggregateMessages方法可以()A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中正确答案:CGraphX中()是完整提供边的各种操作类A.RDD[Edge]B.EdgeRDDC.RDD[(VertexId,VD)]D.VertexRDD正确答案:BScala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()A.mapB.foreachC.flattenD.flatmap正确答案:DTF-IDF中TF指的是()A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率正确答案:ABSpark SQL可以处理()A.RDDB.Parquet文件C.JSON文件D.Hive表正确答案:ABCD以下哪个方法可以创建RDD()A.parallelizeB.makeRDDC.textFileD.loadFile正确答案:ABCSpark DataFrame中()方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList正确答案:CDTF-IDF中IDF指的是()A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率正确答案:CD以下算法中属于监督学习算法的是()A.KNN算法B.逻辑回归C.随机森林D.Kmeans正确答案:ABCMLlib中进行数据标准化的方式有()A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler正确答案:ACD以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()A.resetpartitionB.repartitonC.PartitionD.coalesce正确答案:BDSpark是一个()计算框架A.快速B.分布式C.可扩展D.容错正确答案:ABCDScala支持()A.匿名函数B.高阶函数C.函数嵌套D.柯里化正确答案:ABCDRDD是一个可读写的数据结构T.对F.错正确答案:BScala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来T.对F.错正确答案:ARDD的sortBy排序默认是升序T.对F.错正确答案:ASpark中DataFrame 的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action 操作才会进行计算并返回查询结果。
2020年南开《数据结构》19秋期末考核-参考答案
D数据元素可以是多个字符
【答案】:B数据元素是一个字符
19.(最多元素为)为满队列的条件是()
【选项】:
AQU->rear-QU->front = = m0
B QU->rear-QU->front-1= = m0
CQU->front = = QU->rear
D QU->front = = QU->rear+1
B 108
C 100
D 120
【答案】:B 108
12.广度优先遍历类似于二叉树的()
【选项】:
A先序遍历
B中序遍历
C后序遍历
D层次遍历
【答案】:D层次遍历
13.已知图的邻接矩阵,根据算法,则从顶点0出发,按广度优先遍历的结点序列是()
【选项】:
A0 2 4 3 6 5 1
B 0 1 3 6 4 2 5
C 0 4 2 3 1 5 6
D 0 1 3 4 2 5 6
【答案】:B 0 1 3 6 4 2 5
14.设a1、a2、a3为3个结点,整数P0,3,4代表地址,则如下的链式存储结构称为()
【选项】:
A循环链表
B单链表
C双向循环链表
D双向链表
【答案】:B单链表
15.链接存储的存储结构所占存储空间()
C为了能方便的找到双亲
D使二叉树的遍历结果唯一
【答案】:A加快查找结点的前驱或后继的速度
9.已知图的邻接矩阵,根据算法,则从顶点0出发,按深度优先遍历的结点序列是()
【选项】:
A0 2 4 3 1 5 6
B 0 1 3 5 6 4 2
C0 4 2 3 1 6 5
数据分析期末考试试卷(附带答案)
数据分析期末考试试卷(附带答案)请注意以下说明:- 本试卷共分为两部分:选择题和解答题。
- 所有答案均应在答题纸上写出,并标明题号。
- 每道选择题只有一个正确答案,请选出最恰当的答案。
- 解答题应尽量简洁明了,如有计算过程,请写清楚。
- 考试时间为120分钟,试卷满分为100分。
- 祝你好运!选择题1. 数据分析的目的是:A. 收集数据B. 组织数据C. 提取信息D. 分享结果2. 下面哪个不是数据分析常用的可视化工具:A. 折线图B. 饼图C. 柱状图D. 线性回归模型3. 数据清洗是指:A. 删除不需要的数据B. 处理数据中的缺失值和异常值C. 将数据转换为可视化形式D. 对数据进行统计分析4. 数据挖掘是从大量的数据中发现:A. 数据的类型B. 数据的来源C. 数据的模式和关联性D. 数据的质量5. 在回归分析中,用于预测的变量称为:A. 因变量B. 自变量C. 联合变量D. 相关变量解答题1. 简述数据分析的步骤。
2. 举例说明数据清洗的过程。
3. 什么是数据可视化?简要介绍一种常用的数据可视化工具。
4. 解释线性回归模型的概念和作用。
5. 什么是关联分析?举例说明如何进行关联分析。
答案选择题:1. C2. D3. B4. C5. B解答题:1. 数据分析的步骤包括:收集数据、清洗数据、探索数据、分析数据、可视化数据和得出结论。
2. 数据清洗的过程可以举例为以下步骤:- 删除含有缺失值的观测数据- 填充缺失值- 删除异常值- 校验数据是否符合预设规则3. 数据可视化是通过图表、图形等方式将数据转化为可视形式以便更好地理解和分析数据的过程。
一种常用的数据可视化工具是柱状图,它可以直观地展示不同类别或变量之间的比较情况。
4. 线性回归模型是一种用于建立因变量与一个或多个自变量之间关系的统计模型。
它的作用是通过对自变量与因变量的关系进行建模和分析,来预测因变量的数值。
5. 关联分析是对数据集中项之间的关联性进行探索和分析的过程。
【奥鹏】[南开大学]19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业-1
第26题,大数据时代预测人类移动行为的数据特点是
A、多样化
B、数据量大
C、维数高
D、变化快
正确答案:B,C,D
第27题,常见的分类方法有
A、决策树
B、贝叶斯网络
C、遗传算法
D、FP算法
正确答案:A,B,C
第28题,数据归约(Data Reduction)主要有()
T、对
F、错
正确答案:T
第46题,数据挖掘主要是为了发现隐藏在数据中的有用信息和规律
T、对
F、错
正确答案:T
第47题,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”
T、对
F、错
正确答案:T
第48题,在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。
C、一致性检查
D、重复数据记录处理
正确答案:D
第5题,数据仓库是随着时间变化的,下列不正确的是()
A、数据仓库随时间变化不断增加新内容
B、捕捉到的新数据会覆盖原来的快照
C、数据仓库随事件变化不断删去旧的数据内容
D、数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
A、支撑层
B、大数据分析层
C、网络层
D、应用层
正确答案:A,B,D
第18题,可视化工具包括()
A、Excel
B、Google Chart
C、Gephi
D、ppt
正确答案:A,B,C
第19题,大数据存储的特点与挑战有()
奥鹏南开课程考试《MYSQL数据库》19秋期末考核
下列关于触发器的描述中错误的是A.REPLACE语句不能被DELETE触发器激活B.每个数据表最多支持6个触发器C.BEFORE INSERT触发器不仅能被INSERT语句激活,也能被LOAD DATA语句激活D.一个数据表不能同时定义两个BEFORE UPDATE触发器正确答案:A在关系数据库中,用来表示实体间联系的是A.属性B.二维表C.网状结构D.树状结构正确答案:B在MySQL中,指定一个已存在的数据库作为当前工作数据库的命令是EINGC.CREATED.SELECT正确答案:AMySQL中用来创建数据库对象的命令是A.CREATEB.ALTERC.DROPD.GRANT正确答案:A常用的MySQL图形化管理工具不包括A.phpMyAdminB.NavicatC.MySQL WorkbenchD.mysqldump正确答案:D在MySQL中,使用mysqldump并以root用户(密码"123")备份数据库mysql1和mysql2,以下正确的命令是A.mysqldump -u root -p123 --databases mysql1 mysql2 > c:\backup\data.sqlB.mysqldump -u root -p 123 --databases mysql1 mysql2 > c:\backup\data.sqlC.mysqldump -u root -p123 --databases mysql1 mysql2 < c:\backup\data.sqlD.mysqldump -u root -p123 --database mysql1 mysql2 < c:\backup\data.sql 正确答案:A在E-R图中,用来表示实体联系的图形是A.椭圆形B.矩形C.菱形D.三角形正确答案:CMySQL客户端程序mysqldump的作用是A.备份数据库B.创建数据库C.启动MySQL服务器D.删除数据库正确答案:AENUM类型的字段level定义为(LOW、MIDDLE、HIGH),ORDER BY level asc的顺序是A.HIGH、LOW、MIDDLEB.LOW、MIDDLE、HIGHC.MIDDLE、LOW、HIGHD.HIGH、MIDDLE、LOW正确答案:BSQL中,激活触发器的命令包括A.CREATE、DROP、INSERTB.SELECT、CREATE、UPDATEC.INSERT、DELETE、UPDATED.CREATE、DELETE、UPDATE正确答案:C下列备份方式中不能同时备份表结构和数据的是A.使用SELECT INTO…OUTFILE语句B.使用mysqldump程序C.使用图形界面工具phpMyAdminD.使用直接复制正确答案:A一个工作人员可以使用多台计算机,而一台计算机可被多个人使用,则实体工作人员与实体计算机之间的联系是A.一对一B.一对多C.多对多D.多对一正确答案:C数据库的英文缩写是A.DBB.DBSC.DBMSD.DBA正确答案:A下列关于表和视图的叙述中错误的是A.表和视图上都可以创建索引B.视图可以和表一起使用C.表和视图的数据都可以进行更新操作,但视图的更新受限D.表和视图都可以使用SQL语句进行查询正确答案:A在数据库系统的三级模式结构中,一个数据库可以有多个A.模式B.外模式C.内模式D.以上皆正确正确答案:BMySQL数据库存在哪些隔离级别A.读未提交B.读已提交C.可重复读D.可串行化正确答案:ABCD哪些语句会导致隐式提交A.数据定义语句(ALTER、CREATE、DROP)B.数据访问和用户管理(GRANT、REVOKE)C.锁语句(LOCK TABLES、UNLOCK TABLES)D.部分数据操作语句(TRUNCATE TABLE)正确答案:ABCD数据库对象包括A.表B.视图C.存储过程D.触发器正确答案:ABCD设置表的默认字符集关键字是A.DEFAULT CHARACTERB.DEFAULT SETC.DEFAULT CHARSETD.DEFAULT CHARACTER SET正确答案:CD下列有关MySQL完整性约束的叙述中,错误的是A.实体完整性可由主键约束或候选键约束来实现B.对完整性约束只能进行添加操作C.使用ALTER TABLE语句删除完整性约束的同时,会自动删除表本身D.使用DROP TABLE语句删除一个表的同时,表中的完整性约束不会自动删除正确答案:BCDMySQL为哪些内容分配内存A.线程句柄B.MEMORY存储引擎创建的表C.客户端缓冲区D.全局缓冲区与高速缓存正确答案:ABCD在下列有关GROUP BY语句的描述中,正确的是A.分组条件可以有多个,并且每一个可以分别指定排序方式B.可以使用WHERE子句对所得的分组进行筛选C.GROUP BY可配合聚合函数一起使用,但GROUP BY子句中不能直接使用聚合函数D.除了聚合函数,SELECT语句中的每个列都必须在GROUP BY子句中给出正确答案:ACD在使用ALTER TABLE修改表结构时,关于CHANGE和MODIFY两子句的描述中,正确的是A.CHANGE后面需要写两次列名,而MODIFY后面只写一次B.两种方式都可用于修改某个列的数据类型C.都可以使用FIRST或AFTER来修改列的排列顺序D.MODIFY可用于修改某个列的名称正确答案:ABC存储程序中处理器有哪几种类型A.HANDLEB.CASEC.CONTINUED.EXIT正确答案:CD外键定义中ON DELETE与ON UPDATE有几种设置A.CASCADEB.NO ACTIONC.RESTRICTD.SET NULL正确答案:ABCD索引可以建立在单列上,也可以建立多列上。
奥鹏期末考试试题及答案
奥鹏期末考试试题及答案一、选择题(每题2分,共20分)1. 以下哪项是奥鹏教育的主要特点?A. 传统面授B. 在线学习C. 完全自学D. 实地考察答案:B2. 奥鹏教育提供的课程类型包括哪些?A. 仅提供理工科课程B. 仅提供文科课程C. 提供理工科和文科课程D. 不提供任何课程答案:C3. 奥鹏教育的课程体系是否涵盖了从初级到高级的各个层次?A. 是B. 否答案:A4. 奥鹏教育是否提供个性化的学习计划?A. 是B. 否答案:A5. 学生在奥鹏教育平台上学习,是否需要定期参加线上或线下的考试?A. 是B. 否答案:A6. 奥鹏教育是否提供学生学习进度的实时跟踪?A. 是B. 否答案:A7. 奥鹏教育平台是否支持移动设备访问?A. 是B. 否答案:A8. 奥鹏教育是否提供学生与教师之间的互动交流?A. 是B. 否答案:A9. 奥鹏教育是否为学生提供职业规划和就业指导服务?A. 是B. 否答案:A10. 奥鹏教育的课程是否具有国际化视野?A. 是B. 否答案:A二、简答题(每题10分,共30分)11. 请简述奥鹏教育的教学理念。
答案:奥鹏教育致力于提供高质量的在线教育服务,以学生为中心,注重个性化学习,通过创新的教学方法和先进的技术平台,帮助学生实现自我发展和职业成长。
12. 奥鹏教育如何确保教学质量?答案:奥鹏教育通过严格的教师选拔和培训机制,确保教师具备高水平的教学能力和专业素养。
同时,平台提供丰富的教学资源和互动工具,以及定期的教学评估和反馈机制,以持续提升教学质量。
13. 奥鹏教育如何帮助学生实现职业发展?答案:奥鹏教育提供与行业需求紧密结合的课程体系,帮助学生掌握实用技能。
此外,通过职业规划指导、实习机会推荐、就业服务等,为学生的职业发展提供全方位的支持。
三、论述题(每题25分,共50分)14. 论述奥鹏教育如何利用在线平台的优势,提升学生的学习体验。
答案:奥鹏教育利用在线平台的灵活性和便捷性,为学生提供随时随地的学习机会。
奥鹏南开课程考试《数据分析》19秋期末考核
奥鹏南开课程考试《数据分析》19秋期末考核并行算法包括()A.MapRedceB.关联分析C.KNND.Kmeans正确答案:A维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-meansB.Bayes NetworkC.C4.5D.Apriori正确答案:D决策树学习应用()准则选择特征A.经验条件熵B.经验熵C.互信息D.信息增益正确答案:D以下哪个会降低Apriori算法的挖掘效率()A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率正确答案:D算法中用到了外存的算法是()A.随机算法B.外存算法C.并行算法D.Anytime算法正确答案:BLDA导入先验分布是为了应对()现象A.欠拟合B.话题识别不准C.过拟合D.分词困难正确答案:C数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案:A皮尔森相关系数的变化分为是()A.[0, 1]B.[-1, 1]C.[-1, 0]D.[0.5, 1]正确答案:B评估模型的分类预测准确率,使用()进行评估;A.训练数据集B.验证数据集C.测试数据集D.未知数据正确答案:C向量空间模型中,用一个()表示语义A.向量B.特征C.数字D.距离正确答案:A闵式距离参数是()时代表曼哈顿距离A.0。
奥鹏南开课程考试《数据可视化》19秋期末考核
()可以帮助用户了解某一特征在全文中的分布规律A.文献指纹B.文本弧C.文本特征透镜D.平行标签云正确答案:A()方法通过构造图结构描述文档间的相似性A.星系视图B.主题地貌C.大文本投影D.StarSPIRE正确答案:D()用于提取视频重要信息,缩短观看视频的时间A.视频抽象B.视频嵌入C.视频摘要D.视频指纹正确答案:C下列描述中,不属于可视化作用的是()A.信息记录B.信息整理C.信息分析D.信息协同正确答案:B下列不属于可视化交互任务的是()A.选择B.导航C.变形D.过滤正确答案:C()编码了数据的最基本的一阶统计特征A.误差条C.流畅雷达图D.箭头正确答案:B下列不属于社交网络数据的是()A.BBSB.博客C.论坛D.微信正确答案:C由若干坐标系改变时满足一定坐标转化关系的有序数组成的集合是()A.向量B.矢量C.标量D.张量正确答案:D下列不属于非结构化数据的是()A.网络日志B.在线新闻C.新闻评论D.关系数据正确答案:D多维尺度分析布局属于()A.径向布局B.节点链接布局C.正交布局D.力引导布局正确答案:B社交网络中的节点的度数俯冲的概率分布式()A.正态分布B.泊松分布C.伯努利分布正确答案:D()旨在通过改变数据元素在空间中的排列,为用户提供观察数据的不同视角A.缩放B.平移C.过滤D.重配正确答案:D下列不属于大规模科学数据集的是()A.高精度和高分辨率的体数据B.时变数据C.关系数据D.多变量数据正确答案:C()是结合地理信息的新闻数据的情感分析可视化技术A.情感地图B.SocialBrandsC.情感变化时序映射D.Pearl正确答案:A根据Nyquist-Shannon采样理论,离散数据场的采样频率需要大于()倍的截止频率A.2B.3C.4D.5正确答案:A()采用二维三角坐标网格,对音乐结构和一部作品的发展进行可视化A.频谱图B.弧图法C.ImproVizD.同弦法二维空间标量场中满足f(x,y)=c的空间点按照一定顺序连接而成的线,称为()A.折线B.等值线C.曲线D.轨迹正确答案:B流状分支时间主线可视化方法,主要包括()A.河流隐喻B.折线图C.径向布局图D.体绘制正确答案:A()利用颜色和字体大小反映关键词在文本中分布的差异A.标签云B.词嵌入C.文档散D.文档卡片正确答案:A下列不属于选择交互技术的是()A.鼠标悬浮B.鼠标点击C.刷选D.排序正确答案:D用环状方式呈现各分量在整体中的比例的方法是()A.数据轨迹B.柱状图C.直方图D.饼图正确答案:D一维空间标量场用()呈现数据分布规律A.线图B.饼图C.散点图D.热力图正确答案:A()以传统的二叉树形式进行图像合成A.直接传送B.二叉交换C.2-3swapD.Radix-k正确答案:B流线描述向量场空间中任意一点处向量场的()方向A.切线B.曲线C.平行线D.迹线正确答案:A计算单根光线的累计光学属性的过程,称为()A.光线投射B.体绘制积分C.光线累积D.光学贡献正确答案:B规则网格将空间剖分成的规则排列的采样单元称为()A.体素B.采样点C.体数据块D.数据点正确答案:A加速时变空间标量场数据可视化的基本思路是()A.时变特征抽取B.多变量处理C.时空连贯性D.时变等值面提取正确答案:C()指信息在不同媒体之间的分布与互动A.超文本B.超媒体C.多媒体D.跨媒体正确答案:D社交网络对应的邻接矩阵通常是()A.密集矩阵B.对称矩阵C.对角矩阵D.稀疏矩阵正确答案:D沿着空间中某条路径采样得到的标量场数据称为()A.一维空间标量场B.一维空间向量场C.一维空间张量场D.一维空间矢量场正确答案:A对于高维多元数据的代表性降维方法主要包括()A.主元分析B.多维尺度分析C.线性判别分析D.局部线性嵌入正确答案:ABCD基本的可视化图表按照所呈现的信息和视觉复杂程度可分为()A.原始数据绘图B.简单统计值标绘C.多视图协调关联D.思维导图正确答案:ABC按照时间变化规律,时变数据的特征可以分为()A.常规模式B.周期模式C.整体模式D.随机模式正确答案:ABD交互延时可以划分为()A.操作延时B.反馈延时C.可视延时D.系统更新延时正确答案:ABD层次数据可视化的节点链接法的核心问题是()A.节点布局B.关系绘制C.层次表达D.整体比例正确答案:AB纹理法主要包括()A.点噪声B.线积分卷积C.纹理平流D.流体法正确答案:ABC向量场可视化的主要目标是()A.展示场的导向趋势信息B.表达场中的模式C.模拟向量场数据D.识别关键特征区域正确答案:ABD不规则网格的数据单元有()A.四面体B.六面体C.棱台D.棱锥正确答案:ABCD时间属性的周期特征,可以使用()实现可视化A.时间序列图B.螺旋图C.环状图D.堆叠流图正确答案:BCD金融数据可视分析主要包括()A.资金异常流动分析B.客户信用风险分析C.市场板块分析D.银行数据分析正确答案:ABCD按照空间大小,时变数据的特征可以分为()A.周期特征B.局部特征C.全局特征D.随机特征正确答案:BC视觉通道的表现力是()A.多样性B.可辨认性C.精确性D.可分离性正确答案:BCD用户对于不同类别交互操作的延时期望包括()A.感知处理B.立即反应C.基本任务D.延时忍耐度正确答案:ABC下列属于数据不确定性的是()A.可变性B.不完整性C.可信度D.有效性正确答案:ABCD文本或文档集合的关系主要包括()A.文本间的引用B.网页之间的超链接C.文本内容相似性D.文档集合内容的层次性正确答案:ABCD经典的光学模型中,与所在体素标量值相关的光线模型包括()A.吸收模型B.发射模型C.散射光照阴影模型D.多次散射模型正确答案:ABCD数据可视化设计的层次是()A.问题刻画层B.抽象层C.编码层D.算法层正确答案:ABCD从统计应用方面讲,数据分析可以被分成()A.描述性统计分析B.探索式数据分析#验证性数据分析C.关联数据分析正确答案:ABC交互操作符包括()A.导航B.记录C.选择D.变形正确答案:ACD下列属于数据挖掘方法的是()A.分类B.概念描述C.序列模式挖掘D.偏差检测正确答案:ABCD简单论述文本可视化的流程以及基于关键词的文本内容可视化的主要方法。
[南开大学(本部)]《大数据导论》19秋期末考核(答案参考)
[南开大学(本部)]《大数据导论》19秋期末考核(答案参考)【奥鹏】-[南开大学(本部)]《大数据导论》19秋期末考核试卷总分:100 得分:100第1题,以下不是数据仓库基本特征的是()A、数据仓库是面向主题的B、数据仓库是面向事务的C、数据仓库的数据是相对稳定的D、数据仓库的数据是反映历史变化的正确答案:B第2题,()是Microsoft Office的核心组件A、SQLB、WORDC、PPTD、EXCEL正确答案:D第3题,数据清洗的方法不包括A、缺失值处理B、噪声数据清除C、一致性检查D、重复数据记录处理正确答案:D第4题,数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A、运营式系统阶段B、用户原创内容阶段C、感知式系统阶段正确答案:B第5题,下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()A、ggplot2B、networkC、ggmapsD、animation正确答案:D第6题,下列不属于Google云计算平台技术架构的是()A、并行数据处理MapReduceB、分布式锁ChubbyC、结构化数据表BigTableD、弹性云计算EC2正确答案:D第7题,大数据的最显著特征是() 。
A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高正确答案:A第8题,IaaS是()的简称A、软件即服务B、平台即服务C、基础设施即服务D、硬件即服务正确答案:C第9题,基础设施即服务的英文简称是A、IaaSB、PaaSC、SaaS正确答案:A第10题,下列哪个工具常用来开发移动友好地交互地图()A、LeafletB、Visual.lyC、BPizza Pie ChartsD、Gephi正确答案:A第11题,数据归约(Data Reduction)主要有()A、维度规约B、样本规约C、数据聚集D、离散化概念分层正确答案:A,B,C,D第12题,以下可以用于数据可视化的是()。
奥鹏南开《高等数学(一)》19秋期末考核
《高等数学(一)》19秋期末考核1.[单选题]A.AB.BC.CD.D正确答案:A2.[单选题]A.AB.BC.CD.D正确答案:A3.[单选题]A.AB.BC.CD.D正确答案:D4.[单选题]A.0B.1C.2D.3正确答案:B5.[单选题]A.AB.BC.CD.D正确答案:D 6.[单选题]A.AB.BC.CD.D正确答案:A7.[单选题]A.0B.1C.2D.3正确答案:C8.[单选题]A.AB.BC.CD.D正确答案:C 9.[单选题]A.1B.2C.3D.0正确答案:D 10.[单选题]A.AB.BC.CD.D正确答案:C11.[单选题]A.AB.BC.CD.D正确答案:A12.[单选题]A.AB.BC.CD.D正确答案:B13.[单选题]A.AB.BC.CD.D正确答案:C14.[单选题]A.1B.2C.3D.4正确答案:A15.[单选题]A.AB.BC.CD.D正确答案:D 16.[单选题]A.AB.BC.CD.D正确答案:D17.[单选题]A.AB.BC.CD.D正确答案:A 18.[单选题]A.AB.BC.CD.D正确答案:B19.[单选题]A.AB.BC.CD.D正确答案:D20.[单选题]A.AB.BC.CD.D正确答案:B21.[单选题]A.AB.BC.CD.D正确答案:D22.[单选题]A.AB.BC.CD.D正确答案:C23.[单选题]A.(-1)B.0C.1D.2正确答案:A24.[单选题]A.AB.BC.CD.D正确答案:A25.[单选题]A.0B.1C.2D.3正确答案:C26.[判断题]余切函数是无界的函数。
A.错误B.正确正确答案:B27.[判断题]函数在间断点处没有定义。
A.错误B.正确正确答案:A28.[判断题]函数在可导点处必有极限。
A.错误B.正确正确答案:B29.[判断题]收敛数列是有界数列。
A.错误B.正确正确答案:B30.[判断题]发散数列必是无界数列。
[南开大学]《数据库应用系统设计》19秋期末考核(答案参考)
[南开大学]《数据库应用系统设计》19秋期末考核(答案参考)【奥鹏】-[南开大学]《数据库应用系统设计》19秋期末考核试卷总分:100 得分:100第1题,以下关于二维表的论述,不正确的是( )。
A、表中的每一个元组分量都是不可再分的B、表中行的次序不可以任意交换,否则会改变关系的意义C、表中每一列取自同一个域,且性质相同D、表中的第一行通常称为属性名正确答案:B第2题,在关系数据库系统中,一个关系相当于()A、一个数据库文件B、一张二维表C、一条记录D、一个指针正确答案:B第3题,关系模式R中属性或属性组X不是R的码,但X是另一个关系模式的码,则称X是R 的()A、主码B、候选码C、唯一码D、外码正确答案:D第4题,如果通过延迟检查发现用户操作请求违背了完整性约束条件,则系统()A、拒绝该用户操作B、拒绝整个事务并回滚该事务C、允许该用户操作但给出提示信息D、不做任何事情第5题,目前的数据库系统广泛使用的数据模型是( )。
A、层次模型B、网状模型C、关系模型D、概念模型正确答案:C第6题,在SQL查询中,GROUP BY短语的作用是()A、设置查询条件B、对查询结果进行排序C、设置分组条件D、选择查询结果中显示的字段正确答案:C第7题,要规定学生性别的取值范围为男或女,则应使用()A、静态列级约束B、静态元组约束C、动态列级约束D、动态元组约束正确答案:A第8题,与文件系统相比,数据库系统的特点不包括( )。
A、数据的结构化B、数据独立性差C、降低了数据冗余D、提高了数据共享度正确答案:B第9题,数据库系统的英文缩写为()A、DBMSB、DBSC、DBD、DBA第10题,下列关于PHP字符串定界符的描述中,正确的是( )。
A、字符串的定界符只能是双引号B、字符串的定界符只能是单引号C、以单引号作为定界符,则字符串中出现的“$变量名称”将被变量值所替代D、以双引号作为定界符,则字符串中出现的“$变量名称”将被变量值所替代正确答案:D第11题,在关系数据库中,实现“表中任意两行不能相同”的约束是靠( )来实现的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并行算法包括()A.MapRedceB.关联分析C.KNND.Kmeans正确答案:A维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-meansB.Bayes NetworkC.C4.5D.Apriori正确答案:D决策树学习应用()准则选择特征A.经验条件熵B.经验熵C.互信息D.信息增益正确答案:D以下哪个会降低Apriori算法的挖掘效率()A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率正确答案:D算法中用到了外存的算法是()A.随机算法B.外存算法C.并行算法D.Anytime算法正确答案:BLDA导入先验分布是为了应对()现象A.欠拟合B.话题识别不准C.过拟合D.分词困难正确答案:C数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。
A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案:A皮尔森相关系数的变化分为是()A.[0, 1]B.[-1, 1]C.[-1, 0]D.[0.5, 1]正确答案:B评估模型的分类预测准确率,使用()进行评估;A.训练数据集B.验证数据集C.测试数据集D.未知数据正确答案:C向量空间模型中,用一个()表示语义A.向量B.特征C.数字D.距离正确答案:A闵式距离参数是()时代表曼哈顿距离A.0B.1C.2D.无穷正确答案:B为了计算中介度,必须计算所有边上()的数目。
A.所有路径B.最短路径C.结点入度D.节点出度正确答案:B聚类属于()A.有监督学习B.无监督学习C.强化学习D.对抗学习正确答案:B聚合聚类算法的代表是()A.AGNESB.AprioriC.KNND.FP-Growth正确答案:A逻辑回归优化的目标函数为()A.极大似然估计B.对数似然函数C.特征独立假设D.贝叶斯定理正确答案:B支持向量机的MapReduce实现要进行几轮MapReduce()A.1B.2C.3D.自行规定正确答案:D潜在语义分析中,以()表示文本的语义内容A.话题B.话题向量C.语义向量D.距离向量正确答案:B向量空间的度量,表示文本之间的()。
A.关系B.相似度C.语义关系D.语义相似度正确答案:D度量距离中,表示各个坐标距离最大值的是()A.欧氏距离B.曼哈顿距离C.切比雪夫距离正确答案:CKNN算法用MapReduce实现,要进行几轮MapReduce()A.1B.2C.3D.4正确答案:B大数据在社交网络中的应用A.用户偏好、情感、社交网络结构B.用户画像、精准推荐C.舆情监控、突发事件预警D.预测外部趋势正确答案:ABCD交通数据分析可用于:A.交通流量实时分析B.合理进行道路规划C.信号灯智能调度D.实时路况查询播报正确答案:ABCD常见的推荐系统算法包括()A.基于流行度的推荐算法B.基于内容的推荐算法C.协同过滤推荐算法正确答案:ABCKNN模型由哪些基本要素决定()A.距离度量B.特征选择C.k值的选择D.分类决策规则正确答案:ACD大数据聚类分析中,归并依据的是()A.特征的相似度B.特征的距离C.特征显著性D.置信度正确答案:ABQ型聚类的结果具有()的特点A.直观B.细致C.全面D.合理正确答案:ABCD下列属于分类算法的有()。
A.k近邻法B.朴素贝叶斯C.支持向量机D.随机森林正确答案:ABCD基于聚类结构的分类有()A.Q型聚类B.凝聚方式C.R型聚类D.分解方式正确答案:AC回归分析方法中,按照输入变量个数分类,可分为A.一元回归B.多元回归C.线性回归D.非线性回归正确答案:AB决策树的生成过程是()A.递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类B.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去C.构建根结点,将所有训练数据都放在根结点D.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类E.如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点正确答案:ABCDE统计学习的重要性()A.统计学习是处理海量数据的有效方法B.统计学习是计算机智能化的有效手段C.统计学习是计算机科学发展的一个重要组成部分正确答案:ABC向量空间模型中,是将()看成()A.文档B.单词C.词袋D.编码正确答案:AB差异性可以用()度量A.准确率B.损失函数C.距离D.相似性正确答案:CD下列属于朴素贝叶斯缺点的是()A.分类效果不稳定B.不适合增量式训练C.先验模型可能导致结果不佳D.对缺失数据不太敏感正确答案:CD潜在语义分析中,要同时决定两部分内容,是(),使两者的乘积是原始矩阵数据的近似。
A.话题空间B.文本在话题空间的表示C.话题维度D.词向量空间正确答案:AB随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。
A.序列B.隐变量C.状态D.重要程度正确答案:CD大数据四大特征包括()A.数据量大B.数据类型繁多C.数据价值密度相对较低D.处理速度快,时效性要求高正确答案:ABCD下列哪些任务适合构建分类模型()A.银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类B.邮件系统可以根据email标题和内容区分出垃圾邮件C.医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段D.房价预测正确答案:ABC聚合聚类的三个要素是()A.相似度B.置信度C.合并规则D.停止条件正确答案:ACD大数据在电信中的应用有A.基于用户、业务及流量分级的多维管控机制B.精准的客户分析及营销C.利用位置和轨迹信息服务社会正确答案:ABCkNN不需存储所有的样本T.对F.错正确答案:B如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往比镇魔性更高,这种现象称为欠拟合T.对F.错正确答案:B边的中介度定义为任意节点对的数目。
()T.对F.错正确答案:B类的均值,又称为类的中心。
()T.对F.错正确答案:AMapReduce模型中,程序员不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。
()T.对F.错正确答案:AID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
T.对F.错正确答案:BDAG中的父节点是唯一的。
T.对F.错正确答案:BkNN算法中,选择较大的k值“学习”的估计误差会减小。
()T.对F.错正确答案:A决策树模型的缺点是分类效率低。
()T.对F.错正确答案:B强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题T.对F.错正确答案:A试比较PageRank算法和HITS算法。
正确答案:相同点:两者都是为了提高搜索引擎查找质量而提出的两种不同算法。
不同点:1)两者对网页的描述形式不同。
PageRank算法只用一个量值来表示网页的重要程度,而HITS算法对网页从权威性和集线性两个不同的方面来进行描述。
2)两者的理论基础不同。
虽然两者的迭代算法都利用了特征向量作为理论基础和收敛性依据,但PageRank算法更具理论支持,它用马尔可夫随机游走来建模,并用马氏链的理论来进行解释;而HITS算法更多是基于人的直观,缺乏很好的理论模型。
3)两者计算所选取的链接网络不同。
PageRank算法与用户查询无关,针对的是整个互联网的链接结构图,所有处理过程都是离线进行的,不会为实时在线查询过程付出额外的代价。
HITS算法则不同,它依赖于特定的查询,是针对与特定查询相关的互联网子图来进行计算,规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank算法要快得多。
但因为与查询相关,所以查询过程以及扩展根集的过程都需要付出代价,还有可能在扩展过程中,引入大量的噪声信息,造成主题漂移出现。
以前的研究工作已经证明HITS算法的性能跟PageRank算法旗鼓相当、不相上下。
简述k近邻法的核心思想、基本算法过程,并分析其优缺点。
正确答案:k近邻法的核心思想是,如果一个样本在特征空间的k个最相邻样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
k近邻的优点:简单,易于理解,易于实现,无需估计参数,对噪声数据不敏感。
缺点:需要存储所有的样本,空间复杂度高;计算复杂度高。
层次聚类算法分为哪两种方法?简述这两个层次聚类算法。
正确答案:层次聚类算法是假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。
聚合聚类开始将每个样本各自分到一个类,之后将相距最近的两类合并,建立一个新的类,重复此操作直到满足终止条件,得到层次化的类别。
分裂聚类开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。