数据分析及应用模拟练习题

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据分析及应用模拟练习题
一、单选题（共40题，每题1分，共40分）
1、以下叙述中正确的是（）。

A、A Python 3.x与Python 2.x兼容
B、B Python语句只能以程序方式执行
C、C Python是解释型语言
D、D Python语言出现得晚，具有其他高级语言的一切优点
正确答案：C
2、记事件A:王工131600本周全程在湛江出差；事件B:王工131600周三在成都游玩。

如下描述准确的是（？）。

A、A 1
B、B 11
C、C 2
D、D 12
正确答案：C
3、下面哪种不属于数据预处理的方法？ ()
A、A 变量代换
B、B 离散化
C、C 聚集
D、D 估计遗漏值
正确答案：D
4、下面哪个不是Python合法的标识符
A、A int32
B、B 40XL
C、C self
D、D __name__
正确答案：B
5、在长度为n的顺序表中查找一个元素，假设需要查找的元素有一半的机会在表中，并且如果元素在表中,则出现在表中每个位置上的可能性是相同的。

则在平均情况下需要比较的次数大约为______。

A、A 3n/4
B、B n
C、C n/2
D、D n/4
正确答案：A
6、请找出数列11,18,38,83…的下一项（）
A、A 146
B、B 168
C、C 171
D、D 203
正确答案：C
7、文件写操作时,writelines方法的参数不可以是( )
A、A 列表
B、B 元组
C、C 字典
D、D 整数
正确答案：D
8、程序测试的目的是______。

A、A 为被测程序设计正确的测试用例
B、B 发现并改正程序中的错误
C、C 发现程序中的错误
D、D 改正程序中的错误
正确答案：C
9、设循环队列存储空间为Q(1:50)。

初始状态为front=rear=50。

经过一系列入队和退队操作后，front=14，rear=19，则该循环队列中的元素个数为______。

A、A 46
B、B 45
C、C 6
D、D 5
正确答案：D
10、归并排序算法的时间复杂度是（）。

A、A O(logN)
B、B O(N)
C、C O(N^2)
D、D O(NlogN)
正确答案：D
11、下面结构类型可以用来构造链表的是（）
A、A struct aa{ int a ; int *b }
B、B struct bb{ int a ; bb *b }
C、C struct cc{ int *a ; cc b }
D、D struct dd{ int *a ; aa b }
正确答案：B
12、下面关于算法的说法，正确的是（）
A、A 算法的时间复杂度一般与算法的空间复杂度成正比
B、B 解决某问题的算法可能有多种，但肯定采用相同的数据结构
C、C 算法的可行性是指算法的指令不能有二义性
D、D 同一个算法，实现语言的级别越高，执行效率就越低
正确答案：D
13、掷两骰子，记事件“点数之和为5”，则（）
A、A 1/9
B、B 5/36
C、C 1/3
D、D 5/12
正确答案：A
14、时间复杂度不受数据初始状态影响而恒为的是（）。

A、A 堆排序
B、B 冒泡排序
C、C 希尔排序
D、D 快速排序
正确答案：A
15、以下选项中，不是Python中文件操作的相关函数是（）。

A、A open ()
B、B load ()
C、C read ()
D、D write ()
正确答案：B
16、以下程序的不可能输出结果是：from random import * print(round(random（）,2))
A、A 0.47
B、B 0.54
C、C 0.27
D、D 1.87
正确答案：D
17、关于Series结构，下列描述正确的是
A、A 文件系统阶段
B、B 人工管理阶段
C、C 文件系统阶段和数据库阶段
D、D 人工管理阶段和文件系统阶段
正确答案：B
18、数据库DB、数据库系统DBS、数据库管理系统DBMS之间的关系是______。

A、A DB包含DBS和DBMS
B、B DBMS包含DB和DBS
C、C DBS包含DB和DBMS
D、D 没有任何关系
正确答案：C
19、为了使模块尽可能独立，要求______。

A、A Precision,Recall
B、B Recall,Precision
C、C Precision,ROC
D、D Recall,ROC
正确答案：A
20、OTSU算法遍历可能的阀值，并且选取前景区域和背景区域
A、A 绝对差
B、B 面积差
C、C 像素值累积差值
D、D 类间方差
正确答案：D
21、通过f=open(""score.txt"", a+ )语句打开文件后,不可以进行的操作是 ( )
A、A 读操作
B、B 写操作
C、C 删除操作
D、D 追加操作
正确答案：C
22、输入若已经是排好序的（递增），下列排序算法（同样递增）最快的是（）
A、A 插入排序
B、B Shell排序
C、C 合并排序
D、D 快速排序
正确答案：A
23、定义矩阵，输出结果是（） in_arr = [2, 0, -2, -5] out_arr = np.fabs(in_arr) print( out_arr)
A、A 6
B、B 8
C、C 7
D、D 不可能有这样的树
正确答案：C
24、已知df为DataFrame对象，请通过计算将Calories列的中值替换任何空值
A、A df[Calories"].fillna(df["Calories"].median(), inplace = True)"
B、 B df[Calories"].fillna(df["Calories"].mid(), inplace = True)"
C、C df[Calories"].fillna(df["Calories"].mid(), inplace = NaN)"
D、D df[Calories"].fillna(df["Calories"].median(), inplace = NaN)"
正确答案：A
25、蒙特卡罗算法是（）的一种
A、A 分支界限法
B、B 概率算法
C、C 贪心算法
D、D 回溯算法
正确答案：B
26、一个黑盒子里有若干红球和黑球，随机取出一个球是红球的概率是p。

现在从黑盒子中拿出等量的红球和黑球后，随机取出一个球是红球的概率是q，如果p
A、A 最初红球的个数小于黑球的个数
B、B 最初红球的个数大于黑球的个数
C、C 最初红球的个数是黑球的的2倍
D、D 最初红球的个数是黑球的1/2
正确答案：B
27、python语言中字符串的格式化保留了同C语言类似的%格式化方法，其中%d, %s分别表示（？）。

A、A I
B、B n
C、C P
D、D y
正确答案：D
28、已知中国人的血型分布约为A型：30%，B型：20%，O型：40%，AB 型：10%，则任选一批中国人作为用户调研对象，希望他们中至少有一个是B型血的可能性不低于90%，那么最少需要选多少人?
A、A 7
B、B 9
C、C 11
D、D 13
正确答案：C
29、在数据库的三级模式结构中，描述数据库中全体数据的全局逻辑结构和特征的是______。

A、A 内模式
B、B 概念模式
C、C 用户模式
D、D 外模式
正确答案：B
30、关于哑变量的说法中，下列选项描述错误的是
A、A 哑变量是人为虚设的变量
B、B 哑变量在转换成指标矩阵后，其值通常为0或1
C、C Pnadas中get_dummies()函数可以对类别进行哑变量处理
D、D 哑变量的使用没有实际意义
正确答案：D
31、a=pd.Series([1,2,3,4,5,6],name=""a"") b=a[a>3] =（？）。

A、A None
B、B a""
C、C 抛异常
D、D [4 5 6]
正确答案：B
32、线性表采用链式存储时，其地址（）
A、A 执行测试用例
B、B 发现并改正程序中的错误
C、C 诊断和改正程序中的错误
D、D 发现程序中的错误
正确答案：D
33、关于预处理的说法中，下列选项中描述不正确是
A、A concat()函数可以沿着一条轴将多个对象进行堆叠
B、B merge()函数可以根据一个或多个键将不同的DataFrame进行合并
C、C 可以使用rename()方法对索引进行重命名操作
D、D unstack()方法可以将列索引旋转为行索引
正确答案：D
34、在下述论述中，正确的是（）。

①只有一个结点的二叉树的度为0；
②二叉树的度为2；③二叉树的左右子树可任意交换；④深度为K 的顺序二叉树的结点个数小于或等于深度相同的满二叉树。

A、A ①②③
B、B ②③④
C、C ②④
D、D ①④
正确答案：D
35、下列函数中，用于沿着轴方向堆叠Pandas对象的是
A、A 五分之一
B、B 六分之一
C、C 七分之一
D、D 七分之五
正确答案：D
36、代码if ‘p’ in ‘pip python’: print(‘pip python’.replace(‘p’, ‘P’))的执行结果是()
A、A PiP python
B、B pip Python
C、C PiP Python
D、D Pip Python
正确答案：C
37、下面代码的输出结果是（） df = pd.DataFrame({ A : [ foo , bar , foo , bar ], B : [ one , two , one , three ]}) df.iloc[1:2,1]=np.nan print(df.dropna(axis=0,how= any ))
A、A A B 0 foo one 2 foo one 3 bar three
B、B A 0 foo 1 bar 2 foo 3 bar
C、C A B 0 foo one 1 bar NaN 2 foo one 3 bar three
D、D A 0 one 1 NaN 2 one 3 three
正确答案：A
38、在 n 个结点的顺序表中,算法的时间复杂度是 O(1)的操作是（）:
A、A 访问第i个结点(1≤i≤n)和求第i个结点的直接前驱(2≤i≤n)
B、B 在第i个结点后插入一个新结点(1≤i≤n)
C、C 删除第i个结点(1≤i≤n)
D、D 将n个结点从小到大排序
正确答案：A
39、下列关于人工智能的叙述不正确的是
A、A 人工智能技术与其他科学技术相结合极大地提高了应用技术的智能化水平。

B、B 人工智能是科学技术发展的趋势。

C、C 因为人工智能的系统研究是从上世纪五十年代才开始的，非常新，所以十分重要。

D、D 人工智能有力地促进了社会的发展。

正确答案：C
40、下列选项中，关于drop_duplicates()方法描述错误的是
A、A 仅支持单一特征数据的去重
B、B 仅对Series和DataFrame对象有效
C、C 数据去重时默认保留第一个数据
D、D 该方法不会改变原始数据排列"
正确答案：A
二、多选题（共30题，每题1分，共30分）
1、自然语言理解不仅包括计算机能正确理解人们用自然语言输入的信息，能正确回答输入信息中的有关问题，而且还包括哪些？
A、A 语言分析
B、B 语法分析
C、C 语用分析
D、D 语句分析
正确答案：BCD
2、Numpy库中生成指数分布的随机数组，2行3列，以下代码不正确的是：（）纠错收藏
A、A x=random.pareto(a=2,size=(2,3))
B、B x=random.exponential(scale=2,size=(2,3))
C、C x = random.uniform(size=(2, 3))
D、D x=random.rayleigh(scale=2,size=(2,3))
正确答案：ACD
3、a = frozenset((1,2,3))，b = {2, 3, 4}以下操作可正确执行的是？（）纠错收藏
A、A a & b
B、B 1 in a
C、C a + b
D、D a - b
正确答案：ABD
4、决定人工神经网络性能的要素有（）。

A、A 神经元的特性
B、B 神经元之间相互连接的形式为拓扑结构
C、C 为适应环境而改善性能的学习规则
D、D 数据量大小
正确答案：ABC
5、以下关于字典的描述，正确的是（）纠错收藏
A、A 字典中元素以键信息为索引访问
B、B 字典长度是可变的
C、C 字典是键值对的集合
D、D 字典中的键可以对应多个值信息
正确答案：ABC
6、下列关于pandas数据读/写说法正确的是( )
A、A read_csv 能够读取所有文本文档的数据
B、B read_sql 能够读取数据库的数据
C、C to_csv 函数能够将结构化数据写入.csv文件
D、D to_excel 函数能够将结构化数据写入 Excel 文件
正确答案：BCD
7、关于归一化描述正确的是（）。

A、A 归一化可以预防过拟合
B、B 归一化没有实质作用
C、C 归一化将所有数据样本之缩放到0-1之间
D、D 归一化是一种激活函数
正确答案：AC
8、Numpy库中生成基夫分布的随机数组，2行3列，以下代码不正确的是：（）
A、A x = random.normal(size=(2, 3))
B、B x=random.zipf(a=2,size=(2,3))
C、C x = random.uniform(size=(2, 3))
D、D x=random.rayleigh(scale=2,size=(2,3))
正确答案：ACD
9、下列选项中能创建Numpy数组的选项是（）。

纠错收藏
A、A a = numpy.array([1,2,3])
B、B a = numpy.array([1,[1,2,3],3])
C、C a = numpy.array([[1,2,3],[4,5,6]])
D、D a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])正确答案：ACD
10、Numpy库生成逻辑斯特分布的随机数组，2行3列，以下代码不正确的是：（）
A、A x = random.normal(size=(2, 3))
B、B x=random.exponential(scale=2,size=(2,3))
C、C x=random.chisquare(df=2,size=(2,3))
D、D x=random.logistic(loc=1,scale=2,size=(2,3))
正确答案：ABC
11、以下选项属于Python哲学内容的是（）。

A、A 简单胜过复杂
B、B 单纯不如冗余
C、C 扁平胜于嵌套
D、D 优美胜于丑陋
正确答案：ACD
12、以下选项不是用来判断当前程序在分支结构中的是（）纠错收藏
A、A 花括号
B、B 括号
C、C 缩进
D、D 冒号
正确答案：ABD
13、以下是正确的字符串（）
A、A ‘abc”ab”
B、B ‘abc”ab’
C、C “abc”ab”
D、D “abc\”ab”
正确答案：BD
14、以下选项不是用来判断当前程序在分支结构中的是（）
A、A 花括号
B、B 括号
C、C 缩进
D、D 冒号
正确答案：ABD
15、下列关于数据和数据分析的说法错误的是（）纠错收藏
A、A 数据就是数据库中的表格
B、B 文字、声音、图像这些都是数据
C、C 数据分析不可能预测未来几天的天气变化
D、D 数据分析的数据只能是结构化的
正确答案：ACD
16、现阶段，作为AI 技术和应用服务的推行者，我们需要具备（）纠错收藏
A、A 对 AI 技术的鉴赏力，对于技术描述有清晰的判断和辨析，不人云亦云断章取义
B、B 对AI技术的理解力，主要判断在各个应用场景下技术的可行性，能做到还是不能做到，或是说需要如何结合人工才能形成人机协作解决问题的结果
C、C 对AI技术的应用力，践行去追求：让AI的应用有看得见摸得着的真实应用案例、有能够规模化和可推广的对应产品、可以通过统计数据
去说明应用成效
D、D 对 AI 技术的夸张力，不管用户要求的任何场景任何问题，不用特别分析和定制，我们的AI系统都是最好的，用户的问题都是可以解决的
正确答案：ABC
17、下列是合法的Python变量名是？纠错收藏
A、A Python2
B、B N.x
C、C sum
D、D Hello_World
正确答案：ACD
18、有集合a = {1,2,3,4,5,6}和b = {5, 6, 7, 8, 9}，c = {5, 6}，
d = {5, 6, 7}则下列运算结果为True的是？（）
A、A a < b
B、B c < a
C、C d < d - c
D、D
E、E c in b
正确答案：BC
19、关于数据维度的描述，正确的是：（）纠错收藏
A、A 一维数据采用线性方式组织，对应于数组概念
B、B 二维数据有关联关系构成，采用表格方式组织
C、C 高维数据由键值对类型的数据组成，采用对象方式组织
D、D 一维数据是由对等关系的有序数据构成，无序数据不是一维数据
正确答案：ABC
20、以下说法正确的是（）纠错收藏
A、A 静态方法能访问实例变量和类变量
B、B 类方法不能访问实例变量
C、C 实例方法一定有方法能访问类变量
D、D 实例方法只能访问实例变量
正确答案：BCD
21、线性回归的基本假设包括哪个？纠错收藏
A、A 随机误差项是一个期望值为 0的随机变量
B、B 对于解释变量的所有观测值，随机误差项有相同的方差
C、C 随机误差项彼此相关
D、D 解释变量是确定性变量不是随机变量，与随机误差项之间相互独立正确答案：ABD
22、传统机器学习的应用领域有（）。

纠错收藏
A、A 信用风险检测
B、B 销售预测
C、C 语音合成
D、D 商品推荐
正确答案：ABD
23、监督学习包括纠错收藏
A、A 降维
B、B 回归
C、C 分类
D、D 聚类
正确答案：BC
24、下列哪一项是Python的数据类型:
A、A string
B、B float
C、C rational
D、D int
正确答案：ABD
25、Python中，对于字典dict1={ a : one , b : two , c : four }; dict2={ c : three , d : 1}，以下选项中正确的操作有（）
A、A dict1.update(dict2)
B、B dict1.get( a )
C、C dict1.pop( c )
D、D dict1.clear()
正确答案：ABCD
26、创建Numpy数字的方法不正确的是（）纠错收藏
A、A import numpy as np arr = np.array([1,5])
B、B import numpy as np arr = np.list([1,5])
C、C import numpy arr = np.array([1,5])
D、D arr = Numpy.array([1,5])
正确答案：BCD
27、Python3交互模式下，执行如下代码： L1 = [1, 2, 3] L2 = [L1, 4, 5] L3 = L2 L4 = L3.copy() L1[1] = 10 L3[1] = 40 L4[2] = 50 以下说法正确的是？（）纠错收藏
A、A L3的值为：[[1, 10, 3], 40, 5]
B、B L2的值为：[[1, 10, 3], 40, 5]
C、C L4的值为：[[1, 10, 3], 4, 50]
D、D L4的值为：[[1, 2, 3], 4, 50]
正确答案：ABC
28、下列叙述中错误的是（）纠错收藏
A、A 有序线性表既可以采用顺序存储结构，也可以采用链式存储结构
B、B 队列是先进后出"的线性表"
C、C 队列是先进后出"的线性表"
D、D 循环队列是非线性结构
正确答案：BCD
29、关于递归函数的描述，以下选项中不正确的是（）
A、A 包含一个循环结构
B、B 函数比较复杂
C、C 函数内部包含对本函数的再次调用
D、D 函数名称作为返回值
正确答案：ABD
30、Numpy库中生成基夫分布的随机数组，2行3列，以下代码不正确的是：（）纠错收藏
A、A x = random.normal(size=(2, 3))
B、B x=random.zipf(a=2,size=(2,3))
C、C x = random.uniform(size=(2, 3))
D、D x=random.rayleigh(scale=2,size=(2,3))
正确答案：ACD
三、判断题（共20题，每题1分，共20分）
1、3+4j 是合法Python数字类型。

A、正确
B、错误
正确答案：A
2、如果仅仅是用于控制循环次数，那么使用for i in range(20)和for
i in range(20, 40)的作用是等价的。

B、错误
正确答案：A
3、对于生成器对象x = (3 for i in range(5))，连续两次执行list(x)的结果是一样的。

A、正确
B、错误
正确答案：B
4、pandas corr()计算列与列之间的相关系数，返回相关系数矩阵
A、正确
B、错误
正确答案：A
5、词干提取和词性还原的目的是相同的。

（）
A、正确
B、错误
正确答案：A
6、元组与多数python集合(列表,字典,集合)一样，保存的是对象的引用。

二者的主要区别是列表是可变的？
A、正确
B、错误
正确答案：A
7、python语言中对象方法和函数没有区别（？）。

A、正确
B、错误
正确答案：B
8、Python字典中的“键”可以是列表。

A、正确
B、错误
正确答案：B
9、栈和队列的都具有先入后出的特点。

A、正确
B、错误
正确答案：B
10、df.count()可以统计dataframe中True值的个数（？）
B、错误
正确答案：B
11、在编写多层循环时，为了提高运行效率，应尽量减少内循环中不必要的计算。

A、正确
B、错误
正确答案：A
12、df.append()不能实现dataframe数据拼接（？）
A、正确
B、错误
正确答案：B
13、对于列表而言，在尾部追加元素比在中间位置插入元素速度更快一些，尤其是对于包含大量元素的列表。

A、正确
B、错误
正确答案：A
14、Python字典中的“值”不允许重复。

A、正确
B、错误
正确答案：B
15、python列表的*操作在原地进行（？）。

A、正确
B、错误
正确答案：B
16、对于dataframe对象df，df.tail(3)将返回df前三行（？）。

A、正确
B、错误
正确答案：B
17、网络爬虫可自动抓取网络数据。

A、正确
B、错误
正确答案：A
18、搜索引擎模式分词可以将句子最精确地切开,适合文本分析
B、错误
正确答案：B
19、可以使用py2exe或pyinstaller等扩展库把Python源程序打包成为exe文件，从而脱离Python环境在Windows平台上运行。

A、正确
B、错误
正确答案：A
20、在Python中定义函数时不需要声明函数的返回值类型。

A、正确
B、错误
正确答案：A。