Python数据科学导引智慧树知到课后章节答案2023年下内蒙古农业大学

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Python数据科学导引智慧树知到课后章节答案2023年下内蒙古农业大学
内蒙古农业大学
第一章测试
1.大数据的起源是（）。

答案:
互联网
2.机器学习的实质是（）。

答案:
根据现有数据，寻找输入数据和输出数据的映射关系/函数
3.Spark支持的分布式部署方式中哪个是错误的（）。

答案:
Spark on local
4.以下表述正确的是:（）
答案:
人工智能是人们长远以来的目标,期待机器像人一样有智慧。

;机器学习指机器有学习的能力,是人类达成人工智能目标的手段。

;人或机器表现的很有智慧取决于先天本能/创造者事先设定的规则和后天学
习。

;深度学习是机器学习的一种。

5.有效抑制机器学习过拟合的方法是（）
答案:
平滑损失函数。

;加大数据量。

;重新设计损失函数，引入平滑函数。

6.下面表述正确的（）
答案:
监督学习指训练集中包括没有输出数据与之对应的输入数据,且所有输入数据属于同类别数据。

;监督学习指训练集所有输入数据都有相应输出数据与之对应。

;迁移学习指训练集中包括没有输出数据与之对应的输入数据,但这些输入数据与其他输入数据不相干。

;强化学习指只有评价性输出结果的机器学习。

7.关于Spark中的RDD描述正确的（）
答案:
Destributed：分布式，可以并行在集群计算。

;Resilient：表示弹性的，弹性表示。

;Datset：就是一个集合，用于存放数据的。

;RDD（Resilient Distributed Datset）叫做弹性分布式数据集，是Spark 中最基本的数据抽象。

8.大数据的定义是不唯一的，从不同的角度对大数据都会有不同的理解。

（）
答案:
对
9.关系抽取一般在实体抽取任务之后，用于抽取两个实体之间的句间关系。

（）
答案:
错
10.Spark的四大组件为Spark Streaming、Mlib、Graphx、Spark R。

（）
答案:
错
第二章测试
1.关于Python语言的变量，以下选项中说法正确的是（）。

答案:
随时命名、随时赋值、随时使用
2.以下选项中，不是建立字典的方式是（）。

答案:
null
3.下列说法中正确的是（）。

答案:
break能结束循环，而continue只能结束本次循环
4.tuple(range(2,10,2))的返回结果为（）。

答案:
(2, 4, 6, 8)
5.Python列表中所有元素必须为相同类型的数据。

（）
答案:
错
6.在函数内部没有任何声明的情况下直接为某个变量赋值，这个变量一定是函
数内部的局部变量。

（）
答案:
对
7.在定义函数时，某个参数名字前面带有两个*符号表示可变长度参数，可以
接收任意多个关键参数并将其存放于一个字典之中。

（）
答案:
对
8.使用内置函数open()且以”w”模式打开的文件，文件指针默认指向文件尾。

（）
错
9.下面代码的输出结果是（）
for s in "abc":
for i in range(3):
print (s,end="")
if s=="c":
break
答案:
aaabbbc
10.下面代码的输出结果是（）
x=10
y=3
print(x%y,x**y)
1 1000
第三章测试
1.s = pd.Series(np.random.randint(59,100,5),index = list("ABCDE"))，能够原
地删除s[“A”]的操作是（）。

答案:
del s["A"]
2.若有grouped_sc = df.groupby('学校')，则查询查看分组数量应采用（）
答案:
grouped_sc.ngroups。

3.下列方法中，能够利用pandas.DataFrame()创建DataFrame的是（）。

答案:
通过随机函数创建
;通过Python字典创建
;通过ndarray对象创建
;通过Series创建
4.关于缺失值填充函数pandas.DataFrame.fillna()，正确的说法是（）。

答案:
axis参数表示填充维度，确定从行开始或是从列开始。

;value参数用于指示用来填充缺失值的数据。

;method参数为pad表示用缺失值前面的值对缺失值进行填充。

5.df包含"计划销售额"和"实际销售额"两列数据，若要筛选未完成计划销售额
但实际销售额不低于4000的所有月份信息，可用的方式有（）。

答案:
df[(df["计划销售额"].gt(df["实际销售额"])) &(df["实际销售额
"].ge(4000))]。

;df.query("计划销售额＞实际销售额 & 实际销售额＞= 4000")。

;df[(df["计划销售额"]＞df["实际销售额"]) &(df["实际销售额"].ge(4000))]。

;df[(df["计划销售额"]＞df["实际销售额"]) &(df["实际销售额"]＞=4000)]。

6.下列属于透视操作的是（）。

答案:
pivot()。

;pivot_table()。

;crosstab()。

7.pandas读取csv文件时可使用usecols参数指定某个列作为索引。

（）
答案:
错
8.pandas.DataFrame.sum(axis = 1)表示对每行数据求和。

（）
答案:
对
9.unstack()可将列旋转到行，从而将宽表变成长表。

（）
答案:
错
第四章测试
1.绘制折线图时用label参数可为图表添加图例，但必须与( )配合使用。

答案:
legend()。

2.关于注释的说法中，正确的是（）。

答案:
matplotlib.pyplot.text()主要用于无指向型注释。

3.绘制折线图的函数是（）。

答案:
plot()。

4.在绘制两组数据对比的柱形图时，若希望两组柱形并列显示，应通过调整
（）实现。

答案:
参数x和width。

5.导入matplotlib的可行的做法是（）
答案:
import matplotlib.pyplot as plt()。

;from matplotlib inmport pyplot。

;import matplotlib.pyplot。

6.关于雷达图绘制，正确说法的有（）。

答案:
使用polar()绘制极坐标系，然后用plot()绘制雷达图时无需闭合数据。

;xticks()可用来设置弧度信息。

;直接使用polar()绘图时需使用np.concatenate()使数据闭合。

7.关于箱线图绘制，正确说法的有（）。

答案:
参数whis用于指定上下须与上下四分位的距离，默认为1.5倍的四分位差。

;参数sym用于指定异常点的形状，默认为+号显示。

8.fontdict是用来设置字体属性的字典型参数。

（）
答案:
对
9.bar()函数可通过参数bottom选择水平/垂直的柱形条的绘制方式。

（）
答案:
错
10.气泡图本质上仍属于散点图。

（）
答案:
对
第五章测试
1.两个变量y与x的回归模型中，通常用R方来刻画回归效果，则正确的叙
述是（）。

答案:
R方越小，残差平方和大。

2.如果拟合曲线几乎通过了所有实测数据点，很有可能出现的现象是（）。

答案:
过拟合。

3.以下（）是线性回归方程参数求解常用的方法。

答案:
梯度下降法。

4.线性回归模型中的损失函数用来估量预测值与（）的差异程度。

答案:
真实值。

5.与梯度下降法相比，当输入变量k较大时，正规方程法求解参数的速度要
更慢。

（）
答案:
对
6.梯度下降法需要选择学习率，需要多次迭代求解参数。

（）
答案:
对
7.
答案:
;
;
第六章测试
1.有关聚类分析说法错误的是（）。

答案:
聚类分析无法提取样本特征
2.下面算法中，算法分析是建立在凸球形的样本空间的是（）。

答案:
凝聚聚类算法
;K中心点算法
;K-means
3.轮廓系数只能用于K-means算法的评估。

（）
答案:
错
4.DBSCAN算法对参数敏感。

（）
答案:
对
5.凝聚聚类分析是一种自底向上的聚类分析算法。

（）
答案:
对
6.关于K-means聚类说法正确的是（）。

答案:
K-means的聚类中心是聚类中心的均值
;K-means需要事先指定K的数目
;K-means实现采用的是贪心策略
7.K中心点算法是异常值敏感的聚类算法。

（）
答案:
对
8.K-means算法是异常值敏感的聚类算法。

（）
答案:
对
9.下面哪一个算法不是聚类分析算法（）
答案:
KNN
10.聚类分析的相似性度量方法，以下哪种方法只考虑了变量之间的方向（）
答案:
第七章测试
1.Logistic回归分析属于（）回归
答案:
非概率型线性回归
2.C4.5决策树构造算法的特征选择采用（）
答案:
信息增益
3.关于朴素贝叶斯分类器，正确的有（）
答案:
是一种概率分类器
;利用贝叶斯公式将样本属于某个类别的概率转换为后验概率来计算;所谓“朴素”假设，即是样本特征（属性）的条件独立假设
4.支持向量机SVM算法采用的损失函数是（）
答案:
铰链损失函数
5.支持向量机分类器求解方法有（）
答案:
内点法
;随机梯度下降
;序列最小优化
第八章测试
1.以下关于Boosting和Bagging说法正确的是（）。

答案:
Bagging可以用来减小方差
2.一般情况，在个体学习器性能相差较大时宜使用（）结合策略。

答案:
加权平均法
3.集成方法是并行集成方法。

（）
答案:
错
4.集成学习只对大规模的数据集有较好的策略。

（）
答案:
错
5.以下哪些方法可以减少过拟合（）
答案:
降低模型复杂度;增加更多数据;使用集成学习方法;正则化
第九章测试
1.关于多层感知机的说法正确的是（）。

答案:
多层感知机是前馈型神经网络
2.多层感知机神经网络的输入层有2个输入特征，隐藏层有3个神经元，输
出层有2个神经元，则该网络中共有多少个参数（）。

答案:
17
3.梯度下降是神经网络参数学习中的一种方法。

（）
答案:
对
4.
答案:
5.循环神经网络不具有参数共享性。

（）
答案:
错
6.下列哪个不属于初始化参数优化的方法：（）。

答案:
丢弃率初始化
7.Pytorch中基本的数据类型为：（）。

答案:
Tensor
8.Pytorch中自定义数据集必须实现Dataset中的函数有：（）。

答案:
__init__
;__getitem__
;__len__
9.Pytorch中自定义神经网络模型需要继承torch.nn.Module类。

（）
答案:
对
10.sigmod激活函数的数学表示为（）
答案:。