人工智能自然语言技术练习(习题卷9)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

人工智能自然语言技术练习(习题卷9)
第1部分：单项选择题，共45题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]如何理解NNLM这个模型，它是一个什么样的模型
A)基于统计的语言模型
B)基于神经网络的语言模型
C)预训练模型
D)编解码模型
答案:C
解析:
2.[单选题]文本文件中存储的其实并不是我们在编辑器里看到的一个个的字符，而是字符的（）。

A)内码
B)外码
C)反码
D)补码
答案:A
解析:
3.[单选题]数据可视化data visualization，导入_哪个包？
A)A: sklearn.linear_model
B)B: sklearn.model_selection
C)C: matplotlib.pylab
D)D: sklearn.metrics
答案:D
解析:
4.[单选题]dropout作为常用的函数，它能起到什么作用
A)没有激活函数功能
B)一种正则化方式
C)一种图像特征处理算法
D)一种语音处理算法
答案:B
解析:
5.[单选题]以下四个描述中，哪个选项正确的描述了XGBoost的基本核心思想
A)训练出来一个一次函数图像去描述数据
B)训练出来一个二次函数图像去描述数据
C)不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。

D)不确定
答案:C
解析:
C)LSTM 神经网络模型使用门结构实现了对序列数据中的遗忘与记忆
D)使用大量的文本序列数据对 LSTM 模型训练后，可以捕捉到文本间的依赖关系，训练好的模型就可以根据指定的文本生成后序的内容
答案:B
解析:
7.[单选题]relu函数的作用是可以将小于（）的数输出为0
A)-1
B)0
C)1
D)x
答案:B
解析:
8.[单选题]以下不是语料库的三点基本认识的是
A)语料库中存放的是在语言的实际使用中真实出现出的语言材料。

B)语料库是以电子计算机为载体承载语言知识的基本资源，并不等于语言知识。

C)真实语料需要经过加工（分析和处理），才能成为有用的资源。

D)语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。

答案:D
解析:
9.[单选题]以下是softmax函数的是（）
A)概率
B)归一化
C)损失函数
D)空间
答案:B
解析:
10.[单选题]（）函数用于搜索搭配词语。

A)concordance
B)common_contexts
C)collocations
D)Sorted
答案:C
解析:
11.[单选题]如何去理解牛顿法？
A)实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。

一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的
B)是一种在实数域和复数域上近似求解方程的方法
C)改善每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度
D)不确定
答案:B
解析:
答案:A
解析:
13.[单选题]马尔可夫模型不可应用于
A)词性标注
B)求解方程
C)中文分词
D)天气预报
答案:B
解析:
14.[单选题]tensorflow里的函数con1d是进行什么操作
A)二维卷积
B)一维卷积
C)GRU操作
D)lstm操作
答案:B
解析:
15.[单选题]自然语言处理的英文缩写是（）。

A)NLP
B)AI
C)DFS
D)TCP/IP
答案:A
解析:
16.[单选题]以下哪个选项让GBDT更好更快的用到工业当中
A)LightGBM
B)XGBoost
C)随机森林
D)岭回归
答案:A
解析:
17.[单选题]特征工程本质上是一个什么样的过程
A)特征工程是一个表示和展现数据的过程
B)特征工程是一个文本分类的过程
C)特征工程是一个回归过程
D)特征工程是一个聚类过程
答案:A
解析:
18.[单选题]下列几个选项中对于卡方检验，描述正确的是
A)卡方检验主要用于类别数据
B)卡方检验不可以用于定量数据
19.[单选题]Adam动态优化器，下列关于它的说法正确的是？
A)强化了RMSprop算法
B)强化了动量梯度算法
C)同时使用Momentum和RMSprop算法
D)没有核心
答案:C
解析:
20.[单选题]NLP研究的内容中，应用研究不包括（）。

A)键盘输入
B)语音识别
C)机器翻译
D)图像合成
答案:D
解析:
21.[单选题]Batch归一化操作用于网络的什么层？
A)输出层
B)输入层
C)无法在隐藏层起作用
D)用于输入层，甚至深度隐藏层的归一化过程
答案:D
解析:
22.[单选题]适合高阶 n-gram 模型的平滑方法为( )。

A)加 1 平滑
B)古德-图灵平滑
C)线性插值平滑
D)均值平滑
答案:D
解析:
23.[单选题]google开发的深度学习框架叫什么
A)pytorch
B)tensorflow
C)caffe
D)mxnet
答案:B
解析:
24.[单选题]在应用高斯核SVM之前，通常都会对数据做正态化（normalization），下面对特征正态化的说法哪个是正确的？1.对特征做正态化处理后，新的特征将主导输出结果 2.正态化不适用于类别特征 3.对于高斯核SVM，正态化总是有用
A)1
B)1和2
C)1和3
25.[单选题]人类语言中的许多特点使得文本自动处理相当困难。

原始文本拿来之后并不能直接进入标注流程，在这之前，需要做一些预处理工作。

预处理工作主要包括以下内容
A)汉语和英语方面
B)法语方面
C)日语方面
D)符号方面
答案:A
解析:
26.[单选题]一家全国范围发行的杂志出版商聘用你分析他们的社交媒体数据集，并希望知道哪些新出版物是最有价值的。

你会使用以下哪一项分析工具？( )
A)文本挖掘
B)情感分析
C)网络挖掘软件
D)关联分析的数据
答案:B
解析:
27.[单选题]以下哪个超参数的调试，对神经网络最重要？
A)mini-Batch的大小
B)动量梯度下降的参数β
C)学习率α
D)隐藏层数目
答案:C
解析:
28.[单选题]什么是拟合，如何去理解拟合
A)指曲线能不能去很好的描述现有的数据
B)一条曲线过分的去描述了现有的数据
C)指的是在训练集上表现良好，测试集上表现很差
D)指的是在训练测试集上表现都不好
答案:A
解析:
29.[单选题]网格搜索虽然有很多的优点，但是也有个关键的弊端是？
A)十分耗时
B)十分快速
C)计算资源少
D)效率快
答案:A
解析:
30.[单选题]马尔科夫假设当前词（n）出现的概率依赖于哪些词
A)n-3
B)n-2
C)n
D)n-1
31.[单选题]前项算法中，除了需要有联合权重w，还需要有一个什么函数，才能正常的进行计算
A)激活函数
B)正弦函数
C)余弦函数
D)都可以
答案:A
解析:
32.[单选题]人工智能最近大火，那么它是从20世纪（）开始出现了
A)50年代
B)60年代
C)70年代
D)80年代
答案:A
解析:
33.[单选题]可以在自然语言处理中用于语义关系提取的神经网络技术是以下哪种？
A)循环神经网络
B)卷积神经网络
C)递归神经网络
D)残差神经网络
答案:A
解析:
34.[单选题]长短期记忆门中“确定输出，把前面的信息保存到隐层中去”是哪个门？
A)输入门
B)遗忘门
C)输出门
D)更新门
答案:C
解析:
35.[单选题]DecisionTreeClassifier中的max_leaf_nodes参数的作用是什么
A)最大叶子节点数
B)类别权重
C)随机种子
D)决策树深度
答案:A
解析:
36.[单选题]tf.nn.softmax_cross_entropy_with_logits的作用是什么？
A)信息熵
B)信息元
C)交叉熵
D)logits
答案:C
解析:
C)精度高
D)快速
答案:D
解析:
38.[单选题]XGBoost是在下列哪个算法上做了改进
A)GBDT
B)随机森林
C)线性回归
D)逻辑回归
答案:A
解析:
39.[单选题]以下四个任务当中LDA可以很好的完成哪个任务？
A)对图像进行文本
B)对图像进行特征提取
C)对文档的主题进行分类或聚类
D)以上都正确
答案:C
解析:
40.[单选题]常用的马尔科夫假设中，当前词（n）出现的概率依赖于哪些词
A)n-3
B)n-2
C)n
D)n-1
答案:D
解析:
41.[单选题]下列哪个选项使用了基于Histogram的决策树算法
A)LightGBM
B)XGBoost
C)随机森林
D)岭回归
答案:A
解析:
42.[单选题]LDA的实质是在做一个什么东西
A)根据给定的一篇文档，反推其主题
B)可以找出来最优的分类超平面
C)可以找到因变量和自变量之间的一次关系
D)不确定
答案:A
解析:
43.[单选题]激活函数的应用面非常广泛，以下四个选项中属于激活函数的是
A)sigmoid
B)L1
第2部分：多项选择题，共21题，每题至少两个正确答案,多选或少选均不得分。

44.[多选题]EM算法在高斯混合模型中的应用包含哪些步骤
A)明确隐变量，写出完全数据的对数似然函数。

B)EM算法的E步：确定Q函数
C)求Q函数对theta的极大值，即求新一轮迭代的模型参数。

D)以上都正确
答案:ABCD
解析:
45.[多选题]情感分析常用方法有（）
A)基于情感词典的方法
B)基于文本分类的方法
C)基于LDA模型的方法
D)基于语料库的方法
答案:ABC
解析:
46.[多选题]在k-NN中，由于维数的存在，很可能过度拟合。

你将考虑使用以下哪个选项来解决此问题？
A)降维
B)特征选择
C)不确定
D)以上都正确
答案:AB
解析:
47.[多选题]以下四个选项当中，关于LDA说法正确的是
A)可以通过经验主观判断、不断调试、操作性强、最为常用，的方式确定LDA中Topic的个数
B)包含线性判别分析，概率主题模型，两种含义
C)LDA中包含一个gamma函数
D)以上都正确
答案:ABCD
解析:
48.[多选题]Web内容挖掘实现技术（）
A)文本总结
B)文本分类
C)文本聚类
D)关联规则
答案:ABCD
解析:
49.[多选题]添加了正则化项的，以下都有哪些模型？
A)A: lasso回归
B)B: Ridge回归
C)C: 逻辑回归
50.[多选题]如果在训练任务中发生了过拟合现象应该如何解决
A)增加数据量
B)减少数据量
C)增加迭代次数
D)减少迭代次数
答案:AD
解析:
51.[多选题]情感分析的应用领域有（）
A)商品评论
B)舆情分析
C)信息预测
D)推荐系统
答案:ABCD
解析:
52.[多选题]自然语言处理应用？
A)客服系统
B)查找同义词
C)道标识别
D)文本挖掘
答案:ABD
解析:
53.[多选题]概率图模型中关于判别式模型的缺点，以下哪些？
A)学习过程比较复杂
B)目标分类中易产生较大错误率
C)不能反映训练数据本身的特性
D)没办法把整个场景描述出来
答案:CD
解析:
54.[多选题]NLP在工业中的应用
A)语音识别
B)自动翻译
C)控制装置
D)人脸识别
答案:ABC
解析:
55.[多选题]以下属于AI人工智能的机器学习模型/算法有哪些？
A)SVM
B)LR
C)LSTM
D)RNN
答案:ABCD
解析:
B)EM算法的E步：确定Q函数
C)求Q函数对theta的极大值，即求新一轮迭代的模型参数
D)以上都正确
答案:ABCD
解析:
57.[多选题]下列损失函数中，哪些损失函数可以作为分类任务的损失函数
A)信息熵
B)最小二乘平方损失
C)距离模型
D)概率模型
答案:ABCD
解析:
58.[多选题]目前较常用的无监督关键词提取算法有（）
A)TF－IDF算法
B)TextRank算法
C)主题模型算法
D)以上都不对
答案:ABC
解析:
59.[多选题]以下是针对k-NN算法给出的两条陈述，其中哪一条是真的？
A)我们可以借助交叉验证来选择k的最优值
B)不能判断
C)欧氏距离对每个特征一视同仁
D)以上都正确
答案:AC
解析:
60.[多选题]如果要预处理的特征是多个特征的时候，可以怎么进行
A)PCA降维
B)LDA降维
C)特征选择
D)衍生变量（生成更有意义的特征）
答案:ABCD
解析:
61.[多选题]优化CBOW可以从以下哪些方面入手
A)将CBOW中最后一层的softmax转化成层次softmax
B)将CBOW中的最后一层的softmax转化为负例采样的方式
C)将CBOW中的最后一层的softmax转换为logic回归
D)以上都是
答案:AB
解析:
62.[多选题]数据切分阶段中，下列关于训练集和验证集的划分，有哪些描述正确的？
A)不一定需要验证集
答案:ABC
解析:
63.[多选题]机器学习中常用的损失函数有哪些？
A)平方损失函数
B)log损失函数
C)Hinge损失函数
D)以上都正确
答案:ABCD
解析:
64.[多选题]以下属于分类器评价或比较尺度的有:
A)预测准确度
B)召回率
C)模型描述的简洁度
D)计算复杂度
答案:ACD
解析:
第3部分：判断题，共24题，请判断题目是否正确。

65.[判断题]基于词义消歧方法主要包括：基于词典语义定义的方法，基于义类辞典的方法和基于双语词典的方法
A)正确
B)错误
答案:对
解析:
66.[判断题]词频是统计一个词出现在文档集中文档频次的统计量。

错
A)正确
B)错误
答案:错
解析:
67.[判断题]机器学习模型可用于自然语言处理任务。

A)正确
B)错误
答案:对
解析:
68.[判断题]数据特征归一化可以用到决策树中
A)正确
B)错误
答案:错
解析:
69.[判断题]森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越大
A)正确
B)错误
答案:错
解析:
70.[判断题]后向算法是为了解决概率计算问题的。

A)正确
B)错误
答案:对
解析:
71.[判断题]自然语言处理可以定义为研究在人与人交际以及与计算交际中的语言问题的一门学科，自然语言处理要言之表型，建议计算框架来实现这样的语言模型，根据这样的语言模型设计各种系统的评测技术
A)正确
B)错误
答案:对
解析:
72.[判断题]只有大的语料库才可以有效利用语料检索系统. 错
A)正确
B)错误
答案:错
解析:
73.[判断题]统计方法中具有代表性的几种方法：基于HMM模型的方法；互信息方法；Φ统计方法
A)正确
B)错误
答案:对
解析:
74.[判断题]自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统.
A)正确
B)错误
答案:对
解析:
75.[判断题]一个汉字输入码的长度，通常不需要考虑这个汉字的频率。

A)正确
B)错误
答案:错
解析:
76.[判断题]TF-IDF表示不可以应用于文本向量化。

错
A)正确
B)错误
答案:错
解析:
77.[判断题]主题模型认为文档是由主题组成的，而主题是词的一个概率分布。

对
A)正确
B)错误
答案:对
解析:
78.[判断题]自然语言处理研究的分支领域包括文本分类、信息抽取、信息检索、信息过滤、自动文摘、智能问答、话
题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析（词法、句法和语法）、舆情分析、自动校对、语音识别与合成等。

A)正确
B)错误
答案:对
解析:
79.[判断题]one-hot是最优的向量编码方式
A)正确
B)错误
答案:对
解析:
80.[判断题]如果 mini-batch 大小是 2 的n次方，代码会运行的更快
A)正确
B)错误
答案:对
解析:
81.[判断题]在自然语言处理的发展历程中，最先应用的是基于统计学的方法。

A)正确
B)错误
答案:错
解析:
82.[判断题]Excel支持正则表达式。

对
A)正确
B)错误
答案:对
解析:
83.[判断题]要确定最优状态序列，一种方法是把所有可能的状态序列的概率求出来，从中选出概率最大的序列。

A)正确
B)错误
答案:对
解析:
84.[判断题]情感分析是基于大数据的文本分析的一种运用，指的是对文本中情感的倾向性和评价对象进行提取的过程。

( )
A)正确
B)错误
答案:对
解析:
85.[判断题]在优化算法中，学习率并不是一成不变的
A)正确
B)错误
答案:对
解析:
86.[判断题]EM算法中要先求解最大化，然后求最大期望
A)正确
B)错误
答案:错
解析:
87.[判断题]激活函数一般连接在输入层的后面
A)正确
B)错误
答案:对
解析:
88.[判断题]逻辑回归是一个既可以做回归也可以做分类的算法
A)正确
B)错误
答案:错
解析:
第4部分：问答题，共10题，请在空白处填写正确答案。

89.[问答题]LSTM神经网络模型使用( )实现了对序列数据中的遗忘与记忆，能够刻画出输入数据中的短时的相关信息。

答案:门结构
解析:
90.[问答题]RNN网络只能接收( )，无法直接接收语言文本，因此需要将词表达为向量的形式。

答案:数字向量
解析:
91.[问答题]由0型文法生成的语言称为____
答案:0型语言
解析:
92.[问答题]jieba词性标注在实际应用中使用( )函数命令实现，不需要另外编写命令。

答案:PSG.CUT
解析:
93.[问答题]laplace法则计算公式中N为______
答案:训练实例的总的数量
解析:
94.[问答题]在语言学中，一般用_______来表示语法体系深层结构中的语义概念。

答案:格语法
解析:
95.[问答题]在线型折扣中，所有非零MLE频率的折扣量与其自身的频率值成 _____关系。

答案:线性比例
解析:
96.[问答题]按语料库中语料的语种划分，可分为_____________和______________
答案:单语种语料库|多语种语料库
解析:
97.[问答题]浅层句法分析的方法基本上可以分成两类：基于_____的方法和基于规则的方法
答案:统计
解析:
98.[问答题]常见的语料预处理包括去除数据中非文本部分、( )、词性标注和去停用词。

答案:分词
解析:
99.[单选题]设输入句子：“我爱人工智能”，通过自然语言处理产生输出：“我／爱／人工智能”。

这个过程称为( )。

A)中文分词
B)词性标注
C)依存词法分析
D)命名实体识别
答案:A
解析:
100.[单选题]提取关键词的常见方法是 ( )
A)词频
B)标签
C)分词
D)关键字
答案:A
解析:。