中国科学院大学自然语言处理 期末试题 宗成庆
人工智能自然语言技术练习(习题卷9)
人工智能自然语言技术练习(习题卷9)第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]如何理解NNLM这个模型,它是一个什么样的模型A)基于统计的语言模型B)基于神经网络的语言模型C)预训练模型D)编解码模型答案:C解析:2.[单选题]文本文件中存储的其实并不是我们在编辑器里看到的一个个的字符,而是字符的()。
A)内码B)外码C)反码D)补码答案:A解析:3.[单选题]数据可视化data visualization,导入_哪个包?A)A: sklearn.linear_modelB)B: sklearn.model_selectionC)C: matplotlib.pylabD)D: sklearn.metrics答案:D解析:4.[单选题]dropout作为常用的函数,它能起到什么作用A)没有激活函数功能B)一种正则化方式C)一种图像特征处理算法D)一种语音处理算法答案:B解析:5.[单选题]以下四个描述中,哪个选项正确的描述了XGBoost的基本核心思想A)训练出来一个一次函数图像去描述数据B)训练出来一个二次函数图像去描述数据C)不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
D)不确定答案:C解析:C)LSTM 神经网络模型使用门结构实现了对序列数据中的遗忘与记忆D)使用大量的文本序列数据对 LSTM 模型训练后,可以捕捉到文本间的依赖关系,训练好的模型就可以根据指定的文本生成后序的内容答案:B解析:7.[单选题]relu函数的作用是可以将小于()的数输出为0A)-1B)0C)1D)x答案:B解析:8.[单选题]以下不是语料库的三点基本认识的是A)语料库中存放的是在语言的实际使用中真实出现出的语言材料。
B)语料库是以电子计算机为载体承载语言知识的基本资源,并不等于语言知识。
C)真实语料需要经过加工(分析和处理),才能成为有用的资源。
基于双向标注融合的汉语最长短语识别方法
汉语 PP 以介词为中心词并且中心词多位于短 语首(在宾州中文树库中这一比例为 98.21%) ,特 殊情况是修饰介词中心词的副词等会出现在介词的 前面。因此,介词是 PP 识别的一个最明显标志, 将指引标注器正确判断 PP 的右边界。这使我们相 信对汉语 PP 的正向标注效果要好于反向标注。 反向标注汉语 PP 也有可以捕捉的标志词,如 表方位的 PP “在…上” 和 “当…时” 中的方位词 “上” 和 “时” 。 另一个反向标注具有的优势是它可以避免 正向标注对 PP 右边界后面第一个词的过分依赖。 因为语料中介词短语常出现在动词前面,所以正向 标注器可能会直到遇见动词才确定短语的右边界, 造成标注错误。反向标注则不会出现这样的问题。 综 上 所 述 ,基于 历史 特 征 的标注 模 型对 汉语 MNP 或 PP 两个方向的识别能力有一定的差异。但 由于汉语本身的特点,这两个优劣不同的结果之间 仍具有互补性。而且在理论上,随着短语长度和内 部依存关系距离的增长,这一互补性也将增强。基 本短语因为结构简单,缺乏能使不同方向标注结果 产生较大差异的长距离依存歧义,所以其双向标注 结果的差异较小,互补性也较弱。文献[7]的实验结 果和文献[14]的预备实验结果显示了这一特点在基 本名词短语分析任务上的体现。
收稿日期: xxxx-xx-xx. 基金项目:国家自然科 学基金项目(60736014、90820303) ;国家支撑 计划项目(2006BAH03B02) ;国家 863 项目(2006AA010108-4) ;并得 到中国新加坡数字媒体 研究院的 资助.
嵌套在汉语句子中比较少见(据统计,宾州中文树 库 V5.0[1]中共有 5.28%的介词短语具有嵌套现象) , 最长介词短语(maximal-length prepositional phrase, MPP)和一般介词短语(PP)通常不做区分。本文 以汉语最长名词短语和介词短语的识别为任务,并 在以下章节中用 MNP 和 PP 分别表示这两种短语。 本文中的 PP 严格来说是指 MPP。 识别 MNP 和 PP 的传统方法是估计短语的边界 概率分布[2-5]。 而已有实验结果证明这类方法通常只 有加入了规则或语言知识才能取得较好的效果[3,5]。 原因 是 这类短语具有比 基 本短语 等其 它 类型 的短 语更复杂的结构,特别是对汉语来说。汉语的短语 套叠现象比较普遍,一个某种类型的最长短语可以 包含其它所有类型的短语成分,甚至可以包含一个 从句。而且它们具有长距离的依存关系,仅依赖边 界信息会带来更多歧义。所以研究者们起初都是试 图 从最长短语的内部结 构 或其 所处的 外部环境寻 找规律,判定它的边界。这需要耗费一定的时间和 人力来熟悉该种语言的短语特性。
评估方法研究——中科院自动化所硕士论文导师宗成庆
中国迷信院研讨生院
硕士学位论文
汉语词与句子切分技术及机器翻译评价方法研讨
刘丁
指点教员宗成庆 研讨员 博士 中国迷信院自动化研讨所
央求学位级别工学硕士学科专业称号形式识别与智能系统
论文提交日期2004年6月论文争辩日期2004年6月
培育单位中国迷信院自动化研讨所
ABSTRACT
This thesis proposed our novel statistical approaches on Chinese word analysis,utterance segmentationand automatic evaluation of machinetranslation (MT).Word analysis is the first step for most application based on Chinese language technologies; utterance segmentation is the bridge which connects speech recognition and text translation in a speech translation system; automatic evaluation ofmachine translation(MT) systemcan speed the research and development of a MT system, reduce its developing cost.In short,the three aspectsall belong to the basic research area ofNatural Language Processing(NLP) and have significant meaning to manyimportantapplications such as text translation, speech translation and so on.
人工智能自然语言技术练习(习题卷4)
人工智能自然语言技术练习(习题卷4)第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]实际应用当中应该如何选激活函数A)根据数据和需求凭经验选择B)可以随意选择使用C)使用到激活函数的地方都选用ReluD)不确定答案:A解析:2.[单选题]下面哪个不是编辑距离里的编辑操作A)删除B)替换C)添加D)相乘答案:D解析:3.[单选题]超参数使我们模型道中必要的阐述,关于超参数范围中说法正确的是A)随机取值可以提升搜索效率B)随机取值就是随机均匀取值C)范围就是[0,1]D)随机取值对搜索无影响答案:A解析:4.[单选题]Beam Search(集束搜索)的作用A)增加在空间的消耗B)增加搜索的时间C)减少准确率D)减少搜索所占用的空间和时间答案:D解析:5.[单选题]以下哪种情况下树会容易发生了过拟合的现象A)加入L2正则B)加入L1正则C)设置树的最大深度D)没有设置树的最大深度答案:D解析:6.[单选题]自然语言处理的简称为()A)ScrumB)NLPC)AUP答案:B解析:7.[单选题]什么是自然语言处理(NLP)A)机器理解B)让计算机/机器在理解语言上像人类一样智能C)弥补人类交流和计算机理解之间的差距D)一门计算机科学、人工智能以及语言学的交叉学科答案:D解析:8.[单选题]贝叶斯作为常用的理论基础,它的定理实质上是对()的陈述。
A)联合概率B)边际概率C)条件概率D)后验概率答案:C解析:9.[单选题]向量空间也可以称为( ),它属于线性代数内容和范畴A)线性空间B)内积空间C)赋范空间D)希尔伯特空间答案:A解析:10.[单选题]概率图中的有向边表示的是什么A)表示单向的依赖B)表述互相依赖关系C)表示无依赖关系D)不确定答案:A解析:11.[单选题]tf.to_int32的作用是什么A)字符串转为数字B)转为64位浮点类型-float64C)转为32位整型-int32D)转为64位整型-int64答案:C解析:12.[单选题]ELMO是个预训练模型,使用了LSTM做特征提取,那么其中用了几层的LSTMA)单层B)双层C)三层D)不确定答案:B解析:13.[单选题]为了模拟神经细胞行为,与之对应的感知器基础概念被提出,下列与之无关的是()A)权量(突触)B)偏置(阀值)C)激活函数(细胞体)D)核仁答案:D解析:14.[单选题]EM算法,什么是EM,最大期望算法A)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。
第10章 语义分析
问题:对于复杂的问题这种定义无法处理。
启明星/暮星金星;神仙?鬼?妖怪?
宗成庆:《自然语言理解》讲义,第 10 章 6/81
10.2 语义理论简介
心理图像、大脑图像或思想作为意义
该理论认为,词或词组的意义就是词或词组在人心 理上或大脑中所产生的图像。
问题:在计算机中把心理图像有效地表示出来并不 是一件容易的事情,而且,不一定所有的词义都有 清晰的心理图像。
宗成庆:《自然语言理解》讲义,第 10 章 11/81
10.2 语义理论简介
条件真理模型
该理论以谓词逻辑为基础,句子的语义定义为它所 对应的命题或谓词在全体模型(或世界)中的真伪。
例如:“雪是白的”为真,当且仅当在这个世 界上雪是白的。 优点:对上下文无关部分的语义描写很有效。 问题:对时间、场景有关的语言现象不能很好地描 述。不能很好地解释一句多义的问题。
Speaker
Speech-act
Arguments
问题:意图的定义、划分和表示是困难的。
宗成庆:《自然语言理解》讲义,第 10 章 9/81
10.2 语义理论简介
过程语义
该理论认为,句子的语义定义为接受该句后所执行 的程序或者所采取的某种动作。
优点:简单明了,对于计算机智能应用系统来说, 这种定义在某种程度上是有效的。 问 题:对于语言本身缺乏解释,且句子的语义与应 用之间的连接过于紧密,缺乏独立性。
13/81
10.2 语义理论简介
例 如:雪是白的:
是白的 (雪, e) ∧ 等同 (e, 地球世界) 谓词
前缀表示 场景变量
宗成庆:《自然语言理解》讲义,第 10 章
14/81
10.2 语义理论简介
模态逻辑
宗成庆-统计自然语言处理--第六章--- 隐马尔可夫模型
aij P(qt1 S j | qt Si ), 1 i, j N
aij 0
… (6.6)
a
j 1
N
ij
1
Company Logo
或者 (S,O ,A B,) 用以指出模型的参数集合。 ,
Company Logo
6.2 隐马尔可夫模型
给定HMM求观察序列
给定模型 ( A, B, ) ,产生观察序列 O=O1O2 …OT : (1) 令 t =1; (2) 根据初始状态分布 i 选择初始状态 q1 Si ; (3) 根据状态 Si 的输出概率分布 bi(k)), 输出 Ot vk ; (4) 根据状态转移概率 aij,转移到新状态 qt 1 S j ;
N
… (6.13)
Company Logo
6.3 前向算法
动态规划计算 t (i) :在时间 t+1 的前向变量可以根据 时间 t 的前向变量 t (1),…,t (N) 的值递推计算:
t 1 ( j) [t (i)aij ]bj (Ot 1 )
LOGO
第6章 隐马尔可夫模型
参考课件:宗成庆:《自然语言理解》讲 义
邮件 :cqzong@
LOGO
6.1马尔可夫模型
6.1马尔可夫模型
马尔可夫模型描述
存在一类重要的随机过程:如果一个系统有 N 个 状态 S1, S2,…, SN, 随着时间的推移,该系统从某一状 态转移到另一状态。如果用 qt 表示系统在时间 t 的状 态变量,那么,t 时刻的状态取值为 Sj (1 jN) 的概 率取决于前 t-1 个时刻 (1, 2, …, t-1) 的状态,该概率 为: P(qt S j | qt 1 Si , qt 2 Sk ,…)
(3) CASIA SMT系统与口语翻译
NLPR, CASIA 2006-5-9 宗成庆:《自然语言理解》讲义
NLPR
10.3.3 Experiments
Methods M+NF0+BACK2 M+NF0+BACK1 M+F0+BACK2 M+F0+BACK1 GIZA++ +NF0+BACK2 GIZA++ +NF0+BACK1 GIZA++ +F0+BACK2 GIZA++ +F0+BACK1 EDM+NF0+BACK1 EDM+F0+BACK1 GIZA++ +F0+BACK1+NUM NLPR, CASIA 2006-5-9 Bleu (4-gram) 0.1833 0.1919 0.2372 0.2663 0.2730 0.2864 0.2763 0.2882 0.1978 0.2683 0.3177 宗成庆:《自然语言理解》讲义
NLPR, CASIA 2006-5-9
NLPR
Num of Phrases 187,011 278,770 695,486
BLEU4 0.2751 0.2637 0.2882
宗成庆:《自然语言理解》讲义
Chp-01自然语言理解
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
1.2 基本概念
计算语言学是语言学的一个研究分支,用计 算技术和概念来阐述语言学和语音学问题。已开 发的领域包括自然语言处理,言语合成,言语识 别,自动翻译,编制语词索引,语法的检测,以 及许多需要统计分析和领域(如文本考释)。
自然语言处理可以定义为研究在人与人交际中以 及在人与计算机交际中的语言问题的一门学科。自然 语言处理要研制表示语言能力(linguistic competence) 和语言应用(linguistic performance)的模型,建立计 算框架来实现这样的语言模型,提出相应的方法来不 断地完善这样的语言模型,根据这样的语言模型设计 各种实用系统,并探讨这些实用系统的评测技术 。
at the 2nd floor1.
基于不同的文化背景
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
1.2 基本概念
关于“理解”的标准
如何判断计算机系统的智能? 计算机系统的表现(act)如何?
反应(react)如何? 相互作用(interact )如何?
与有意识的个体(人)比较如何?
自然语言理解
宗成庆
中国科学院自动化研究所 模式识别国家重点实验室
No.95, Zhongguancun East Road, Beijing 100080, China
Tel. No.: +86-10-6255 4263
联系方式
z 电话:6255 4263 z 邮件:cqzong@ z 主页:/cip/cqzong.htm z 地址:100080 中关村东路95号
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2003- Zong-Review on SLT Technology
口语翻译中的问题、方法与应用可能性宗成庆中科院自动化所模式识别国家重点实验室北京100080E-mail: cqzong@摘要本文简要介绍了语音翻译技术的研究现状,分析了该项技术在10多年的发展过程中所取得的进展和存在的问题;然后侧重介绍和分析了目前语音翻译技术的基本方法,并对两种主要的实现技术-基于规则的分析翻译方法和基于统计模型的翻译方法的比较与结合问题进行了简要的讨论;最后本文介绍了在973项目“图象、语音、自然语言理解与知识挖掘”的支持下口语翻译关键技术研究的最新进展情况和取得的初步成果。
1 引言语音翻译(Speech-to-speech Translation)就是让计算机实现从一种语言的语音到另一种语言的语音翻译的过程。
其基本思想是,让计算机像人一样充当持不同语言的说话人之间翻译的角色。
由于说话人使用的语言一般都是日常生活中的口语,而人们也正希望计算机翻译系统能够接受并实现任意口语语句的翻译,并且,这种希望随着语音识别技术和口语解析技术的快速发展和提高,已经不再是渺茫的设想。
因此,现在的语音翻译又常被称作口语翻译(Spoken Language Translation, SLT)[Kitano, 1994;宗,1999]。
集多项技术于一体的语音翻译系统一般由语音识别(SR)、机器翻译(MT)和语音合成(TTS)等三个主要技术模块组成。
从目前情况来看,尽管语音合成技术已在很多应用系统中得到实际应用,但语音识别技术和机器翻译技术则更多地停留在实验室研究阶段。
因此,作为多技术集成的口语翻译系统仍然处于“艺术级的”(state-of-the-art)研究现状也就不足为怪了。
我们不回避在口语翻译研究中的实际困难,无论是语音识别,还是口语解析和机器翻译,都存在许多有待于深入研究的关键问题,但我们认为,一项新的技术和发明从实验室走向实用化是逐步完成的,是需要一个过程的,而不是等到这项新技术在理论上完全成熟后才寻找其实现可能和应用目标的。
人工智能自然语言技术练习(试卷编号171)
人工智能自然语言技术练习(试卷编号171)1.[单选题]在处理文本是,关于NLP中句法结构分析的说法正确的是A)神经网络可以准确地确定句子的句法结构B)机器学习的KNN算法就可以获取到句子的句法结构C)机器学习的K-Means算法就可以获取到句子的句法结构D)不确定答案:A解析:2.[单选题]专家系统是以( )为基础,以推理为核心的系统。
A)专家B)软件C)知识D)解决问题答案:C解析:3.[单选题]sigmoid激活函数的曲线是什么样的A)直线B)A型曲线C)C型曲线D)S型曲线答案:D解析:4.[单选题]以下四个选项中,关于随机森林和GBDT说法正确的是A)都是由多棵树组成,最终的结果都是由多棵树一起决定。
B)RF和GBDT在使用CART树时,只能做回归不能做分类。
C)RF和GBDT在使用CART树时,只能做分类不能做回归。
D)不确定答案:A解析:5.[单选题]下列不属于一般的有指导的机器学习的步骤是()A)预处理B)人工标注C)训练和预测D)数据导出6.[单选题]并行地训练一系列各自独立的不同类模型,然后通过训练一个元模型(meta-model)来将各个模型输出结果进行结合,是什么思想A)BaggingB)BoostingC)StackingD)以上都正确答案:C解析:7.[单选题]小概率事件怎么理解?( )A)发生可能性不大的事件B)发生可能性大的事件C)发生可能性不去确定的事件D)以上都正确答案:A解析:8.[单选题]( )是指用NLP、文本挖掘和计算机语言学等方法对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。
A)关键词提取B)文本向量化C)文本情感分析D)智能问答答案:C解析:9.[单选题]在NLP中CRF的到广泛的应用,那么CRF是什么模型A)是生成式模型B)是判别式模型C)即是生成式模型又是判别式D)不确定答案:B解析:10.[单选题]早期的语料库语言学主要研究不包括A)语料库的建设B)语言习得C)音系研究D)方言学与语料库技术的结合11.[单选题]情感分析是一种特殊的文本分析,它侧重于确定个人的偏见或情绪。
第5章--语言模型
P (Cher | BOS )
c ( BOS Cher )
0 3
?
27
<BOS>John read Moby Dick<EOS> <BOS>Mary read a different book<EOS> NLPR, CAS-IA 2010-<BOS>She read a book by Cher<EOS>
4
5.1 基本概念
如何计算一段文字(句子)的概率?
阳春三月春意盎然,少先队员脸上荡 漾着喜悦的笑容,鲜艳的红领巾在他们 的胸前迎风飘扬。
以一段文字(句子)为单位统计相对频率? 根据句子构成单位的概率计算联合概率? p(w1)×p(w2)×…×p(wn)
NLPR, CAS-IA 2010-3-24
NLPR, CAS-IA 2010-3-24
宗成庆:《自然语言理解》讲义
9
5.1 基本概念
问题解决方法
设法减少历史基元的个数,将 w1 w2 …
wi-1 映射到等价类 S(w1 w2 … wi-1),使等价 类的数目远远小于原来不同历史基元的数 目。则有:
P(wi | w1 ,..., wi1 ) P(wi | S(w1 ,..., wi1 ))
P( s) P( wi | wii1 1 ) n
m 1 i 1
… (5-4)
其中,wij 表示词序列 wi … wj,约定wn 2 到 w0 为 <BOS>, m 1 为 <EOS>。 w
NLPR, CAS-IA 2010-3-24
宗成庆:《自然语言理解》讲义
13
语法理论
• 规则本身有 明确的限制
由X 理论详细 说明
8/85
8.2 GB 理论
X 理论 格理论 管辖理论 θ理论 约束理论 控制理论 界限理论
9/85
(2)原则系统
宗成庆:《自然语言理解》讲义,第 8 章
8.2 GB 理论
X 理论
以 CFG 为基本骨架。该理论认为:无论哪种词组, 其结构均以中心语加上补语,或者中心语加上标志语 方式构成。形式上为: Xn SPEC X n-1 Xn-1 Xn-2 COMP 其中,SPEC 为标志语;COMP 为补语; Xi (i {n, n-1, n-2}) 为中心语。
30/85
句子: We helped her.
宗成庆:《自然语言理解》讲义,第 8 章
8.3 功能合一文法
复杂特征集的特点
(1) 允许利用多个特征描述同一个语言单位; (2) 从结构上看,复杂特征集是一种嵌套结构,可以有效 地表示复杂词组或句子结构; (3) 特征名的定义及其相互关系具有明显的层次性,而所 有自然语言的结构都是层次性的,复杂特征集的这一 特点显然对语言的层次分析有益; (4)复杂特征集便于运算,两个复杂特征集通过合一运算可 以产生另一个复杂特征集,这与句法分析中词组和句 子的产生是一致的。
FUG 对短语结构语法的改进
采用复杂特征集来描述词、句法规则、语义信 息,以及句子的结构功能。
试图以单一形式的结构模式来描述特征组合、 功能分配、词条和组成成分的顺序,以达到对 句子的完全功能描述。
采用合一运算对复杂特征集进行运算。
宗成庆:《自然语言理解》讲义,第 8 章
25/85
8.3 功能合一文法
人工智能自然语言技术练习(习题卷10)
人工智能自然语言技术练习(习题卷10)第1部分:单项选择题,共116题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下哪个模型是属于产生式模型A)HMMB)SVMC)CRFD)MEMM答案:A解析:2.[单选题]SVM算法有很多的优点,以下四个选项中针对SVM的性能为什么好,描述正确的是?A)核函数的选择B)核函数的参数C)软间隔参数CD)以上所有答案:D解析:3.[单选题]XGBoost中做了很多的改进,它的思想是什么A)BoostingB)BaggingC)StackingD)不确定答案:A解析:4.[单选题]seq2seq中的encode阶段是把输入的序列转换成怎样的向量A)黑箱操作不能确定B)等价于输入的向量C)固定长度的向量D)可变长度的向量答案:C解析:5.[单选题]SVD在自然语言(NLP)中经常解决的问题A)对新词很轻松的分配词向量B)计算量随着预料和词典增长维度膨胀快C)与其他深度学习模型框架差异小D)同时也可以解决聚类的问题答案:B解析:6.[单选题]()是1966年由美国语言学家菲尔摩提出的一种语言学理论是语法体系深层结构中的语义概念。
A)格语法D)选择限制学说答案:A解析:7.[单选题]看以下这个单词,Random Forest指的是哪个算法A)随机森林B)决策树C)聚类D)逻辑回归答案:A解析:8.[单选题]什么是自然语言处理(NLP)A)机器理解B)让计算机/机器在理解语言上像人类一样智能C)弥补人类交流和计算机理解之间的差距D)一门计算机科学、人工智能以及语言学的交叉学科答案:D解析:9.[单选题]下面哪个不属于超参数?A)学习率αB)动量梯度下降的参数βC)mini-Batch的大小D)输入图片大小答案:D解析:10.[单选题]机器学习逻辑回归logistics regression算法,属于哪类算法??A)A: 分类算法B)B: 聚类算法C)C: 神经网络算法D)D: 支持向量机算法答案:A解析:11.[单选题]什么是SVM,如何去理解SVMA)一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别B)两个变量之间的关系是二次函数的关系,图像是条抛物线C)两个变量之间的关系是一次函数关系的关系D)它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解答案:D解析:12.[单选题]使用网格搜索寻找超参数的话,有什么缺点A)准确率高B)查找的快C)计算资源少13.[单选题]TextRank可以提取到关键词那么它是由哪个算法发展来的?A)TextRnnB)TextCNNC)FasttextD)PageRank答案:D解析:14.[单选题]谷歌开源出来的BERT预训练模型,是怎样的模型A)预训练模型B)语言模型C)概率图模型D)不确定答案:A解析:15.[单选题]什么是梯度下降,如何去理解梯度下降A)实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。
【超级干货】自动化所宗成庆:108页PPT完全梳理NLP
【超级干货】自动化所宗成庆:108页PPT完全梳理NLP 【新智元导读】最近,一道谷歌面试题火了。
这是TechLead在谷歌100多次面试中提到的问题,这引起了本文作者Kevin Ghadyani的极大兴趣,并讨论了解决该问题的所有传统方法。
为了更了解其他人对软件工程的看法,我开始疯狂在 YouTube 上追 TechLead 的视频。
在接下来的几天里,我为他在 Google 工作时提出的一道面试题想出了各种解决方案。
通过 TechLead 模拟 Google 面试(软件工程师职位)TechLead 在 Google 的 100 多次面试中都提出了一个问题,这引起了我对 RxJS 的兴趣。
本文会讨论解决该问题的所有传统方法。
他问这个问题的真正目的是从应聘者得到下列信息:在编码之前,他们会问正确的问题吗?提出的解决方案是否符合项目指南?他甚至指出,是否得到正确的答案一点都不重要,重要的是应聘者的思考方式,以及应聘者是否能够理解这个问题。
他谈到了一些解决方案,包括递归方法(受堆栈大小限制)和迭代方法(受内存大小限制)。
本文将对这两个解决方案进行详细讨论。
TechLead 的问题在 TechLead 的问题中,他要求应聘者在如下网格中,计算出所有颜色相同的最大连续块的数量。
当看到这个问题时,我的第一反应是,必须做一些 2D 图像建模才能解决这个问题。
听起来这道题在面试中几乎不可能回答出来。
但在听完他的详细解释之后,我方知情况并非如此。
在这个问题中,我们需要处理的是已经捕获的数据,而不是解析图像。
数据建模在编写任何代码之前都需要定义数据模型。
对于任何问题,首先要弄清楚我们在处理什么,并收集业务需求。
在我们案例中,TechLead 为我们定义了许多具体的需求,例如:彩色方块或“节点”的概念数据集中包含 1 万个节点节点被组织成行和列,即二维数据列数和行数可能不同节点有颜色信息,并具有对“邻接”这一概念的表示方式我们还可以从数据中获得更多信息:节点不会重叠节点不会和其自身邻接节点不会有重复的邻接位于边角的节点会比其他节点少一个或两个邻接还有一些未知信息,例如:行数与列数的比可能的颜色数量只有一种颜色的可能性颜色的大致分布开发人员的水平越高,其需要问的问题越多。
人工智能自然语言技术练习(习题卷7)
人工智能自然语言技术练习(习题卷7)说明:答案和解析在试卷最后第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]所谓继承是指对事物的描述从()结点传递到具体结点A)抽象B)现实C)普通D)任意2.[单选题]决策树分类器可以对文本数据分类。
关于文本分类算法,下列说法错误的是( )A)文本预处理包括文本分词和去停用词等步骤B)数据集可以是公开数据集,也可以是通过网络爬虫爬取的文本数据C)不需要进行特征工程D)对数值化后的文本数据,可采用如SVM、RF等进行分类3.[单选题]随机森林和GBDT都属于集成学习,肯定有很多异同点,在以下描述中,正确的是?A)都是由多棵树组成,最终的结果都是由多棵树一起决定。
B)RF和GBDT在使用CART树时,只能做回归不能做分类。
C)RF和GBDT在使用CART树时,只能做分类不能做回归。
D)不确定4.[单选题]关于KNN和K-Means的相似点,下列说法正确的是A)都是有监督学习B)都属于聚类算法C)训练的数据都带有label标签D)都包含这样的过程,给定一个点,在数据集中找离它最近的点5.[单选题]可以使一个词有多个嵌入方式的模型是哪个A)GloVeB)Word2VecC)ELMoD)Nltk6.[单选题]以下四个算法当中,哪个算法和逻辑回归一样都可以做分类A)线性回归B)岭回归C)K-meansD)SVM7.[单选题]NLP中常用的语言模型是为了求得什么A)一句话或者一个词出现的概率C)一个稠密的向量矩阵D)不确定8.[单选题],Transformer是很常用的特征提取器,那么Transformer架构首先是由下列哪项引入的?A)GloVeB)BERTC)Open AI’s GPTD)ULMFit9.[单选题]贝叶斯是常用的理论基础,在贝叶斯可以是用的什么图进行表示的A)无向图B)有无向图C)有向图D)不确定10.[单选题]深度学习中最常使用的框架就是TensorFlow,该框架中的matmul方法的作用是什么A)相与B)乘积C)相除D)相加11.[单选题]在NLP任务当中机器翻译任务所使用的的模型属于什么模型A)基于统计的语言模型B)基于神经网络的语言模型C)预训练模型D)编解码模型12.[单选题]确定语料库类型的主要依据是A)它的研究目的和用途B)语料库的大小C)它所包含的语言种类的数目D)语料库的加工方式13.[单选题]LDA这个模型是在哪一年提出的?A)2000B)2001C)2002D)200314.[单选题]聚类肘部法的作用是:A)就是从K值和代价函数J的二维图中找出J下降变平滑的拐点对应的K值。
自然语言理解(03)形式语言与自动机
NLPR, CASIA
2005-3-11
9
3.1 几个基本概念
例如: 假设 Σ = {0, 1},那么,0 和 1都是正则表达式。如 果令x=0, y=1, 那么, y* = 1* 也是正则式,对应的正则集为:U={ε, 1, 11, … } xy* = 01* 也是正则式, 且它对应的正则集: V={ 0, 01, 011, 0111, … } x|y* = {x}∪U = {0, ε, 1, 11, 111, … }
G
G
用 + (按非平凡方式派生)表示 ⇒ 的传递闭包,也就是 ⇒ G (N ∪ Σ)*上的符号串 ξi 到 ξi+1 的 n ( n ≥ 1) 步推导或派生。 用
G
的自反和传递闭包,即由(N ∪ Σ)*上的符 号串 ξi 到 ξi+1 经过n ( n ≥ 0)步推导或派生。
⇒ (派生)表示 ⇒
G
G
∗
NLPR, CASIA
2005-3-11
6
3.1 几个基本概念
(2) 符号串集合的乘积 设A, B是符号串的集合,则A, B的乘积定义为:
NLPR
AB = {xy | x ∈ A, y ∈ B}
相应地,A0= {ε}, An=An-1A=AAn-1 例如: 设A={aa, bb}, B={cc, dd, ee},则 AB={aacc, aadd, aaee, bbcc, bbdd, bbee} A2={aaaa, aabb, bbaa, bbbb}
NLPR, CASIA
2005-3-11
18
3.2 形式语言
q 句型与句子
NLPR
一些特殊类型的符号串为文法 G=(N, Σ, P, S) 的句子形式 (句型): (1) S 是一个句子形式; (2) 如果 αβγ 是一个句子形式,且 β → δ 是 P 的产生式, 则 αδγ 也是一个句子形式; 文法 G 的不含非终结符的句子形式称为 G 生成的句子。 由文法 G 生成的语言,记作 L(G),指 G 生成的所有句子的集 合。即: L(G) = {x | x ∈ Σ, S