机器学习与应用 第15讲-循环神经网络4
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
给定所有训练样本句子的标注序列,可以实现端到端的训练 预测时输入一个句子,输出标签序列,根据标签序列可以得到命名实体识别的结果
文本分类 序列分类问题,输入为词序列,输出为类别编码 输入的词 序列可以用one-hot编码,或者word2vec表示。循环神经网络最后一个时刻的输出值作为分类的结果, 此时汇集了文本所有的信息
机器翻译 给定一个输入句子a,对于另外一种语言所有可能的翻译结果b,计算条件概率p(b|a),概率最大的句子就是翻译 的结果
可以将机器翻译问题抽象成一个序列到另外一个序列的预测
x1,...,xm y1,...,yn
训练时的目标是对所有的样本最大化下面的条件概率
max p y1,...,yn x1,...,xm
自然语言处理简介 RNN在NLP中的应用简介 中文分词 词性标注 命名实体识别 文本分类 机器翻译
自然语言处理简介 理解和生成人类的语言
主要问题 中文分词 词性标注 命名实体识别 文本分类 自动摘要 自动问答 机器翻译
汉语句子的词之间没有类似英文的空格,需要根据上下文来完成对句子的切分 分词的任务是把句子切分成词的序列,即完成我们通常所说的断句功能
词性标注 确定一个句子中各个词的词性,它是和分词密切相关的一个问题
w1,...,wn s1,...,sn
输入序列是一个句子的单词序列,每个时刻的输入向量是单词的one-hot编码向量,网络的输出为单词属于某一类 词的概率,此时输出层可以采用softmax回归
v, n,a,...
训练完成之后,可以用这个模型来进行翻译,即寻找概率最大的输出序列
T arg maxT p T S
Kyunghyun Cho,Bart Van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares. Learning Phrase Representations using RNN Encoder--Decoder for Statistical Machine Translation. 2014, empirical methods in natural language processing
主要困难 歧义和未登录词
乒乓球拍卖了 李国庆节日在加班
基于词典匹配。正向匹配,反向匹配,双向匹配 词典匹配无法有效的处理未登录词问题,对歧义切分也只能简单使用长度最大的词去匹配。词典匹配可以看作 是解决分词问题的基于规则的方法 全切分路径技术。这种技术列出一个句子所有切分的方案,然后选择出最佳的方案。随着句子的增长,这种方 法的计算量将呈指数级增长
BN, MN, EN, BA, MA, EA, BO, MO, EO, O
BN表示这个字是人名的开始,MN表示人名的中间字,EN表示人名的结束;BA表示地名的开始,MA表示地名的 中间字,EA表示地名的结束;BO表示机构名称的开始,MO表示机构名称的中间字,EO表示机构名称的结束;O 表示这个字不是命名实体
用seq2seq技术解决机器翻译问题 对于所有可能的输出序列,我们都可以用解码器计算出它的条件概率值,在这里要寻找概率值最大的那个序列。如 果枚举所有可能的输出序列,计算量太大,显然是不现实的。在这里采用了集束搜索技术
训练样本是成对的句子,即源句子和它的翻译结果。训练的目标是最大化对数概率值
1/ D log pT S T ,S D
用seqห้องสมุดไป่ตู้seq框架实现机器翻译
编码器的输入为整个句子的所有词,最后以eos结尾,此时隐含层的状态向量为v 然后用解码器生成翻译的结果 首先将v和bos作为解码器的输入,得到输出向量,它表示选用每个词的概率 然后以选择的词和v作为解码器的输入,得到下一个词,如此反复
解码采用集束搜索算法实现
机器学习技术也被用于分词问题,采用序列标注的手段解决此问题。隐马尔可夫模型、条件随机场等方法为其 中的代表
分词可以看成是序列标注问题,将一个句子中的每个字标记成各种标签
B, M, E,S
B表示当前字为一个词的开始,M表示当前字为一个词的中间位置,E表示当前字为一个词的结束位置,S表示单 字词
我是中国人 我 是 中国人 我/S 是/S 中/B 国/M 人/E
命名实体识别(Named Entity Recognition,简称NER) 又称为专名识别,其目标是识别文本中有特定含义的实体,如人名、地名、机构名称、专有名词等,属于未登录 词识别的范畴 和其他自然语言处理问题相比存在的一个困难是训练样本的缺乏,因为未登录词很少有重复的,基本上都是新词
直接用序列标注的方法解决命名实体识别,思路和分词类似,要识别出句子里所有的专名词
文本分类 序列分类问题,输入为词序列,输出为类别编码 输入的词 序列可以用one-hot编码,或者word2vec表示。循环神经网络最后一个时刻的输出值作为分类的结果, 此时汇集了文本所有的信息
机器翻译 给定一个输入句子a,对于另外一种语言所有可能的翻译结果b,计算条件概率p(b|a),概率最大的句子就是翻译 的结果
可以将机器翻译问题抽象成一个序列到另外一个序列的预测
x1,...,xm y1,...,yn
训练时的目标是对所有的样本最大化下面的条件概率
max p y1,...,yn x1,...,xm
自然语言处理简介 RNN在NLP中的应用简介 中文分词 词性标注 命名实体识别 文本分类 机器翻译
自然语言处理简介 理解和生成人类的语言
主要问题 中文分词 词性标注 命名实体识别 文本分类 自动摘要 自动问答 机器翻译
汉语句子的词之间没有类似英文的空格,需要根据上下文来完成对句子的切分 分词的任务是把句子切分成词的序列,即完成我们通常所说的断句功能
词性标注 确定一个句子中各个词的词性,它是和分词密切相关的一个问题
w1,...,wn s1,...,sn
输入序列是一个句子的单词序列,每个时刻的输入向量是单词的one-hot编码向量,网络的输出为单词属于某一类 词的概率,此时输出层可以采用softmax回归
v, n,a,...
训练完成之后,可以用这个模型来进行翻译,即寻找概率最大的输出序列
T arg maxT p T S
Kyunghyun Cho,Bart Van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares. Learning Phrase Representations using RNN Encoder--Decoder for Statistical Machine Translation. 2014, empirical methods in natural language processing
主要困难 歧义和未登录词
乒乓球拍卖了 李国庆节日在加班
基于词典匹配。正向匹配,反向匹配,双向匹配 词典匹配无法有效的处理未登录词问题,对歧义切分也只能简单使用长度最大的词去匹配。词典匹配可以看作 是解决分词问题的基于规则的方法 全切分路径技术。这种技术列出一个句子所有切分的方案,然后选择出最佳的方案。随着句子的增长,这种方 法的计算量将呈指数级增长
BN, MN, EN, BA, MA, EA, BO, MO, EO, O
BN表示这个字是人名的开始,MN表示人名的中间字,EN表示人名的结束;BA表示地名的开始,MA表示地名的 中间字,EA表示地名的结束;BO表示机构名称的开始,MO表示机构名称的中间字,EO表示机构名称的结束;O 表示这个字不是命名实体
用seq2seq技术解决机器翻译问题 对于所有可能的输出序列,我们都可以用解码器计算出它的条件概率值,在这里要寻找概率值最大的那个序列。如 果枚举所有可能的输出序列,计算量太大,显然是不现实的。在这里采用了集束搜索技术
训练样本是成对的句子,即源句子和它的翻译结果。训练的目标是最大化对数概率值
1/ D log pT S T ,S D
用seqห้องสมุดไป่ตู้seq框架实现机器翻译
编码器的输入为整个句子的所有词,最后以eos结尾,此时隐含层的状态向量为v 然后用解码器生成翻译的结果 首先将v和bos作为解码器的输入,得到输出向量,它表示选用每个词的概率 然后以选择的词和v作为解码器的输入,得到下一个词,如此反复
解码采用集束搜索算法实现
机器学习技术也被用于分词问题,采用序列标注的手段解决此问题。隐马尔可夫模型、条件随机场等方法为其 中的代表
分词可以看成是序列标注问题,将一个句子中的每个字标记成各种标签
B, M, E,S
B表示当前字为一个词的开始,M表示当前字为一个词的中间位置,E表示当前字为一个词的结束位置,S表示单 字词
我是中国人 我 是 中国人 我/S 是/S 中/B 国/M 人/E
命名实体识别(Named Entity Recognition,简称NER) 又称为专名识别,其目标是识别文本中有特定含义的实体,如人名、地名、机构名称、专有名词等,属于未登录 词识别的范畴 和其他自然语言处理问题相比存在的一个困难是训练样本的缺乏,因为未登录词很少有重复的,基本上都是新词
直接用序列标注的方法解决命名实体识别,思路和分词类似,要识别出句子里所有的专名词