基于主动学习的中文依存句法分析
基于深度学习的中文句法分析研究
基于深度学习的中文句法分析研究
随着人工智能技术的不断发展,深度学习技术在自然语言处理领域中的应用变得越来越广泛,其中中文句法分析是其重要应用之一。中文句法分析是自然语言处理中的重要研究领域之一,它能够帮助我们更好地理解句子的结构,从而提高自然语言处理的精度和效率。本文将介绍基于深度学习的中文句法分析的相关研究,并讨论其应用和挑战。
一、中文句法分析
中文句法分析是指对中文句子结构的分析和描述,它旨在识别句子中的各个成分及其之间的关系,并生成句法树或依存句法图等结构。中文句法分析的主要任务包括分句、词性标注、命名实体识别、句法分析等。其中,句法分析是最基础、最重要的任务之一。
传统的中文句法分析方法主要依靠规则和规则集,这种方法需要人工编写大量的规则,而且规则集不够完善,由此导致的误判率难以避免。相比之下,深度学习技术在中文句法分析领域取得了巨大的进展。
二、基于深度学习的中文句法分析技术
基于深度学习的中文句法分析技术主要分为两类:序列标注模型和深度神经网络模型。序列标注模型包括基于条件随机场(CRF)和递归神经网络(RNN)的模型,它们主要通过标注全局特征来生成结构化的结果。深度神经网络模型则包括了基于卷积神经网络(CNN)和递归神经网络(RNN)的模型,它们通过学习隐含表征来推断结构化结果。
其中,基于递归神经网络的模型在句法分析中应用最为广泛。这种模型将句子表示为一个树形结构,从而利用语法规则来预测句法关系,该模型的主要优点是能够处理复杂的结构和依赖关系,并具有很好的泛化性能。基于递归神经网络的模型
中文预训练 bert 中文语法
中文预训练 bert 中文语法
中文预训练BERT(Bidirectional Encoder Representations
from Transformers)是一个基于Transformer架构的深度学习模型,
通过预训练和微调的方式,可以在各种中文语言任务上取得出色的表现。在这篇文章中,我们将重点讨论BERT在中文语法方面的应用。
BERT的预训练模型采用了无监督的方式,利用大规模的中文文本
数据进行训练。通过两个任务来预训练模型:掩码语言模型和下一句
预测。对于掩码语言模型任务,BERT会随机选择一些位置并掩盖掉对
应的词汇,然后通过上下文中的其他词汇来预测这些被掩盖的词汇。
这个任务能够使BERT学会理解词汇在上下文中的语义关系。而下一句
预测任务则是通过判断两个句子是否是连续的,来让BERT学习句子间
的语义关系。
BERT在中文语法任务中的应用主要可以分为三个方面:词性标注、依存句法分析和语义角色标注。
首先是词性标注,词性标注是对文本中的每个词语标注其所属的
词性类别的任务,例如动词、名词、形容词等。BERT可以通过将文本
输入预训练模型中,然后利用其对词汇在上下文中的理解能力来完成词性标注任务。通过预测每个词汇对应的词性,BERT能够更好地理解词汇在句子中的语法角色。
其次是依存句法分析,依存句法分析是指对句子中的每个词语建立其与其他词语之间的依赖关系。例如,主谓关系、动宾关系等。BERT可以通过将句子输入预训练模型中,然后利用其对句子结构的理解能力来完成依存句法分析任务。通过预测每个词语与其他词语之间的依存关系,BERT能够更好地理解句子的语法结构。
基于依存句法树方法的微博文本的情感分析研究
基于依存句法树方法的微博文本的情感分析研究
作者:王彬菁
来源:《电脑知识与技术》2019年第24期
摘要:随着移动互联技术的发展,微博作为一种新媒体形式日益成为国内主流的移动社交媒体平台。微博包含海量的信息数据且数据种类多样,即有文档文本数据,也有图片、表情符号、视频动画等非结构化的数据。因此,对各政府部门和企业单位的网络舆情监管提出了艰巨的挑战,有关中文微博文本的情感分析的研究也成为近几年数据挖掘领域的关注方向之一,情感分析研究主要围绕着信息的抽取和情感倾向的判定,均离不开对微博文本的分词工作。本文提出了一种基于依存句法树的情感分析方法。根据不同的词汇间的依存关系,制定了相应的情感短语削减规则。通过分析不同程度词和否定词对情感词的修饰和组合关系,制定了不同的汇聚规则。使用LTP-Cloud(语言技术平台云)进行句法分析,构建依存句法树,通过对句法树的后序遍历逐步汇聚情感向量。使用了为情感值取绝对值的情感判别方法,得到最终的情感类别。
关键词:微博文本;依存句法树方法;情感分析;LTP-Cloud(语言技术平台云)
中图分类号:G642; ; ; ; 文献标识码:A
文章编号:1009-3044(2019)24-0013-03
开放科学(资源服务)标识码(OSID):
近些年,随着移动互联技术的迅猛发展和日益成熟,移动互联技术已然进入社会大众的生活,并且逐渐改变着我们的消费方式、沟通交往方式;其中,微博作为一种成熟的新媒体形式已经成为国内最大的移动社交媒体平台。根据中国互联网络信息中心(CNNIC)最新发布的第41次《中国互联网发展情况统计报告》显示,截至2017年12月底,中国网民规模已经达到7.72亿,这其中手机用户的占比为97.5%,手机成为网民上网的主要终端设备[1]。这些网民获得信息的方式又主要通过微博,微信,各类手机APP,移动社会化的传播格局逐步形成,微博作为承载信息发布,互动交流功能的社交媒体平台已经被社会大众所熟知和使用。据《2017年微博用户发展报告》显示,截至2017年9月,微博月活跃人数共计3.97亿,日活跃1.65亿,[1]用户的使用习惯趋向移动化,微博讨论方式碎片化,强调高社交粘性的互动方式,这些特性吸引着年轻群体,他们在微博上表达带有个人喜好的观点和看法,对网络舆论的传播具有重大影响。所以,微博应该成为各级政府机构和企业关注的舆论阵地,积极引导正面舆论,及时监控不良的舆论导向。
基于主动学习的中文依存句法分析
探索自然语言处理技术中的依存句法分析方法与应用
探索自然语言处理技术中的依存句法分析方
法与应用
自然语言处理(Natural Language Processing,NLP)是人工智能领域中的重要研究方向之一。在NLP中,依存句法分析是一项关键技术,用于分析句子中单词之间的依赖关系,以及句子中各个部分在语法结构中的作用。本文将探索自然语言处理技术中的依存句法分析方法与应用。
一、依存句法分析方法
1. 传统的依存句法分析方法
传统的依存句法分析方法主要基于语言学规则和人工设计的特征模板。这些方法需要依赖大量的手工标注数据,并且对不同的语言和语境难以泛化。其中一些经典的传统方法包括基于图的方法(如依存图分析和依存图转移分析)和基于转换的方法(如Shift-Reduce转换和Arc-Standard转换)。
2. 基于机器学习的依存句法分析方法
随着机器学习方法在自然语言处理中的应用不断深入,基于机器学习的依存句法分析方法逐渐兴起。这些方法将依存句法分析任务转化为一个机器学习问题,通过学习从输入的句子到输出的依存树之间的映射关系来完成。
2.1. 基于特征的方法
基于特征的方法使用诸如词性、句法性质、上下文等信息作为特征,并通过训练一个分类模型来预测依存关系。其中一种常用的方法是基于支持向量机(Support Vector Machine,SVM),它通过找到一个能够最大化正负样本间的间隔的超平面来进行分类。
2.2. 基于神经网络的方法
近年来,基于神经网络的依存句法分析方法取得了显著的进展。这些方法主要通过将自然语言处理任务建模为神经网络的学习过程,利用深层神经网络模型来提取句子中的上下文信息,并预测最佳的依存关系。其中一种常见的方法是基于循环神经网络(Recurrent Neural Network,RNN)和长短期记忆(Long Short-Term Memory,LSTM)的模型。
中文复杂名词短语依存句法分析
优先出版 计 算 机 应 用 研 究 第32卷
--------------------------------
基金项目:国家自然科学基金项目(61173095),国家自然科学基金重点项目(61133012)
作者简介:陈永波(1990-),男,山东禹城人,硕士研究生,无,主要研究方向为自然语言处理、句法分析、机器学习等(chenyongbo1990@);汤昂昂(1990-),男,硕士研究生,无,主要研究方向为自然语言处理、信息检索、机器学习等;姬东鸿(1967-),男,博士,博导,主要研究方向为自然语言处理、语义网技术、机器学习、数据挖掘等; .
中文复杂名词短语依存句法分析 *
陈永波,汤昂昂,姬东鸿
(武汉大学 计算机学院,武汉 430072)
摘 要:针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM 相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器。算法分析效率更高,时间复杂度为O (n2logn )。
关键词:中文复杂名词短语;依存句法分析;决策式算法;支持向量机;特征 中图分类号:TP391.1 文献标志码:A
Dependency parsing of Chinese complex nominal phrase
基于依存句法分析的汉语韵律层级自动预测技术研究
文 章 编 号 : 0 30 7 (0 8 0 —1 60 1 0 ~0 7 2 0 ) 20 1—8
基 于 依 存 句 法 分 析 的 汉 语 韵 律 层 级 自动 预 测 技 术 研 究
邵 艳 秋 穗 志方 韩 纪 庆 吴 云 芳 , , ,
(.北 京 大 学 计 算 语 言 学 研 究 所 , 京 1 0 7 ; 1 北 0 8 1 2 .哈 尔滨 工 业大 学 计算 机 科 学 与 技 术 学 院 , 龙 江 哈 尔 滨 10 0 ) 黑 50 1
维普资讯 http://www.cqvip.com
第 2 2卷
第 2期
中文信 息学报
J 0U RNAL 0F CH I NES NF0RM ATI EI ON PROC SHale Waihona Puke BaiduNG ES I
Vol I 22, NO 2 .
M a. r ,20 8 0
20 0 8年 3月
2 Sc olo m put inc n c olgy, H a b n I tt e o c no o . ho fCo erSce e a d Te hn o r i ns iut fTe h l gy,
Ha bn,Heln j n 5 0 1 ri i gi g 1 0 0 ,Chn ) o a ia
摘 要 :不 同 的韵 律 层 级 可 以将 文 本 划 分 成 适 合 朗 读 与 理 解 的韵 律 组 块 , 而 保 证 合 成 语 音 能 够 以 自然 的 节奏 表 从
人工智能基础测试题及答案
人工智能基础测试题及答案
1、出现过拟合时,模型对已知数据预测得很好,但对未知数据预测得很差。而应对过拟合的最优方案就是()。
A、获取更多的训练数据
B、调节模型允许存储的信息量
C、对模型允许存储的信息加以约束
D、L2正则化
答案:A
2、基于词典的中文分词方法中,针对同一个输入句子,通常以下哪种切分方法输出的词最多
A、完全切分
B、正向最长匹配
C、逆向最长匹配
D、双向最长匹配
答案:A
3、用于产生词嵌入的单向语言模型是哪个
A、bert
B、elmo
C、gpt
D、bilstm
答案:C
4、以下哪个选项符合自然语言特点
A、容错性低
B、非结构化
C、歧义性低
D、词汇量小
答案:B
5、句法分析的目标是:
A、将实体词对应到实例
B、识别句子中潜在的实体词
C、识别句子的句法结构
D、识别句子中的主题词
答案:C
6、BERT在实现一次常规的文本蕴含任务时,需要输入几条文本
A、1
B、2
C、3
D、4
答案:B
7、以下关于自然语言生成任务的说法错误的是:
A、自然语言生成任务能够增加对话的趣味性。
B、自然语言生成任务不能通过截取问题的部分与答案进行组装的方法来实现。
C、自然语言生成任务能够提升交互的友好性和自然度。
D、可以通过设计回复模板填槽来实现自然语言的回复。
答案:B
8、对于一个已有数据集,增加其数据的个数,使其有更多的多样性的操作是()。
A、批量化
B、随机抽取
C、数据增强
D、复制
答案:C
9、下列基于回归的文本检测方法为?
A、Textbox算法
B、PixelLink算法
C、MSR算法
D、PSENet算法
答案:A
10、KBQA面临的挑战不包括:
类聚大数据-“类聚NLP依存句法分析技术”技术方案
山东我行“类聚NLP依存句法分析技术”技术方案
近日,山东我行信息技术有限公司委托省级科技查新咨询单位对公司自行研发的“类聚NLP依存句法分析技术”进行三项科技查新,科技查新机构给出的查新结果为“经检索,目前国内未见有与本项目查新点相同的文献报道”,该查新结果说明“类聚NLP依存句法分析技术”达到国内先进水平.
我行公司研发的“依存句法分析技术"是对自然语言进行自动分析构建句子对应的依存树的一种方法,是自然语言处理重要的一部分,句法分析可以提高信息检索和抽取的准确性,对机器准确把握句子的语意有很大的作用。类聚NLP依存句法分析实现了给定句子,自动分词、标注词性、分析句子中对象之间的相互依存关系。
类聚NLP依存句法分析提供了两种句法分析的实现方式,分别为:最大熵依存句法分析器和基于CRF序列标注的中文依存句法分析器。
最大熵属于辨识模型,能够满足所有已知的约束, 对未知的信息不做任何过分的假设。最大熵依存句法分析器是一个判决式汉语句法分析器,基于最大熵模型和最大生成树模型,实现了中文依存句法的自动分析。采用条件概率模型估计任意两个单词之间最可能的依存关系以及概
率,将概率的值取对数取相反数作为累积概率,使用最小生成树算法计算出全局最小的生成树。
CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。基于CRF序列标注的中文依存句法分析器内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法,分析速度是最大熵依存句法分析器的两倍.把依存对象之间的关系转化成带词性的偏移关系,然后根据语料的特征,用CRF训练模型。句子通过该模型可以转化得到依存对象,在根据词性关系组合概率,选取最大可能的依存关系。
基于依存句法分析与五防操作规范的变电运行操作知识图谱构建
科技风 "#"$ 年 $# 月
基于依存句法分析与五防操作规范的
变电运行操作知识图谱构建
马文杰5何子嗣5吴颖俐5刘 杰5刘园媛5陈 舟
国网湖北省电力公司检修公司!湖北武汉!"#$$'$
摘5要为了保证电力系统的安全可靠运行电气设备需要严格按照安全操作规程并在出现故障之后能够及时有效 地做出应对措施然而在集控站负责运行调度的条件下面对海量的电网调控需求则需要变电站运行人员及时准确地做 出应对措施 为了满足以上需求本文对变电站调度运行规范进行分析和知识抽取利用五防规则对其进行指导调整并 基于 CVZWr=r形成变电站调度运行规范知识图谱为运行人员提供直观智能的信息展示与解决方案指wenku.baidu.com通过实例证明 了本方法的有效性
%/ :&2Q1&5R&B1+15:0J123515F10K1&5F10J0/270/25?(&2B()0
*949,P70?E=I,0O/,19701 F2Y,732><4-: H40-9,-4-1,32><4-:!E=I,0Z=+4-!"#$$'$
<8+'-/4'#- ZV\YVWZY-U]VYWTYUD^YD-\ VYX/D[XYZaYVDW/Z- Z^WTYaZbYVU`UWY9YXY,WV/,DXYe]/a9Y-W-YY\UWZUWV/,WX`^ZXXZb WTYUD^YZaYVDW/-=aVZ,Y\]VYUD-\ [YD[XYWZVYUaZ-\ aVZ9aWX`D-\ Y^^Y,W/_YX`D^WYV^D/X]VYU&PZbY_YV]-\YVWTY,Z-\/W/Z- WTDWWTY ,Y-WVDX/NY\ ,Z-WVZXUWDW/Z- /UVYUaZ-U/[XY^ZVWTYZaYVDW/Z- D-\ U,TY\]X/-=/W^D,YUDXDV=Y-]9[YVZ^CZbYV=V/\ VY=]XDW/Z- -YY\UVY2 e]/VYU][UWDW/Z- ZaYVDWZVUWZ9D.YW/9YX`D-\ D,,]VDWYVYUaZ-UY9YDU]VYU&#- ZV\YVWZ9YYWWTYD[Z_YVYe]/VY9Y-WUWT/UDVW/,XYD-D2 X`NYUD-\ YIWVD,WU.-ZbXY\=YZ^U][UWDW/Z- \/UaDW,T/-=ZaYVDW/Z- UaY,/^/,DW/Z-U]UYUWTY^/_YaVY_Y-W/Z- V]XYUWZ=]/\YD-\ D\+]UWU WTY9D-\ ^ZV9UD.-ZbXY\=Y9Da Z^U][UWDW/Z- \/UaDW,T/-=ZaYVDW/Z- UaY,/^/,DW/Z-U[DUY\ Z- CVZWr=raVZ_/\/-=ZaYVDWZVUb/WT /-W]2 /W/_YD-\ /-WYXX/=Y-W/-^ZV9DW/Z- \/UaXD`D-\ UZX]W/Z-URTYaVZ=VD9=]/\D-,YTDUaVZ_Y\ WTYY^^Y,W/_Y-YUUZ^WT/U9YWTZ\ WTVZ]=T YI2 D9aXYU&
基于动作建模的中文依存句法分析
Ch n s pe d nc r i s d o to o e i i e e De n e y Pa sng Ba e n Ac i n M d lng
DUAN a g y Xin — u,ZHAO u J n,XU Bo
维普资讯 http://www.cqvip.com
第 2 卷 1
第 பைடு நூலகம் 期
中文 信息 学 报
J OURNAL OF CHI NES NFORM ATI EI ON PROCES I S NG
Vo . 2 ,No 1 1 .5
Se , 2 7 p. 00
20 0 7年 9月
避 免 原 决 策 式 依 存 分 析 方 法 的 贪 婪 性 。试 验 结 果 显 示 , 于动 作 建模 的 依 存 分 析 模 型 在 性 能 上 好 于 原 决 策 式 依 存 基
分 析 方 法 , 时保 持 了 较 低 的 时 间 复 杂度 。 同
关 键 词 : 算机 应 用 ; 文信 息 处 理 ; 文依 存 句 法 分 析 ; 策 式 依 存 分析 ; 作 建 模 计 中 中 决 动
(n tt t fAu o t n,Chn s a e fS in e ,B in 0 0 0,Chn ) Isiu eo tmai o ie eAcd myo ce cs ej g 1 0 8 i ia 一
基于句法分析与依存分析的评价对象抽取
Ke r s o ii iig sn c c n ls ; eed ne n l i o i o jc;k l o drt s y wod :pno m nn ;y t t a i d pn e c a s ; pn no etl e h o - it t n a ia y s a ys i b i i ao e
a e v l t nojc et c o to . hs eh d s ae n e C P r r y t t a s n e ed ne w e a ai bet xr t nme d T i m t sdo T as na ia l ia d Rd pn e c n u o ai h o ib h t I e s cc n ys I aa s , d ps h kl o dtsn to s osr niea v add t o i o bet T e x e me t sl nl i a ot tel e h o t gme d e rl iecn i e pn nojcs h pr n l eut ys i i ei h t ce r t a i . e i ar s
性。
关键 词:意见挖掘;句法分析 ;依 存分析 ;评价对象;似然值检 验
依存语法句法分析的首要任务就是确...
谨以此文献给我的导师徐建良教授,我的父母及所有帮助、关心和支持过我的朋友。
------------ 王圆圆
基于机器学习的汉语依存句法分析优化研究
学位论文答辩日期:
指导教师签字:
答辩委员会成员签字:
独创声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含未获得(注:如没有其他需要特别声明的,本栏可空)或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:签字日期:年月日---------------------------------------------------------------------
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,并同意以下事项:
1、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。
2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中国学术期刊(光盘版)电子杂志社”用于出版和编入CNKI《中国知识资源总库》,授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授权书)
学位论文作者签名:导师签字:
签字日期:年月日签字日期:年月日
基于机器学习的汉语依存句法分析优化研究
基于依存句法分析和汉语语法的多轮语义分析方法[发明专利]
专利名称:基于依存句法分析和汉语语法的多轮语义分析方法专利类型:发明专利
发明人:周红,刘楚雄
申请号:CN202010934684.8
申请日:20200908
公开号:CN111984778B
公开日:
20220603
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于依存句法分析和汉语语法的多轮语义分析方法,其特征在于,包括:定义知识图谱实体数据,构成实体库;对文本进行分词得到的词语在不同领域、不同意图下出现的总次数,构成准实时词库;在不同领域、不同意图下分别采用依存句法分析将准实时词库的词语形成一个个短语,并将短语出现的次数按照记忆曲线的规律变化,形成短语的频次;统计同一短语在不同领域下的频次,得到短语在不同领域下的关联程度,得到短语意图搜索库;对用户输入进行多轮语义解析,得到用户意图。本发明利用句法树和汉语言语法重组和重排多轮语句,进而判断领域意图,能够识别多轮任务型对话意图。
申请人:四川长虹电器股份有限公司
地址:621000 四川省绵阳市高新区绵兴东路35号
国籍:CN
代理机构:四川省成都市天策商标专利事务所(有限合伙)
代理人:张秀敏
更多信息请下载全文后查看
自然语言处理中的依存句法分析技术解析
自然语言处理中的依存句法分析技术解析
自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、处理和生成人类语言。依存句法分析是NLP中的一项核心技术,它通过分析句子中词语之间的依存关系,帮助计算机理解句子的结构和意义。
依存句法分析的目标是确定句子中每个词语与其他词语之间的依存关系,并将这些关系表示为一个依存树。依存树是一个有向无环图,其中每个词语作为一个节点,依存关系作为边连接。通过分析依存树,我们可以了解句子中词语之间的语法关系,如主谓关系、动宾关系等,从而更好地理解句子的语义。
依存句法分析技术主要分为两类:基于规则的方法和基于统计的方法。基于规则的方法是通过人工定义一系列语法规则和转换规则来进行依存句法分析。这种方法需要专家对语言的深入理解,并且需要大量的规则来覆盖各种句子结构。然而,由于语言的灵活性和多样性,基于规则的方法在处理复杂的句子时往往效果不佳。
相比之下,基于统计的方法通过机器学习算法自动从大规模语料库中学习句子的依存关系。这种方法不需要人工定义规则,而是通过统计模型来预测句子中词语之间的依存关系。目前,基于统计的方法在依存句法分析领域取得了很大的突破,成为主流的技术路线。
在基于统计的方法中,最常用的模型是依存句法分析器。依存句法分析器使用机器学习算法从标注好的依存树数据中学习依存关系的模式,并将这些模式应用于新的句子中进行分析。常用的依存句法分析器包括基于转移的依存句法分析器和基于图的依存句法分析器。基于转移的依存句法分析器通过一系列转移动作逐步构建依存树,而基于图的依存句法分析器则通过图算法在整个句子上进行分析。
自然语言处理中常见的句法分析工具(七)
自然语言处理中常见的句法分析工具
自然语言处理(Natural Language Processing,简称NLP)是一门涉及计算机科学、人工智能和语言学的跨学科领域,旨在使计算机能够理解、解释和处理人类语言。在NLP中,句法分析是其中一个重要的环节,它旨在理解句子中单词之间的关系,从而对句子的结构和语法进行分析。在本文中,我们将介绍一些常见的句法分析工具,并探讨它们的优缺点及应用场景。
1. 依存句法分析工具
依存句法分析(Dependency Parsing)是一种基于句子中单词之间的依存关
系来分析句子结构的方法。它通过识别句子中单词之间的依存关系,建立一个依存关系树,从而揭示句子中单词之间的语法关系。依存句法分析工具的一个常见应用是在机器翻译中,通过分析句子中单词之间的依存关系,可以更准确地进行翻译。
目前,有一些开源的依存句法分析工具,如Stanford Parser、Spacy等。
这些工具在处理英文句子时表现较好,但在处理中文句子时性能有所下降。因为中文语言的特殊性,依存句法分析在处理中文句子时需要考虑到词序和词性等因素,因此在中文NLP领域,还需要进一步改进和优化依存句法分析工具。
2. 短语结构句法分析工具
短语结构句法分析(Constituency Parsing)是另一种常见的句法分析方法,它通过分析句子中的短语结构来推断句子的语法结构。在短语结构句法分析中,句子被分解成各种短语,如名词短语、动词短语等,然后通过短语之间的嵌套关系来
表示句子的结构。短语结构句法分析在语法分析和语义分析中有着广泛的应用,特别是在问答系统和信息检索系统中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2期
车 万 翔 Biblioteka Baidu :基 于 主 动 学 习 的 中 文 依 存 句 法 分 析
19
低 ,说 明 学 习 器 尚 不 能 很 好 区 分 此 样 本 ,即 学 习 器 缺 乏此样本含有的信息。此时将该样本进行人工标注 并加入训练集会对学习器精度的提升有很大帮助。 对 于 分 类 置 信 度 高 的 样 本 ,不 再 人 工 标 注 ,从 而 免 除 了在冗余样本上耗费人力。这类学习算法的重点是 构造一种合理有效 的 不 确 定 性 度 量 机 制,以 此 来 指 导样本选择。
(哈尔滨工业大学 计算机学院 社会计算与信息检索研究中心,黑龙江 哈尔滨 150001) 摘 要 :目 前 依 存 句 法 分 析 仍 主 要 采 用 有 指 导 的 机 器 学 习 方 法 ,即 需 要 大 规 模 高 质 量 的 树 库 作 为 训 练 语 料 ,而 现 阶 段中文依存树库资源相对较少,树库标注又是一件 费 时 费 力 的 工 作。 面 对 大 量 未 标 注 语 料,该 文 将 主 动 学 习 应 用 到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提 出 并 比 较 了 多 种 衡 量 依 存 句 法 模 型预测可信度的准则。实验表明,一方面,与随机选 择 标 注 实 例 相 比,当 使 用 相 同 数 目 训 练 实 例 时,主 动 学 习 使 中 文依存分析性能最高提升0.8%;另一方面,主动学习使依 存 分 析 达 到 相 同 准 确 率 时 只 需 标 注 更 少 量 实 例 ,人 工 标 注 量 最 多 可 减 少 30% 。 关 键 词 :主 动 学 习 ;依 存 句 法 ;不 确 定 性 度 量 ;委 员 会 投 票 中 图 分 类 号 :TP391 文 献 标 识 码 :A
基于委员会投票的样本选择需要构建一组分类 器,这 些 分 类 器 可 以 是 用 不 同 的 训 练 算 法 得 到 (SVM、MaxEnt等 ),也 可 以 是 用 同 种 训 练 算 法 对 样 本从不 同 的 特 征 角 度 训 练 得 到 (Multi-view active learning[3])。基于委员会投票的方法优先 选 择 各 分 类器投票结果最不一致的样本进行人工标注。投票 熵 (Vote Entropy,Dagan and Engelson,1995)和 相 对熵 (KL divergence to the mean,Pereira et al., 1993)是两 种 最 常 用 的 度 量 投 票 结 果 差 异 的 方 法。 熵 值 越 高 ,说 明 投 票 差 异 越 大 ,该 样 本 越 应 该 加 入 到 训练集 。 [4]
Abstract:It is necessary to have a large annotated Treebank to build a statistical dependency parser.Acquisition of such a Treebank is time consuming,tedious and expensive.This paper presents a method to reduce this demand via active learning,which selects the most uncertain samples for annotation instead of the whole training corpus. Experiments are carried out on the HIT-CIR-CDT,our results show that the parsing accuracy rises about 0.8 percent by active learning when using the same amount of training samples.In other words,for about the same parsing accuracy,we only need to annotate 70% of the samples as compared to the usual random selection method. Key words:active learning;dependency parsing;uncertainty-based sampling;query-by-committee
本文 内 容 组 织 为,第 二 部 分 介 绍 依 存 句 法 分 析 相关概念和基于图 的 依 存 分 析 算 法;第 三 部 分 介 绍
主动学习的算法流 程,其 中 详 细 讨 论 了 如 何 衡 量 依 存 句 法 模 型 的 预 测 可 信 度 ;第 四 部 分 是 实 验 ;第 五 部 分给出结论和下一步工作。
Active Learning for Chinese Dependency Parsing
CHE Wanxiang,ZHANG Meishan,LIU Ting (Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)
国外学者已经将主动学习应用到诸多自然语言 处理相 关 的 任 务 中,比 如 信 息 抽 取 (Thompson et al.,1999)、文本 分 类 (McCallum and Nigam,1998) 和 基 于 短 语 结 构 的 句 法 分 析 (Thompson et al., 1999;Hwa,2000)[5-6]等。 在 国 内,清 华 大 学 覃 刚 力、北京理工大学宋 鑫 颖 等 将 主 动 学 习 应 用 到 文 本 分类上[7-8];中国科 技 大 学 冯 冲、上 海 交 通 大 学 陈 霄 分别用最大熵模型和支持向量机模型将主动学习应 用到组织机 构 名 识 别 中,并 取 得 了 一 定 效 果 。 [9] 就 作者所掌握的文献,目 前 还 没 有 将 主 动 学 习 和 中 文 依存句法的训练过程相结合的研究。在应用最大熵 或者支持向量机模型进行预测的自然语言处理任务 中 ,前 者 可 以 得 到 每 个 样 本 属 于 某 一 类 别 的 概 率 ,后 者可以得到每个样本到分类超平面的距离。这些预 测任务的置 信 度 比 较 容 易 获 得,比 如 基 于 SVM 的 文本分类中距离分类超平面最近的样本置信度就比 较低等。基于短语结构的句法分析可以根据每个产 生式的概率计算最 终 生 成 的 短 语 结 构 树 的 概 率,并 利用此概率值进行 各 种 可 信 度 计 算;而 依 存 句 法 通 过 Online算法训练权值,最终求一棵权值最大的 生 成 树 ,很 难 得 到 生 成 树 的 概 率 ,原 有 的 基 于 短 语 结 构 的可信度 度 量 方 法 也 就 不 能 直 接 应 用 到 依 存 分 析 上 。 因 此 ,本 文 尝 试 将 主 动 学 习 应 用 到 依 存 分 析 上 , 并尝试了多种衡量依存句法模型预测可信度的准则。
标注,然后加入 训 练 集 重 新 训 练。 由 于 优 先 选 择 的 是最具训练效用的 样 本,所 以 减 少 了 那 些 对 提 高 学 习器精度帮助不大 的 冗 余 样 本 的 标 注,因 而 学 习 器 只需更少的样本便能获得相同精度 。 [1-2]
目前最广泛使用的主动学习方法有基于不确定 性度 量 (Uncertainty-based Sampling)和 基 于 委 员 会投票(Query-by-committee)两种 。 [1]
1 引 言
在统 计 学 习 的 模 型 训 练 过 程 中,按 照 对 训 练 实 例的处理方式,可 将 学 习 过 程 分 为 两 类:主 动 学 习 和被动学习。被动 学 习 是 随 机 地 选 择 训 练 实 例,被 动地接受 这 些 样 本 信 息。 主 动 学 习 与 被 动 学 习 不 同,它是迭代地从未 标 注 语 料 中 优 先 选 择 最 富 含 有 效 信 息 的 实 例 (即 当 前 模 型 预 测 最 不 准 的 )交 由 人 工
第 26 卷 第 2 期 2012 年 3 月
中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSING
文 章 编 号 :1003-0077(2012)02-0018-05
Vol.26,No.2 Mar.,2012
基于主动学习的中文依存句法分析
车万翔,张梅山,刘 挺
基于图的依存分析算法是目前性能最高的依存 分析方法之一。
3 基 于 主 动 学 习 的 中 文 依 存 句 法 分 析
本文将主动学习应用到基于图的依存句法训练 过 程 中 ,具 体 的 算 法 流 程 如 下 。
L:人 工 标 注 后 的 实 例 (句 法 依 存 树 库 )
U:未 标 注 的 实 例 (已 经 过 分 词 和 词 性 标 注 的 句 子 ) C:当前已标注实例训练得 到 的 模 型(基 于 图 的 依 存 分
基于不确定性度量的样本选择根据学习器对未 标注样本的分类置信度来进行。样本分类置信度越
收 稿 日 期 :2011-09-20 定 稿 日 期 :2011-12-21 基金项目:国 家 自 然 科 学 基 金 重 点 项 目 (61133012);国 家 自 然 科 学 基 金 资 助 项 目 (60803093);国 家 863 重 大 项 目 (2011AA01A207);核高基重大专项(2011ZX01042-001-001);哈尔 滨 工 业 大 学 科 研 创 新 基 金 (HIT.NSRIF.2009069);中 央 高 校 基 本 科 研 业 务 费 专 项 资 金 (HIT.KLOF.2010064) 作者简介:车万翔(1980—),男,讲师,主要研究方向为自然语言处理;张梅山(1983—),男,博士研 究 生,主 要 研 究 方 向 为 自 然 语 言 处 理 ;刘 挺 (1972— ),男 ,教 授 ,主 要 研 究 方 向 为 自 然 语 言 处 理 ,信 息 检 索 。
析器训练) Φ:衡 量 实 例 可 信 度 的 函 数 Batch-Size:每 轮 主 动 学 习 挑 选 实 例 的 个 数 初始化:
Eisner算 法 以 span 为 解 码 的 基 本 单 位,span 表示输入句子的一个片段对应的子树。与组块不同 的是,span 中 的 核 心 词 只 能 位 于 片 段 首 或 尾,即 span只包 括 了 这 个 词 左 边 或 者 右 边 的 子 孙 节 点。 另外,除核心词外的 另 外 一 个 片 段 首 或 尾 词 的 修 饰 成分可以是不完整的,即span可以不包括这个 词左 边的子孙节点或者右边的子孙节点。对于其他词, span包括它们 所 有 的 子 孙 节 点。span 的 这 种 特 性 使得解码算法独立地确定一个词左边的修饰成分和 右边的修饰成分,从而降低算法的复杂度 。 [10]
2 中 文 依 存 句 法 分 析
主动学习需要事先在小数据集上训练一个依存 句法分析器,用 来 对 未 知 样 本 进 行 可 信 度 预 测。 本 文采用基于图的依存分析算法来训练依存分析器, 以下简要介绍基于图的依存句法分析。
2.1 基 于 图 的 中 文 依 存 句 法 分 析
McDonald首先提出 将 依 存 分 析 问 题 归 结 为 在 一 个 有 向 图 中 寻 找 最 大 生 成 树 (Maximum Spanning Tree)的问题。边权使用 Online Learning 算法学习获得,解码使用 Eisner算法[11]。