基于互信息的中文术语抽取系统
基于互信息和信息熵的新词提取
基于互信息和信息熵的新词提取## Information Gain & Mutual Information-Based Term Extraction.Term extraction refers to the identification and extraction of essential words or phrases, known as terms, from a given text. These terms represent the salient concepts and topics discussed within the text, making them crucial for tasks such as information retrieval, text summarization, and natural language processing.Mutual information (MI) and information gain (IG) are two fundamental measures used in information theory to quantify the relationship between two events or variables. In the context of term extraction, these measures can be utilized to identify terms that are highly informative and relevant to the text.### Term Extraction Using Mutual Information.Mutual information measures the level of association or dependency between two events. In term extraction, it calculates the relationship between a candidate term and the presence of specific keywords within the text. A term with a high mutual information with the keywords is likely to be a relevant and informative term.Calculating Mutual Information.The mutual information between a term `t` and a keyword `k` is given by:MI(t, k) = P(t, k) log(P(t, k) / (P(t) P(k)))。
基于混合策略的高精度长术语自动抽取
基于混合策略的高精度长术语自动抽取梁颖红;张文静;周德富【摘要】在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点.该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法.该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界.采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果.%For term recognition, the current precision of double word term has achieved 90.36% while the precision of multi word term is only 66.63%. To address the issue of multi word term recognition, this paper proposes a method of higher precision, which integrates the predominance of NC value parameter in long term recognition with the mutual information. The experimental result shows the precision, recall and F measure fo this method can reach 88.5%, 76.6% and 82.2%, respectively.【期刊名称】《中文信息学报》【年(卷),期】2009(023)006【总页数】5页(P26-30)【关键词】计算机应用;中文信息处理;术语抽取;NC-value;互信息【作者】梁颖红;张文静;周德富【作者单位】江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;东北林业大学,信息与计算机工程学院,黑龙江,哈尔滨,150040;江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104【正文语种】中文【中图分类】TP391术语自动抽取技术是信息处理中的一个重要课题[1]。
基于术语自动抽取的科技文献翻译辅助系统的设计
基于术语自动抽取的科技文献翻译辅助系统的设计黄政豪;崔荣一【期刊名称】《延边大学学报(自然科学版)》【年(卷),期】2017(043)003【摘要】设计了一种中韩科技信息综合平台中的翻译辅助系统.首先,依据关键词确定的组词特证获取候选术语,并使用互信息评估候选术语以实现术语自动提取.其次,将已有术语、抽取到的新术语、术语译文和历史翻译记录等信息存储到系统数据库中建立术语库.最后,设计翻译工作者的用户接口,使其通过该接口获取已有术语的译文信息、新术语的相似译文信息和译文记忆库为基础的历史翻译数据.测试结果表明,本文设计的术语自动抽取功能和辅助译文生成功能达到了预定的设计目标,术语自动抽取算法召回率达到61.8%,结合优化方法进行优化后达到66.9%;辅助译文生成平均延时为0.031 s,MRR为0.951,测试结果满足用户需求.【总页数】5页(P259-263)【作者】黄政豪;崔荣一【作者单位】延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002;延边大学工学院计算机科学与技术学科智能信息处理研究室,吉林延吉133002【正文语种】中文【中图分类】TP391.41【相关文献】1.两岸三地科技术语的翻译与规范——基于计算机术语的个案研究 [J], 裘禾敏2.基于统计和规则相结合的科技术语自动抽取研究 [J], 刘豹;张桂平;蔡东风3.石油装备科技文献计算机辅助翻译记忆库及服务系统建设方案探讨 [J], 马艳萍;刘英立4.基于“NUTERM术语库”的中国艺术学术语系统英译研究——术语翻译的系统经济律视角 [J], 赵连振5.基于科技英语特性的Trados辅助翻译系统的设计与实现 [J], 赵足娥;吴年利;李培隆因版权原因,仅展示原文概要,查看原文内容请购买。
互信息改进方法在术语抽取中的应用
互信息改进方法在术语抽取中的应用杜丽萍;李晓戈;周元哲;邵春昌【摘要】为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法.首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果.理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点.在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性.【期刊名称】《计算机应用》【年(卷),期】2015(035)004【总页数】6页(P996-1000,1005)【关键词】术语抽取;专业术语;知识获取;互信息【作者】杜丽萍;李晓戈;周元哲;邵春昌【作者单位】西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;中央民族大学理学院,北京100081【正文语种】中文【中图分类】TP391.1术语抽取在中文信息处理领域中是一项重要的基础性研究课题。
随着科技、经济、文化的快速发展,各个学科领域中的术语也发生了很大变化,为了及时了解学科的发展动态,术语抽取的需求应运而生。
术语抽取方法总体上有两种:基于规则的方法和基于统计的方法[1-2]。
目前,主流方法是将两者结合起来使用,即基于统计与规则相结合的方法。
统计部分通常是通过计算字串间的结合强度来判定两个字串是否可以组成一个术语[3]。
互信息改进方法在术语抽取中的应用
摘
要: 为了确定改进互信 息( P M I ) 方法的参数 取 何值 时能够克服 互信 息( P M I ) 方法过 高估 计 两个低频 且总
是 一起 出现 的 字 串间 结 合 强 度 的 缺 点 , 解 决 术语 抽 取 系统 采 用 经过 分 词 的语 料 库 时 由 于 分 词 错 误 导 致 的 某 些 术 语 无
o f t wo l o w一  ̄e q ue n c y wo r d s . To g e t t h e p r o p e r v a l ue o f k o f i mp r o v e d PMI n a me d PMI t o o v e r c ome t he s ho r t c o mi n g o f PM I , a n d s o l v e t h e p r o bl e m t ha t t he t e r m e x t r a c t i o n c a n no t b e o b t a i ne d f r o m a s e g me n t e d c or pu s wi t h s e g me nt a t i o n e r r o r s ,a s we l l a s
互 信 息 改 进 方 法 在 术 语 抽 取 中 的 应 用
杜丽萍 , 李晓戈 , 周元哲 , 邵春 昌
( 1 . 西安 邮电大学 计算 机学 院, 西安 7 1 0 1 2 1 ; 2 . 中央 民族大学 理学 院, 北京 1 0 0 0 8 1 ) ( 通信作者电子邮箱 l i x g @x u p t . e d u . c a )
关键 词 : 术语抽取 ; 专 业 术语 ; 知 识 获 取 ;互信 息 中 图分 类 号 : T P 3 9 1 . 1 文献标志码 : A
基于AJAX技术的中文术语抽取系统的设计与实现
基于AJAX技术的中文术语抽取系统的设计与实现张昭楠【摘要】From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology, the user point level system will Feiwei three interrelated subsystems, namely Chinese term extraction, Chinese custom extraction and based on user feedback the self-learning system, and the functions and tasks were divided into three subsystems. It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing, test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%, can recall It reached 78.84%, and in terms of humanization and human-computer interaction have gone to great innovation and improvement.%文中从用户需求的角度出发确定并设计实现了基于AJAX技术的中文术语抽取技术,在用户角度层面上将系统飞卫3个相互联系的子系统,即中文术语抽取、中文定义抽取和基于用户反馈的自学习系统,并且对3个子系统的功能和任务进行了划分。
一种基于统计技术的中文术语抽取方法
一种基于统计技术的中文术语抽取方法刘剑;唐慧丰;刘伍颖【摘要】中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。
文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。
%Chinese terminology extraction is a fundamental issue in Chinese text information processing. It has been applied in many other fields, such as Chinese text indexing and retrieval, text mining, ontology construction, and latent semantic analysis. Based on mutual information and information entropy theory, we proposed a semi-automatic Chinese terminology extraction method by statistical technology, and experimental y verified this method using internet news topic data. Our results show that proposed method can effectively support Chinese term extraction.【期刊名称】《中国科技术语》【年(卷),期】2014(000)005【总页数】5页(P10-14)【关键词】互信息;信息熵;中文术语抽取【作者】刘剑;唐慧丰;刘伍颖【作者单位】解放军外国语学院,河南洛阳471003; 中国科学院计算技术研究所,北京100190;解放军外国语学院,河南洛阳471003;解放军外国语学院,河南洛阳471003【正文语种】中文【中图分类】TP311;NO4;HO83术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。
基于 Web 的中英文术语自动抽取技术
作者签名: 日 期:
导师签名: 日 期:
摘
要
摘
要
术语广泛的存在于科技文档中,如何提取、分析、理解以至翻译这些术语 成为现在自然语言处理的一个研究方向。随着当今世界信息量的急剧增加和国 际交流的日益频繁,计算机网络技术迅速普及和发展,语言障碍愈加明显和严 重,对机器翻译的潜在需求也越来越大。双语术语散落在这些海量的互联网文 本数据中,靠人工进行检测和提取是不可想象的。本文所要解决机器翻译中如 何快速地对网络文本进行处理,从中抽取出较为准确的术语中英文互译候选, 以减轻人工筛选的工作量。 目前,双语术语的研究一般是运用句法分析或者引入双语词典的方法,实 现句子对齐,而后从对齐的句子运用算法,抽取互译词。而本文的基本思路是 在无监督的情况下,利用网络上大量存在的中英文术语互译信息,达到自动抽 取中英文术语候选的目的。我们通过对互联网上大量文本信息的观察,选取一 类符合规则的文本,针对文本建立一个语言模板,运用网络爬虫,抓取网页生 成网络文本语料库;而后,在 MapReduce 架构下对网络文本语料进行处理,抽 取符合该语言模板规定的大量中英文词对;对抽取出来的大量中英文双语术语 候选进行预处理,过滤掉部分噪声;对预处理后的数据运用多种优化的 LCS 算 法加以抽取,生成中英文双语术语互译词典,并对结果加以评测。 本文的研究工作主要包括在以下几个方面: 1. 在 MapReduce 架构下,对抓取的文本语料库数据快速处理,以获得所需 文本数据资源。 2. 设计了一套无监督的双语术语自动抽取软件系统,能较为及时准确地发 现并更新术语库。 3. 基于 LCS 算法提出并建立了两种将规则和统计的方法相结合的双语术语 自动抽取模型。 4 用 CRFs 辅助优化 LCS 算法, 对比试验结果, 分析 CRFs 分词对 LCS 算法 的影响。 关键词: 术语 自动抽取 机器翻译 中文信息处理 自然语言处理
基于关系抽取的中文文本信息提取技术研究与应用
基于关系抽取的中文文本信息提取技术研究与应用近年来,随着互联网的快速发展和信息爆炸式增长,从大量海量的中文文本中提取有用的信息变得尤为重要。
基于关系抽取的中文文本信息提取技术应运而生,成为解决这一问题的关键方法。
本文将介绍基于关系抽取的中文文本信息提取技术的研究现状和应用。
首先,我们需要了解基于关系抽取的中文文本信息提取技术的基本原理和流程。
该技术主要从给定的中文文本中提取实体和它们之间的关系。
实体可以是人、地点、组织或事件等。
关系则是用来描述这些实体之间的连接、联系或互动。
关系抽取的主要任务就是从文本中识别出实体,并针对实体间的关系进行提取。
关系抽取的核心技术主要包括实体识别和关系分类。
实体识别是将文本中的实体定位并进行标注的过程,通常采用基于机器学习的方法,如条件随机场(CRF)和支持向量机(SVM)等。
而关系分类是对实体间的关系进行分类的过程,通常使用分类器或深度学习模型,如朴素贝叶斯分类器、最大熵模型、卷积神经网络(CNN)和循环神经网络(RNN)等。
在实际应用中,基于关系抽取的中文文本信息提取技术有广泛的应用前景。
以下是几个典型的应用领域:1. 情感分析:基于关系抽取的中文文本信息提取技术可以用于提取文本中的情感倾向和态度。
通过识别实体(人物、产品、事件等)和关系(例如情感评价、意见提及),可以分析文本的情感色彩,帮助企业进行舆情监测和产品推广等。
2. 事件提取:基于关系抽取的中文文本信息提取技术可以用于提取新闻报道、社交媒体等文本中的事件信息。
通过识别人物、地点、时间等实体,并提取它们之间的关系,可以实现对事件的自动化识别、分类和监测。
3. 知识图谱构建:基于关系抽取的中文文本信息提取技术可以用于构建知识图谱,将大量的中文文本转化为结构化的知识表示,方便后续的知识推理和应用。
通过实体和关系的抽取与链接,可以构建实体关系图谱,帮助人们更好地理解和利用信息。
除了上述应用外,基于关系抽取的中文文本信息提取技术还可以应用于舆情监测、社交网络分析、问答系统等领域。
基于语言特性的中文领域术语抽取算法
基于语言特性的中文领域术语抽取算法
傅继彬;樊孝忠;毛金涛;余正涛
【期刊名称】《北京理工大学学报》
【年(卷),期】2010(30)3
【摘要】提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.
【总页数】4页(P307-310)
【关键词】术语抽取;领域耦合性;领域相关性;领域一致性
【作者】傅继彬;樊孝忠;毛金涛;余正涛
【作者单位】河南财经学院计算机与信息工程学院;北京理工大学计算机学院;昆明理工大学信息工程与自动化学院
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域 [J], 蒋婷;孙建军
2.基于CRFs的冶金领域中文专利术语抽取研究 [J], 王密平;王昊;邓三鸿;吴志祥
3.基于领域中文文本的术语抽取方法研究 [J], 谷俊;王昊
4.基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用 [J], 赵若冰
5.基于登录词邻接关系的双条件概率的领域术语抽取算法 [J], 陈黎;于中华;王亚强;秦湘清
因版权原因,仅展示原文概要,查看原文内容请购买。
基于语料库的中文信息抽取技术研究
基于语料库的中文信息抽取技术研究随着互联网的普及和大数据时代的到来,信息平台上海量的中文信息变得越来越丰富,而这些信息的挖掘和抽取是信息智能化时代的一个重要研究方向。
中文信息抽取技术是自然语言处理领域中的关键技术之一,涉及到语音识别、文本分析、语义理解等多个方面,其主要目的是从海量的中文信息中提取有用的实体、关系和事件等信息,帮助数据分析和决策支持等业务。
一、中文信息抽取技术的基本原理中文信息抽取技术的基本原理是基于大规模的文本语料库,通过计算机自动化地分析语言现象和语言规律,从而抽取出符合特定需求的信息。
它主要包括三个子任务:实体识别、关系抽取和事件抽取。
实体识别是指从文本中识别和抽取出具有特定概念意义的实体,如人名、地名、组织机构名等。
这需要运用自然语言处理技术中的序列标注、统计学习、规则匹配等方法。
关系抽取是指从文本中抽取出不同实体之间的语义关系,如主谓关系、动宾关系等。
而事件抽取则是指从文本中抽取出具有某种类型的事件,如宣布、签署、会晤等。
这需要运用知识表示和推理等技术。
二、中文信息抽取技术的应用领域中文信息抽取技术的应用领域非常广泛,包括但不限于以下几个方面:1、文本分类和路径分析。
中文信息抽取技术可用于文本分类和路径分析中,帮助企业和政府机构筛选并分析大量的文字数据,协助其制定决策和发展战略。
2、知识图谱和智慧城市建设。
知识图谱是指从大规模的结构化和非结构化的文本中提取实体、关系和事件等信息,构建出具有丰富语义的知识网络模型。
智慧城市建设则是指将大规模的数据资源进行整合和智能化运用,提升城市管理和服务水平。
而中文信息抽取技术可以帮助实现智慧城市建设的核心特征,即信息融通与智能化。
3、金融领域风险控制和大数据市场分析。
中文信息抽取技术可用于金融领域的风险控制和大数据市场分析中,协助保险、银行业等金融机构提高风险管理能力,优化投资组合,探索新的市场机会。
三、中文信息抽取技术的研究难点中文信息抽取技术的研究难点主要有以下几个方面:1、数据量和质量。
基于多策略融合的中文术语抽取方法
基于多策略融合的中文术语抽取方法
周浪;史树敏;冯冲;黄河燕
【期刊名称】《情报学报》
【年(卷),期】2010(029)003
【摘要】中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.【总页数】8页(P460-467)
【作者】周浪;史树敏;冯冲;黄河燕
【作者单位】南京理工大学计算机科学与技术学院,南京,210094;北京理工大学计算机学院,北京,100081;北京理工大学计算机学院,北京,100081;北京理工大学计算机学院,北京,100081
【正文语种】中文
【相关文献】
1.基于多策略的领域本体术语抽取研究 [J], 何琳;
2.基于多策略的专业领域术语抽取器的设计 [J], 杜波;田怀凤;王立;陆汝占
3.基于多策略的专业术语抽取处理技术的研究 [J], 田怀凤
4.基于多策略融合的专利术语自动抽取 [J], 周绍钧;吕学强;李卓;都云程
5.融合多策略的军事领域中文术语抽取研究 [J], 张乐;唐亮;易绵竹
因版权原因,仅展示原文概要,查看原文内容请购买。
C值和互信息相结合的术语抽取
C值和互信息相结合的术语抽取
梁颖红;张文静;张有承
【期刊名称】《计算机应用与软件》
【年(卷),期】2010(027)004
【摘要】在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了名词术语自动抽取的一个难点问题.针对该难点,提出综合C-value参数在长术语抽取方面的优势,并与术语抽取中的互信息参数相结合的策略来识别术语.实验结果表明,长术语抽取正确率为75.7%,召回率为68.4%,F测量值为71.9%,高于相同语料下的其他方法.
【总页数】3页(P108-110)
【作者】梁颖红;张文静;张有承
【作者单位】苏州市职业大学江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏,苏州,215104;东北林业大学信息与计算机工程学院,黑龙江,哈尔
滨,150040;东北林业大学信息与计算机工程学院,黑龙江,哈尔滨,150040
【正文语种】中文
【相关文献】
1.互信息改进方法在术语抽取中的应用 [J], 杜丽萍;李晓戈;周元哲;邵春昌
2.面向术语抽取的双阈值互信息过滤方法 [J], 陈士超;郁滨
3.基于互信息的中文术语抽取系统 [J], 张锋;许云;侯艳;樊孝忠
4.统计与规则相结合的术语抽取 [J], 唐涛;周俏丽;张桂平
5.统计与规则相结合的术语抽取 [J], 唐涛;周俏丽;张桂平
因版权原因,仅展示原文概要,查看原文内容请购买。
基于个人信息领域的语义信息抽取系统
基于个人信息领域的语义信息抽取系统
武林仙
【期刊名称】《计算机系统应用》
【年(卷),期】2010(019)006
【摘要】在利用本体进行信息抽取的基础上,提出了一个基于个人信息领域的语义信息抽取系统框架,将语义抽取从WEB领域扩展到个人信息领域;系统对个人信息领域内的网页,电子邮件,本地数据库和本地文件夹建立本体,根据本体之间的语义关联,实现个人信息领域内数据的交流.系统详细描述了语义信息抽取系统的实现过程,并以电子邮件为例重点介绍了语义信息抽取的算法.
【总页数】4页(P9-11,48)
【作者】武林仙
【作者单位】华侨大学计算机科学与技术系,福建,泉州,362021
【正文语种】中文
【相关文献】
1.网络音视频语义信息抽取系统 [J], 李莲春;周金治
2.基于神经网络规则抽取的个人信用评估模型研究 [J], 马宁;廖慧惠
3.基于OWL描述本体的语义信息抽取 [J], 梁晓涛;谢荣传
4.基于多粒度和语义信息的中文关系抽取 [J], 陈钰;张安勤;许春辉
5.基于BERT的多层标签指针网络事件抽取模型
——2020语言与智能技术竞赛事件抽取任务系统报告 [J], 王炳乾;宿绍勋;梁天新因版权原因,仅展示原文概要,查看原文内容请购买。
基于双向语义的中文实体关系联合抽取方法
基于双向语义的中文实体关系联合抽取方法
禹克强;黄芳;吴琪;欧阳洋
【期刊名称】《计算机工程》
【年(卷),期】2023(49)1
【摘要】现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。
提出一种基于双向语义的中文实体关系联合抽取方法。
利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。
为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。
将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。
在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。
【总页数】9页(P92-99)
【作者】禹克强;黄芳;吴琪;欧阳洋
【作者单位】中南大学计算机学院
【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于句法语义特征的中文实体关系抽取
2.基于句法语义特征的中文实体关系抽取
3.基于合一句法和实体语义树的中文语义关系抽取
4.基于高层语义注意力机制的中文实体关系抽取
5.基于字词混合的中文实体关系联合抽取方法
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 基于互信息的字串内部结合强度计算
记待识别字串为 c = c1 c2. . . cn , c的两个最长子串记为 a = c1 c2. . . cn21 , b = c2 c3. . . cn。例如 ,字串“自然语言处理 ”, c =自 然语言处理 ; a =自然语言处 ; b =然语言处理 ; 记 f ( c)为字串
频次 52 51 48 47 42 38 38 38 35
术语 产生式规则 概率上下文无关文法 句法分析技术 输入缓冲区 最大匹配 链接表达式 部分分析技术 状态转移网络 合一运算
频次 34 34 33 31 24 23 22 22 20
4. 3 分析
没有召回的术语可以分为两类 :一类是字串内部结合强度 低于最佳阈值的术语 ,主要为两字术语 ,如“论元 ”、“切词 ”、 “施事 ”、“受事 ”、“树库 ”、“文法 ”、“语块 ”、“语料 ”、“组块 ”等 和含有一个基本词的术语 ,如“语料库 ”、“语言学 ”等 。两字词 的最长子串是一个字 ,很显然字出现的频次比较高 ,导致用式 (2)计算的字串内部结合强度很低 ;含有一个基本词的术语 , 由于其最长子串 ———基本词的出现频次较高 ,同样导致字串内 部结合强度很低 。目前这种情况的术语还没有好的方式召回 。 另一类是结合强度虽然高于阈值 ,但由于术语选择阶段的分词 错误 ,应用术语词性构成规则判别时被从术语候选中去除的术 语 。例如 ,“句 / q 法规 / n 则 / c”、“名 / q 词性 / n 成分 / n ”、 “自 /p 动机 / n”等 ,由于第一个词为量词 ( q)或介词 (p ) , 应 用 术 语 的 词 性 构 成 规 则 , 系 统 认 为 不 是 术 语 。 (下转第 77页 )
Chinese Term Extraction System Based on M utual Information
ZHANG Feng1 , XU Yun1 , HOU Yan2 , FAN Xiao2zhong1
( 1. D ept. of Com pu ter S cience & Engineering, B eijing U n iversity of Technology, B eijing 100081, China; 2. Com pu ting Center, Guangdong U niversity of Technology, Guangzhou Guangdong 510520, China)
表 1 普通词语搭配前缀 、后缀示例
序号 1 2 3 …
前缀 基于 可以 处理
…
后缀 问题 方法 结果
…
序号 4 5 6 …
前缀 有关 可能 进行
…
后缀 错误 进行 困难
…
3. 2 术语词性构成规则
术语中的相当一部分是基本名词短语 ,但也有例外 ,如术 语“自然语言理解 ”、“中文信息处理 ”,结尾词为动词 ,并不符 合基本名词短语的定义 [6 ] 。结合基本名词短语的词性构成信
息 ,在对大量术语分析的基础上 ,我们总结了术语词性构成规 则 ,如表 2所示 。
表 2 术语词性构成规则
编号 1 2 3 4
规则描述 术语中至少含有一个动词 、名词或名词性成分 ( n, vn, an, Ng) 术语最后一个词为动词 、名词或名词性成分 ( v, n, vn, an, Ng) 术语第一个词不为介词 (p ) 、量词 ( q) 术语中没有连词 ( c) 、代词 ( r) 、语气词 ( y)
常见的切分标志进行切分 ,得到字串集合 。常见的切分标志为 标点符号 、中西文数字以及常见的助词 (的 、了 、着等 ) 。
在领域文本粗切分后 ,系统采用互信息计算待识别字串的 内部结合强度 ,进行术语候选的抽取 。然后利用普通词语搭配 前缀 、后缀信息库和术语的词性构成规则进行术语选择 ,得到 最终术语抽取结果 。系统结构如图 1所示 。
针对每一个术语候选的词性序列应用这些规则 ,得到系统 术语抽取的最终结果 。
4 实验结果及分析
4. 1 术语抽取评价指标
本文采用的术语抽取评价指标如下 :
( 1 )术语抽取准确率
系统抽取的正确的术语数 p = 系统抽取的术语总数
×100 %
( 2 )术语抽取召回率
系统抽取的正确的术语数 r =文本集中包含的术语总数
3 术语候选抽取及术语选择
对原始领域文本经过粗切分后得到的每一个字串 ,系统以 字为单位顺序扫描 ,通过基于大规模领域语料计算其子串的内 部结合强度 (互信息 ) ,把内部结合强度超过预先设定阈值的 子串抽取出来 ,完成术语候选的抽取 。
术语选择就是从术语候选集中选出正确的术语 。对术语 候选集观察分析后 ,我们发现术语候选一般包括基本词 、人名 、 地名 、机构名 、普通词语搭配 、正确的术语和无意义的字串组 合 。基本词 ,就是分词词表中已经有的词 ,这其中也有部分术 语 ,如“机器翻译 ”、“正态分布 ”等 ,因为可以被分词系统正确 切分 ,我们直接从候选中去除 ;对人名 、地名和机构名等未登录 词的识别 ,国内外的研究很多 ,而且已经达到不错的识别效果 , 因此 ,本系统也不作为处理对象 。那么在所剩的术语候选中 , 术语干扰项就剩下普通词语搭配和无意义的字串组合了 。
·72·
计算机应用研究
2005年
基于互信息的中文术语抽取系统
张 锋 1 , 许 云 1 , 侯 艳 2 , 樊孝忠 1
(1. 北京理工大学 计算机科学与工程系 , 北京 100081; 2. 广东工业大学 计算中心 , 广东 广州 510520)
摘 要 : 介绍了一个中文术语自动抽取系统 ,该系统首先基于互信息计算字串的内部结合强度 ,从而得到术语 候选集 ;接着从术语候选集中去除基本词 ,并利用普通词语搭配前缀 、后缀信息进一步过滤 ;最后对术语候选进 行词法分析 ,利用术语的词性构成规则进行判别 ,得到最终的术语抽取结果 。实验结果表明 ,术语抽取正确率为 72. 19% ,召回率为 77. 98% , F2测量为 74. 97%。 关键词 : 术语抽取 ; 互信息 ; 语料 中图法分类号 : TP391 文献标识码 : A 文章编号 : 100123695 (2005) 0520072202
第 5期
张 锋等 :基于互信息的中文术语抽取系统
·73·
M I = log2
p ( c) p ( a) p ( b)
= log2
f ( c) f ( a) f ( b)
(2)
如果字串 c结合十分紧密 ,那么 f ( c)就与 f ( a)或 f ( b)相
差不大 ,依据式 ( 2)计算的字串互信息就比较大 ;反之 , f ( a)和
如表 3所示 ,其中最佳阈值是以 F2M easure为指标确定的 。 表 3 实验结果表
最佳阈值 术语总数 抽取数目 正确数目 准确率 ( % ) 召回率 ( % ) F2M easure (% )
13. 4
486
525
379
72. 19
77. 98
74. 97
系统抽取出的一些术语及其在语料中的出现频次如表 4 所示 。
f ( b)就会远远大于 f ( c) ,这样计算出来的互信息就比较小 。因
此 ,互信息可以用来表示一个字串的内部结合强度 。
基于统计的思想认为 ,一个词语搭配如果在语料中出现 ,
那么它肯定不止出现一次 。因此运用上述公式分析字串的内
部结合强度时 ,一般只对在语料中出现次数大于两次的术语进
行考察 。
c1 c2. . . cn 在语料中的共现频率 ; p ( c)为字串 c1 c2. . . cn 在语料 中的共现概率 。根据最大似然估计 ,在语料规模足够大的情况
下 ,可以认为 p ( c)等于 f ( c) 。其中 n为字串的长度 , 要求 n >
1。
在信息论中两个事件 AB的互信息计算如下 :
1 系统结构
系统的应用对象是专业领域的文本 ,而原始领域文本中汉 字是以“字 ”为单位的 ,直接对原始文本逐字分析来进行术语 提取 ,不但速度慢 ,而且没有语言知识的引导 ,容易出现术语边 界判断不准等错误 。我们对原始领域文本先进行粗切分 ,即按
收稿日期 : 2004205231; 修返日期 : 2004207215
Abstract: A n automatic Chinese term extraction system based on mutual information is p resented. Firstly, the system gets term candidates by calculating internal associative strength of characters string using mutual information. Then, term selection from term candidates is done using basic word dictionary, common collocationπs suffix, p refix bank and some term PO S composing rules. Experiment show s the p recision is 72. 19% , recall is 77. 98% and F2measure is 74. 97%. Key words: Term Extraction; M utual Information; Corpus
×100 %
(3) F2测量
F2M easu re = 2pr p+r
4. 2 实验结果
我们以《计算语言学概论 》[7 ]的电子书稿约 21 万字作为 领域文本和统计语料进行了术语抽取实验 ,其中对术语候选的 词法分析采用中科院计算所的 ICTCLAS词法分析系统 。通过 人工方式获得该语料中术语集合 (共 486个 )作为术语抽取结 果评价的依据 。需要说明的是 ,分词词表中已经存在的和语料 中出现次数少于三次的术语没有列入该术语集合 。实验结果