基于《知网》的中文信息结构消歧研究

合集下载

基于知网语义相关度计算的词义消歧方法

基于知网语义相关度计算的词义消歧方法

基于知网语义相关度计算的词义消歧方法
知网语义相关度计算(WordNet Similarity)是一种基于计算语言学原理来测量两个词语之间的相似程度的语义消歧方法。

它利用已有的计算语言学技术、例如WordNet(一种基于英文的信息网络)来实现消歧结果的计算。

知网语义相关度计算在语言处理中有着广泛的应用,不仅在自然语言处理领域中有着广泛使用,而且在机器学习和搜索引擎领域也有着重要的应用。

知网语义相关度计算的基本思想是将两个词语在语义上进行比较,求出它们之间的相似度。

首先,需要通过WordNet数据库中的词语的语义表示来构建出它们的语义概念树;其次,在概念树上求取它们的共同最大子概念;最后,计算它们的最大子概念的深度,或者在语义上的相似性。

为了更好地消歧词语之间的相似性,知网语义相关度计算还采用了一些其他技术,比如词汇相似性(Word Similarity)、语义相似性(Semantic Similarity)和句子相似性(Sentence Similarity)。

简而言之,知网语义相关度计算就是利用WordNet数据库中的词语的语义表示来估计两个词语之间的相似程度的一种消歧方法。

它利用计算语言学技术,比如WordNet数据库中的词语的语义表示、语义相似性、句子相似性等等,来实现相似性的计算。

在实际应用中,它可以帮助计算机更准确地理解人类语言,从而提高机器学习和搜索引擎的性能。

基于知网的中文结构排歧工具_VXY

基于知网的中文结构排歧工具_VXY

第24卷 第1期2010年1月中文信息学报J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN GVol.24,No.1J an.,2010文章编号:100320077(2010)0120060205基于知网的中文结构排歧工具———VX Y董强,郝长伶,董振东(加拿大智达有限公司,蒙特利尔,加拿大)摘 要:该文介绍了基于知网的中文结构排歧工具系列中的一种—VXY 。

VXY 采取了一种独到的排歧技术,对于语言难点采取“定点清除”的策略。

它用来解决“V +N +的+N ”类型的结构性歧义。

VXY 是一个自足的、可以现场考核检验的并可以真正付诸实用的系统,而不是仅仅某种方法论的表演或举例性的“游戏”。

该文简要地介绍了VXY 的组成部分,说明了它的意义计算的原理。

同时,该文就如何更有效地利用知网进行结构和语义排歧,如何开辟不同于当前语言信息处理中的“三部曲”(语料标注、现成的计算、应试性的评测)的语言技术等问题进行讨论。

关键词:计算机应用;中文信息处理;语义;排歧工具;强支配;中文句法结构;知网中图分类号:TP391 文献标识码:AA H owN et 2B ased Disambigu ator for Chinese Syntactic StructuresDON G Qiang ,HAO Changling ,DON G Zhendong(Canada Keenage Inc.,Montreal ,Canada )Abstract :The paper introduces a HowNet 2based disambiguator named VXY.The disambiguator effectively tackles the ambiguity in syntactic structures ,e.g.“削(V )苹果(X )的皮(Y )”,which appear highly 2f requently in Chinese.The ambiguity of this kind lies in which word is governed by V in the structure ,either X or Y.The HowNet 2based disambiguator VXY is not merely a demonstration for the stereotypic methodology or algorithm ,but a practical tool.for any structures composed by any one of the 98000unique entries in HowNet Chinese vocabulary.Hence ,the paper presents a paradigm completely different f rom the state 2of the 2art human language technology.K ey w ords :computer application ;Chinese information processing ;semantics ;disambiguator ;strong government ;Chinese syntactic structure ;HowNet收稿日期:2009206217 定稿日期:2009211217作者简介:董强(1969—),男,研究员,主要研究方向为自然语言处理,机器翻译;郝长伶(1977—),女,研究员,主要研究方向为自然语言处理,信息检索;董振东(1937—),男,研究员,主要研究方向为知识系统,机器翻译。

基于语义计算的中文歧义字段消歧算法

基于语义计算的中文歧义字段消歧算法

基于语义计算的中文歧义字段消歧算法
邓凡;鱼滨
【期刊名称】《计算机技术与发展》
【年(卷),期】2008(018)006
【摘要】针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法.对于交集型歧义和组合型歧义,利用<知网>为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的.经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率.
【总页数】4页(P107-110)
【作者】邓凡;鱼滨
【作者单位】西北大学,信息科学与技术学院,陕西,西安,710069;西安电子科技大学,计算机学院,陕西,西安,710071
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于语义密度的名词消歧算法 [J], 何文垒;刘功申
2.基于语义的词义消歧算法初探 [J], 龚永恩;袁春风;武港山
3.现代汉语语义资源用于短语歧义模式消歧研究 [J], 王锦;陈群秀
4.BSAED:一种基于双向语义关联的实体消歧算法 [J], 李子茂; 聂梦妍; 尹帆; 陈思

5.一种基于语义关系图的词义消歧算法 [J], 张健立
因版权原因,仅展示原文概要,查看原文内容请购买。

基于知网语义相关度计算的词义消歧方法

基于知网语义相关度计算的词义消歧方法
9 .%, 71 验证 了该 消歧 方 法 的 有 效 性 。 关 键 词 : 语 自动分 词 ; 义 消歧 ; 义 相关 度 ; 网 汉 词 语 知
中 图分 类号 :P 9 T 31 文 献标 识 码 : A
W od S n e Dia iu tn eh d Ba e n Ho r e s s mb g ai gM t o s d o wNe t S ma tc Ree a c mp tto e n i lv n y Co u ain
Ab t a t As o e o h s mp r n n lo t e mo t d f c l p o lms o h n s n o main p o e s g sr c : n f t e mo t i o t t a d as h s i i u t r b e f C i e e if r t r c s i a o n
维普资讯
V0 .5 1 2
No 1 .
安 徽 工 业 大 学 学 报( 自然科 学版 )
Jo h i iest f e h ooy N trl ce c ) .f An u v ri o c n lg ( aua in e Un y T S
期 第 2 卷 第 1 5
20 8 钲 0
J n ay 0 8 a u r 2 0
1 月
文 章编 号 :6 1 77 (0 8 0— 0 1 0 17 — 8 22 0 ) 10 义 消歧方法
王 广 正 , 喜 风 王
( 安徽 工业 大学 计 算机 学院 , 徵 马鞍 山 2 3 0 ) 安 4 0 2
W ANG Gua — he ,W ANG — e ng z ng Xi f ng
(c ol f o p t ce c, n u nv r t o T cn lg, nh n2 3 0 , hn) S h o o m ue S i e A h i i s y f eh o y Maa sa 4 0 2 C ia C r n U e i o

基于《知网》的多策略词义消歧算法研究的开题报告

基于《知网》的多策略词义消歧算法研究的开题报告

基于《知网》的多策略词义消歧算法研究的开题报告一、研究背景及意义随着互联网的高速发展,人类日益追求信息的快速获取和高效利用,而自然语言处理技术应运而生,其中词义消歧技术是自然语言处理技术中的一项重要技术。

词义消歧即是对于一个给定的词,在不同的语境下,选择其最恰当的词义。

例如,“我喜欢吃鱼”,其中的“鱼”表示的是一种食物,“他喜欢钓鱼”,其中的“鱼”表示的是一种动物。

词义消歧涉及的领域广泛,如机器翻译、信息检索、机器人对话等,其中的核心问题在于如何从上下文中推断被消歧词的正确意义。

目前,词义消歧已经成为了自然语言处理的一个重要研究方向,其解决方法主要分为两类:基于统计学习的方法和基于知识库的方法。

基于统计学习的方法主要使用机器学习算法,包括KNN、朴素贝叶斯、支持向量机等来训练词义分类器。

而基于知识库的方法主要利用人工构建的语义知识库,如WordNet和HowNet等,将词义消歧问题转化为与语义知识库中的概念匹配的问题。

然而,目前词义消歧仍然是一个具有挑战性的问题,尤其是针对中文等复杂语言而言,更是面临着更加困难的问题。

因此,本研究旨在探索一种多策略词义消歧算法,以提高中文词义消歧的准确性和效率。

二、研究内容本研究的主要内容包括以下方面:1. 分析现有的词义消歧方法的优缺点,探索提高词义消歧准确性和效率的新的思路和方法。

2. 基于《知网》的多策略词义消歧算法设计。

本研究将利用知网中的词语关系网络和语义信息,将词义消歧问题转化为图论中的最小割问题,并结合基于统计学习的方法和基于知识库的方法来设计多种不同策略的词义消歧模型。

3. 实验设计与分析。

本研究将以中文语料库中的文本为基础,设计不同场景的词义消歧实验,并比较该多策略词义消歧算法与其他算法的性能差异,分析其优缺点。

三、预期成果本研究的预期成果包括以下方面:1. 提出一种基于《知网》的多策略词义消歧算法。

2. 分析该算法的优缺点及适用场景,并与其他算法进行比较分析。

基于知网的中文结构排歧工具——VXY

基于知网的中文结构排歧工具——VXY
p rpr s nt a adgm o plt l ifr ntfom h t t— ft — r m a a gu ge t c ol y. e e e sap r i c m ee y d fe e r t e s a e o hea thu n l n a e hn og Ke r s c y wo d : omput ra e ppl a i i ton; Chi e e i or a i r c s i c n s nf m ton p o e sng; s m a tc e n is; d s m bi a or s r n ve n e ; ia gu t ; t o g go r m nt
于 语 言难 点 采 取 “ 点 清 除” 策 略 。 它用 来 解 决 “ 定 的 V+ N+ 的 + N” 型 的 结 构 性 歧 义 。VXY 是 一 个 自足 的 、 以 类 可
现 场考 核 检 验 的 并 可 以真 正 付 诸 实 用 的 系统 , 而不 是 仅 仅 某 种 方 法论 的表 演 或 举 例 性 的 “ 戏 ” 游 。该 文 简要 地 介 绍
讨论 。
关 键 词 : 算 机应 用 ; 文信 息处 理 ; 义 ; 歧 工 具 ; 计 中 语 排 强支 配 ; 中文 句 法 结 构 ; 网 知
中 图分 类 号 :TP 9 31 文 献 标识 码 :A
A wNe- s d Dia b g a o o i e e S n a tc S r c u e Ho tBa e s m i u t r f rCh n s y t c i t u t r s
DONG Qi g,HA0 a g ig, I a n Ch n l n DCNG h n o g Z ed n

基于知网语义相关度计算的词义消歧方法

基于知网语义相关度计算的词义消歧方法

基于知网语义相关度计算的词义消歧方法随着现代信息技术的发展,语义消歧技术得到了广泛的应用,为人们提供了一种有效的认知途径。

然而,传统的语义消歧技术通常停留在基于词典的方法,而忽视了具有更复杂语义的文本。

因此,如何更好地处理涉及词义消歧的文本问题,需要专家探索更有效的解决方法。

本文将讨论基于知网语义相关度计算的词义消歧方法,以提供一种构建高效、准确、可靠的文本语义分析系统的新方法。

一、知网简介知网(China National Knowledge Infrastructure,CNKI),是中国著名的知识性数据库,由中国科学院主办,提供了数据库的系列学术服务。

该数据库的核心是一个功能强大的词汇表,包括同义词和反义词,以及各种不同的词义。

与其他知识表示系统不同,知网的词义由一个结构图(semantic network)来表示,遵循一种基于语义的推理方式,可以帮助人们以一种更为有效的方式来理解文本。

二、基于知网语义相关度计算的词义消歧方法为了解决文本涉及词义消歧的问题,可以基于知网语义相关度计算方法来构建一种高效可靠的文本语义分析系统。

该方法以知网中的概念-关系结构为基础,可以帮助识别每个文本中涉及的词义,并计算语义上的相关性。

根据知网概念-关系结构计算每个文本中词语的语义相关度。

相关度计算以概念-关系结构中的概念(concepts)和关系(relations)为基础,通过求解一系列问题来计算每个概念之间的语义相关性,最终得出每个文本中各词语的相关度值。

此外,借助于知网的词义范围分类和关系约束,可以更准确地计算每个词语之间的相关度。

最后,通过计算每个文本中词语之间的语义相关度,可以有效地消除文本中涉及的多义词,更准确地识别文本中的语义,以及更加有效地挖掘文本中的潜在信息。

三、实验结果为了验证基于知网语义相关度计算的词义消歧方法的有效性,我们进行了实验。

结果表明,该方法可以有效地消除文本中涉及的多义词,更准确地识别文本中语义,以及更加有效地挖掘文本中的潜在信息。

一种基於知网的语义排歧模型研究 A Study of Semantic Disambiguation Based on HowNet

一种基於知网的语义排歧模型研究 A Study of Semantic Disambiguation Based on HowNet

一種基於知網的語義排歧模型研究A Study of Semantic Disambiguation Based on HowNet楊曉峰*, 李堂秋*Yang Xiaofeng, Li Tangqiu摘要本文提出了機器翻譯中句法分析的一種語義排歧模型,該模型以《知網》爲主要語義知識源。

《知網》是一個以漢語和英語的詞語所代表的概念爲描述物件,以揭示概念與概念之間以及概念所具有的屬性之間的關係爲基本內容的常識知識庫,它爲我們的排歧提供了豐富的語義資訊。

排歧模型結合了基於規則及基於統計的方法,應用於分析所産生的中間結構中,從“優選"的角度進行詞義及結構的排歧。

排歧模型首先利用大規模的語料庫獲取義原的同現集合,該語料庫未進行任何的語義標誌,因此獲取過程是無指導的。

然後它根據轉換模板構造出義原的語義限制規則。

《知網》中的詞語義項由義原組成,義項的語義限制規則可以由其構成義原的語義規則得到。

在語義排歧階段,我們首先確定輸入句的每個實義詞的上下文相關詞集。

由於實義詞的語義關係在對當前句子的語法結構確定及各詞語詞義的選擇起著相當重要的作用,我們對一個句子的評價就建立在對該句中實義詞的評價基礎之上。

把詞語的當前上下文相關詞集與詞語各義項的限制規則所描述語義特徵資訊進行比較,根據比較的相似度選擇最合適的義項。

同時將相似度的最大值作爲該詞語的評價值。

中間分析結果中各實義詞的評價分值可以成爲評價此中間結果的依據,以此在多個中間結構中選出最佳的結果。

這樣,我們在解決詞義歧義的基礎上同時也解決了結構歧義。

本文所提出的語義排歧模型已在機器翻譯系統中具體地實現。

實驗例句的測試表明該排歧模型對解決句法分析中的辭彙歧義、結構歧義是有效的,並且優於傳統的YES/NOT的方法。

*廈門大學計算機系,廈門,361005Department of Computer Science, Xiamen University, Xiamen ,36100548 楊曉峰、李堂秋本文首先提出了排歧模型的主要思想,並簡要介紹了《知網》。

基于知网的无指导词义消歧

基于知网的无指导词义消歧
f o r 7 a mb i g u o u s wo r d s i n o p e n t e s t b y t h i s me t h o d .
Ke y wo r d: wo r d s e n s e d i s a mb i g u a t i o n; Ho wn e t ; s e c o n d — o r d e r c o n t e x t ; c l u s t e r i n g o f k - me a n s
i n g . E v e r s i n c e t h e f i e l d’ S i n c e p t i o n WS D h a s b e e n p e r c e i v e d a s o n e o f t h e c e n t r a l p r o b l e ms i n NL P. T h i s p a p e r p r e s e n t s a n u n s u — p e r v i s e d a p p r o a c h w h i c h c o n s t r u c t s c o n t e x t v e c t o r b y me a n s o f s e c o n d — o r d e r c o n t e x t , c l u s t e in r g b y k -me a n s a n d d i s a mb i g u a t e s b y c a l c u l a t i n g t h e s i mi l a r i t y . Ou r e x p e i r me n t s a r e b a s e d o n t h e e x t r a c t i o n o f t e r m a n d a v e r a g e a c c u r a c y i s 8 2 . 6 2 % a n d 8 4 . 5 5%

中文信息系统中的词汇消歧技术研究

中文信息系统中的词汇消歧技术研究

中文信息系统中的词汇消歧技术研究随着互联网的不断发展和移动设备的普及,中文信息系统的规模不断扩大,其中词汇的消歧问题成为了一个亟待解决的难题。

中文词汇具有词义模糊、歧义等特点,可能引发信息的不准确、误解等问题。

因此,研究中文信息系统中的词汇消歧技术,对提高信息系统的准确性和可靠性具有重要意义。

一、中文词汇消歧技术的概述中文词汇的消歧问题在自然语言处理领域早已被研究,但依然存在许多困难和挑战。

中文词汇的消歧有两个方面:词义消歧和指代消歧。

词义消歧是指在一个句子或文本中,同一词语在不同上下文中具有不同含义,需要确定其具体含义的过程。

指代消歧是指在一个文本中,某些名词或代词的指代需要确定。

二、中文词汇消歧技术的方法和研究进展目前,中文词汇消歧技术主要有三种方法:基于规则的方法、基于知识库的方法和基于统计的方法。

1. 基于规则的方法基于规则的方法是利用专家先验知识和语言学规则来进行词汇消歧。

该方法的优点是易于理解和调整,但其准确性和普遍性较低。

2. 基于知识库的方法基于知识库的方法是基于计算机软件和网络环境中描述知识结构和知识关系的数据集成,利用该知识库识别文本中可疑的词汇进行语义标注。

该方法的适用性较高,但构建和维护知识库的代价也较高。

3. 基于统计的方法基于统计的方法则是通过统计语言模型,对文本进行分析,利用上下文信息和词频等信息来进行词汇消歧。

该方法的优点是适用范围广,但对于特定会话、文本等有一定依赖性。

三、中文词汇消歧技术的应用领域中文词汇消歧技术可以应用于自然语言处理、信息检索、机器翻译等领域。

通过消歧技术的应用,可以提高自然语言处理的准确性和效率,增加信息检索的可靠性,实现对不同语言和文化之间的翻译和交流。

四、中文词汇消歧技术面临的挑战尽管中文词汇消歧技术研究已经取得了一定进展,但依然存在许多挑战。

其中最主要的是人工智能技术和语言规则的缺乏。

中文语言的特殊性,使得中文词汇消歧技术的研究依赖于一个非常庞大和准确的词汇库,而这一问题在目前的研究中仍然存在困惑。

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究张瑞霞;庄晋林;杨国增【摘要】《中文信息结构库》是《知网》的重要组成部分之一,可以作为中文语义分析的规则库,对其进行消歧是实际应用的基础之一.因此,该文首先对中文信息结构进行了形式化描述;接着对其进行优先级划分;然后根据其构成形式提出了四种不同的消歧方法:即词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法、基于实例的语义相似度计算消歧法;最后针对不同优先级的中文信息结构集设计了不同消歧流程.实验结果证明消歧正确率达到了90%以上.%The Chinese Message Structure Database, as an important component in HowNet, can be treated as a rule base for Chinese semantic analysis. The disambiguation of Chinese message structures is the first step in bring the base into practical application. In this paper, the Chinese message structures are firstly formalized and then divided into different priority levels. Afterwards,, four diverse disambiguation approaches are proposed, including the syntax list judgment, the graph compatibility matching, the graph compatibility computation and the semantic similarity computation based on examples. Finally, different disambiguation processes are designed according to the different priority levels. Experimental results prove the accuracy rate of the disambiguation yields more than 90%.【期刊名称】《中文信息学报》【年(卷),期】2012(026)004【总页数】8页(P43-49,60)【关键词】知网;中文信息结构;消歧;图相容度;语义相似度【作者】张瑞霞;庄晋林;杨国增【作者单位】华北水利水电学院信息工程学院,河南郑州450011;华北水利水电学院信息工程学院,河南郑州450011;郑州师范学院数学系,河南郑州450044【正文语种】中文【中图分类】TP3911 引言语义分析在中文信息处理领域中占有重要地位,特别是随着一些知识库和语义分析理论的成熟,使得语义分析的自动化成为可能。

基于知网义原词向量表示的无监督词义消歧方法

基于知网义原词向量表示的无监督词义消歧方法

基于知网义原词向量表示的无监督词义消歧方法
唐共波;于东;荀恩东
【期刊名称】《中文信息学报》
【年(卷),期】2015(029)006
【摘要】词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中.通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率.针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧.作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本.在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率.
【总页数】7页(P23-29)
【作者】唐共波;于东;荀恩东
【作者单位】北京语言大学大数据与语言教育研究所,北京100083;北京语言大学信息科学学院,北京100083;北京语言大学大数据与语言教育研究所,北京100083;北京语言大学信息科学学院,北京100083;北京语言大学大数据与语言教育研究所,北京100083;北京语言大学信息科学学院,北京100083
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于多义词向量表示的词义消歧方法 [J], 李国佳;赵莹地;郭鸿奇
2.基于知网的无指导词义消歧 [J], 陈浩
3.一种基于多义词向量表示的词义消歧方法 [J], 李国佳;赵莹地;郭鸿奇;;;
4.基于词向量的无监督词义消歧方法 [J], 吕晓伟;章露露
5.基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法 [J], 王伟;赵尔平;崔志远;孙浩
因版权原因,仅展示原文概要,查看原文内容请购买。

基于知网的汉语语义实例库的建设与应用

基于知网的汉语语义实例库的建设与应用
维普资讯
20 年2 0 7 B 第 2 卷第 1 4 期
沈 阳航空工业学院学报 Ju a o hna gIstt o eo ata E gne n orl f e yn tue f rnui l nier g n S ni A c i
F b 2 o e .O 7 V 12 No 1 o. 4 .
的 D F O, 不 同 的词 , 以 有 相 同 的 D F O。 EN 而 可 EN
目前 C I SC正在建 设 中 , 已经 完成 了库 的总体 结构 设计 、 的标 注 规 范制 定 、 注平 台开 发 、 库 标 标 注语 料整 理和评 测 模 块 开发 等 主要 工作 , 为后 面 开展 大规模 词义 标 注工作 提供 了 良好 的基 础 。
在 20 06版知 网 中 , 有 25 3个 不 同的 D F O 共 55 EN 。 我们用 这些 D F O来进行 标 注 。 EN
2 标注语料选 择
语 言学 的研究 必 须 以语 言事 实 作 为 根 据 , 必
须 详尽 地 、 大量 地 占有 材料 , 才有 可 能在理 论 上得
理 中应 用 。一个 词 有 多种 语 义 , 对 应 不 同 的概 就
念。
目前国内一些研究采用《 现代汉语语 词典》 和《 同义词词林》 以下简称《 ( 词林》 作为语义资 )
然语言处理中有着重要的用途 , 如机器翻译 , 信息 检索 , 文本分类 , 自动文摘等。
本 文 构 建 了一 个 汉 语 语 义 实 例 库 ( h ee C i s n
8%的较好效果 。 5
关键词 : 汉语词义 实例库 ; 知网 ; 词义消歧 ; 条件随机场
中 图分 类 号 :F 9 T 31 文献标识码 : A

基于《知网》的中文信息结构抽取研究

基于《知网》的中文信息结构抽取研究

t o e a t r s s r l s t e u l a p ri l d p n e c a s r S s t x r c C h s p t n a e ,h y b i a t e e d n y p re .O a o e ta t MS f m e l t x s a s s o sb e e u t a r o r a e t s mo t a p s i l . Th e c i t n f t e r i i g ag rt m , x e me t r s l a d o o c u i n a e g v n e d s rp i o h t n n lo h e p r o a i i n a e u t n s me c n l so r ie l s
( e t fC mp trS in e T c n lg , s g u nvri , e ig 10 8 ) D p. o ue ce c eh oo y T i h a U ies y B in 0 0 4 o n t j
Ab t a t An p r a h o xr ci g sr c : a p c f e t t Ch n s Me s g S r c u e fo r a e t s p e e td i h s a e . h a t o s o a n ie e s a e tu t r r m e l t xs i r s n e n t i p p r e u h r T

Ke wo d :Ho y rs wNe , hn s sa e Sr cu e( t C ie e Me sg t tr CMS) p rild p n e c p re , l u , a a e e d n y a r r e t s u

中文词义消歧的方法研究

中文词义消歧的方法研究

中文词义消歧的方法研究
兰美辉;李红林
【期刊名称】《科技信息》
【年(卷),期】2010(000)009
【摘要】词义消歧一直是自然语言处理领域的难题之一,它的研究对包括机器翻译、信息检索、文本分类等众多研究领域都会有一个积极的推动作用.本文阐述了词义
消歧的方法,以及各种消歧方法的优缺点,分析了影响词义消歧效果的因素,并给出了自己在词义消歧方面的想法.
【总页数】2页(P62,66)
【作者】兰美辉;李红林
【作者单位】曲靖师范学院计算机科学与工程学院云南,曲靖,655011;曲靖师范学
院计算机科学与工程学院云南,曲靖,655011
【正文语种】中文
【相关文献】
1.对称与非对称:中文词义消歧中局部上下文窗口问题研究 [J], 李纲;寇广增;夏晨

2.一种基于知网的中文词义消歧算法 [J], 张明宝;马静
3.基于隐特征提取和CRF模型的中文词义消歧 [J], 黄莹;陈笑蓉
4.融合语言知识的神经网络中文词义消歧模型 [J], 穆玲玲;程晓煜;昝红英;韩英杰
5.基于多节点组合特征和模糊聚类的中文词义消歧方法 [J], 贺佳;杜建强;聂斌;熊
旺平;雷银香;罗计根;曾青霞
因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于《知网》的中文文本聚类算法的研究

一种基于《知网》的中文文本聚类算法的研究

一种基于《知网》的中文文本聚类算法的研究
赵鹏;蔡庆生
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(43)12
【摘要】针对基于关键词集的中文文本聚类算法中存在的问题,将《知网》引入到中文文本的特征表示中,并在此基础上提出了一种基于《知网》的中文文本聚类算法.该算法在中文文本表示中加入了基于《知网》的概念特征,实验结果表明该算法能够更好地将语义相关的中文文档聚集在一起,与传统的基于关键词集的中文文本聚类算法相比,聚类质量得到了较大提高.
【总页数】2页(P162-163)
【作者】赵鹏;蔡庆生
【作者单位】安徽大学,计算智能与信号处理教育部重点实验室,合肥,230039;中国科学技术大学,计算机系,合肥,230027;中国科学技术大学,计算机系,合肥,230027【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于知网的K-means聚类算法 [J], 冯珺;孙济庆
2.基于语境和语义的中文文本聚类算法研究 [J], 吴勇;周军
3.基于《知网》义原搭配的中文文本语义级自动查错研究 [J], 郭充;张仰森
4.一种基于改进的TF-IDF和支持向量机的中文文本分类研究 [J], 郭太勇
5.一种基于语义的中文文本特征降维技术研究 [J], 黄章益;刘怀亮
因版权原因,仅展示原文概要,查看原文内容请购买。

基于《知网》义原搭配的中文文本语义级自动查错研究

基于《知网》义原搭配的中文文本语义级自动查错研究

基于《知网》义原搭配的中文文本语义级自动查错研究
郭充;张仰森
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)017
【摘要】语义级的自动查错一直是汉语文本自动校对技术的难点.针对汉语文本中的语义搭配错误,提出了一种基于<知网>义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法.语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用<知网>对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合.在语义知识库的基础上设计相应的自动查错算法.实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景.
【总页数】5页(P3924-3928)
【作者】郭充;张仰森
【作者单位】北京信息科技大学,计算机学院智能信息处理研究所,北京100192;北京信息科技大学,计算机学院智能信息处理研究所,北京100192
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于知识库的多层级中文文本查错推理模型 [J], 吴林;张仰森
2.中文文本自动校对的语义级查错研究 [J], 骆卫华;罗振声;龚小谨
3.基于规则与统计相结合的中文文本自动查错模型与算法 [J], 张仰森;曹元大;俞士汶
4.基于词二元接续的中文文本自动查错研究 [J], 王虹;张仰森
5.基于词性预测的中文文本自动查错研究 [J], 王虹;张仰森
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相似度计算消歧法 ; 最后 针 对 不 同优 先 级 的 中文 信 息 结 构 集 设 计 了不 同消 歧 流 程 。 实验 结 果 证 明 消歧 正 确 率 达 到 了 9 % 以上 。 0 关 键 词 :知 网 ; 中文 信 息 结 构 ; 消歧 ; 图相 容度 ; 义 相 似 度 语
中 图分 类 号 :TP 9 31 , 文献 标 识 码 :A
Zhe ngz u, e an 45 011,Chi ho H n 0 na;
2 De a t n fM a h ma is h n z o a h rS Co lg . p rme t t e tc ,Z e g h u Te c e ’ o l e,Z e g h u He a 5 0 4,Ch n ) e h n z o , n n4 0 4 i a
Ab ta t src : PCh ne eM e s i s sageSt ucur r t eDat b e,a n i po t n o po n n owN e ,c n bet e t d a ul a as sa m r a tc m ne ti H t a r a e sa r e
第 2 6卷
第 4期
中文信息 学报
J OURNA L OF CHI NES I ORM ATI E NF ON PROCE S NG S I
V o1 26. No. 4 .
21 0 2年 7月
J 1,2 1 u. 0 2
文 章 编 号 : 0 30 7 ( 0 2 0 —0 30 1 0 -0 7 2 1 ) 40 4 —7
ba e it a tc la lc ton I h spa er he Chi e e m e s ges r t e r is l o m eie nd t n di de s n o pr c ia pp ia i . n t i p ,t n s s a t ucur s a e fr ty f r z d a he vi d l
基 于 《 网 》 中 文 信 息 结 构 消 歧 研 究 知 的
张 瑞 霞 庄 晋林 杨 国增 , ,
( .华 北 水 利 水 电 学 院 信 息 工程 学 院 , 南 郑 州 4 0 1 ;. 州 师 范 学 院 数 学 系 , 南 郑 州 4 0 4 ) 1 河 5012郑 河 5 04 摘 要 : 中文信 息 结 构库 》 知 网 》 重要 组 成 部 分之 一 , 以 作 为 中文 语 义 分 析 的 规 则 库 , 其 进 行 消歧 是 实 际 《 是《 的 可 对
( _ p r me t fI f r t n E g n e ig,No t h n i e st fW a e o s r a c n e ti we , 1 De a t n n o ma i n ie rn o o rh C i a Un v r i o t r C n e v n y a d Elc rcPo r y
txl t u g e t h r p o aiit thn ,t eg a hc mp t it o p tt na d t esma tcsmi r y a i d m n ,t eg a hc mp t l ymac ig h r p o ai l ycm u ai n h e n i i l i sj bi bi o at
i t i e e tp irt e e s n o d f r n ro i l v l.Afe wa d , o r d v r e d s mb g a i n a p o c e r r p s d n l d n h y — f y t r r s ,f u i e s ia i u to p r a h sa e p o o ,i c u i g t e s n e
Ch ne e M e s g t u t r sDia b g a i n Ba e n H o Ne i s s a e S r c u e s m i u to s d o w t
Z HANG Ru xa ,Z ii HUANG i l Jn i 。YANG Gu z n 。 n o e g
应 用 的基 础 之 一 。 因此 , 文 首 先 对 中文 信 息 结 构 进 行 了形 式 化 描 述 ; 着 对 其 进 行 优 先 级 划 分 ; 后 根 据 了四 种 不 同的 消歧 方 法 :即词 性 序 列 消 歧 法 、 图相 容 匹 配 消 歧 法 、 图相 容 度 计 算 消歧 法 、 于 实例 的 语 义 基
c m p a in ba e n e a pls Fi ly,dif r ntdia b g ton p oc s e r e i e c or ng t he dif r nt o ut to s d o x m e . nal fe e s m i ua i r e s s a e d sgn d a c di O t fe e
b s o i e e s ma tca a y i.Th ia i u to fCh n s s a e s r c u e s t e f s t p i rn h a e f rCh n s e n i n l ss e d s mb g a in o i e e me s g t u t r s i h i t se n b i g t e r
相关文档
最新文档