hownet简介

合集下载

知网HowNet介绍

知网HowNet介绍
│ │ │ ├ {AnimalHuman|动物} {animate|生物:HostOf={Sex|性 别},{AlterLocation|变空间位置:agent={~}},{StateMental|精神状 态:experiencer={~}}}
│ │ │ │ ├ {human|人} {AnimalHuman|动物:HostOf={Ability|能 力}{Name|姓名}{Wisdom|智慧},{speak|说:agent={~}},{think|思 考:agent={~}}}
可以对任何一个词语进行歧义排除的工具,并使之
知识 --资源的建设
知识是一个系统,是一个包含着各种概念与概念之间 的关系,以及概念的属性与属性之间的关系的系统
世界上一切事物(物质的和精神的)都在特定的时间 和空间内不停地运动和变化。
它பைடு நூலகம்通常是从一种状态变化到另一种状态, 并通常由 其属性值的改变来体现
知网 HowNet 介绍
keenage
2019-11-18
导论
需求 -- 研究的题目 知识 -- 资源的建设
需求 -- 研究的题目 (1)
可应用于某一个搜索引擎的“询问扩展”功能;
商品化的垃圾邮件的清除器;功能要求:在用 户自己清除两个月之后,它开始工作,自动识 别垃圾并清除,并可以在与用户的交互中,变 得愈加聪明;
│ │ │ │ │ └ {humanized|拟人} {human|人:modifier={fake| 伪},{forge|伪造:PatientProduct={~}}}
Event (1) – 关系/状态与行动的对应
- {event|事件} ├ {static|静态} {event|事件} │ ├ {relation|关系} {static|静态}

WORDNET与HOWNET之比较

WORDNET与HOWNET之比较

WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。

从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。

关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。

近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。

各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。

例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。

Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。

所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。

一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。

其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。

但二者的理论基础不同之处也很多。

Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。

Hownet的最重要的理论基础是它的哲学。

基于知网的词汇语义相似度计算1

基于知网的词汇语义相似度计算1

我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算

从语义关系的复杂性看语义词典建设

从语义关系的复杂性看语义词典建设

收稿日期:2011-03-01;修订日期:2011-04-15作者简介:崔艳菊(1967-),女,河南开封人,解放军信息工程大学外语系副教授,硕士,研究方向为翻译理论与实践;严灿勋(1971-),男,江苏靖江人,解放军信息工程大学外语系副教授,解放军外国语学院博士研究生,研究方向为应用语言学;刘慧敏(1973-),女,河南安阳人,解放军信息工程大学外语系讲师,硕士,研究方向为应用语言学。

从语义关系的复杂性看语义词典建设崔艳菊,严灿勋,刘慧敏(解放军信息工程大学外语系,河南郑州450001)摘要:语义理解已经成为计算机处理自然语言的瓶颈问题,计算机实现自然语言理解,离不开语义词典。

虽然目前已经开发出一部分语义词典,但是,从词汇语义学、句法语义学和篇章语义学来分析,现有的语义词典还难以全面反映各类语义关系。

要实现自然语言的计算机理解,必须综合语言学、计算机科学和认知科学的最新成果,不断探索。

关键词:语义关系;语义词典;语义学;自然语言理解;认知中图分类号:H061文献标识码:A文章编号:1002-722X (2011)04-0013-050.引言语义理解已成为计算机处理自然语言的瓶颈问题。

针对万维网缺少语义信息、不能进行语义检索等问题,万维网发明者Tim Berners-Lee 1998年提出了语义网络构想,尝试利用本体(ontology )表示Web 知识,建立不同形式数据之间的各种联系,使Web 信息具有计算机可以理解的语义,使计算机在语义网络上具备描述、猜想和推理的能力。

除语义网络的本体以外,其他能够体现语义关系的主要形式是语义词典。

本文拟从语义关系的复杂性探讨语义词典的建设问题。

1.语义关系的复杂性语义学是一个涉及到语言学、计算机科学、自然语言处理、认知科学、逻辑学、心理学等诸多领域的一个术语。

语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇、句子、篇章等不同级别的语言单位。

各个领域里对语言的意义研究目的不同:语言学研究语义学的目的在于找出语义表达的规律性、内在解释以及不同语言在语义表达方面的共性与个性;计算机科学研究语义学的目的在于探索机器对自然语言的理解;认知科学研究语义学为的是发现人脑对语言单位意义的存储及理解模式。

一种综合事件本体相似度计算方法

一种综合事件本体相似度计算方法

第 8期
朱文跃,等:一种综合事件本体相似度计算方法
·23 33 ·
语法相似度和语义相似度,语义相似度计算借助于《知网》语 义相似度来计算[18]。该模型不仅考虑事件类名称之间的语义 信息,事件类各个要素之间的相似度,还考虑到构建事件本体 时层次结构和非层次结构等信息,相比于传统基于概念的本体 相似度计算,准确度更高。
第 36卷第 8期 2019年 8月
计算机应用研究 ApplicationResearchofComputers
Vol36No8 Aug.2019
一种综事件本体相似度计算方法
朱文跃,刘 炜,刘宗田
(上海大学 计算机工程与科学学院,上海 200444)
摘 要:事件本体相比于传统本体具有更加丰富的语义信息,在面向事件的大数据集成中更具优势,然而用传 统的本体相似计算方法计算事件本体相似度存在很多不足。提出了一种综合的事件本体相似度计算方法。该 方法以词语相似度、集合相似度、层次结构相似计算为基础,然后从事件类名称、事件类要素、事件类层次结构和 非层次结构讨论事件本体的相似度,最终获得事件本体的综合相似度。实验表明该方法相比传统本体相似度计 算方法准确率更高,语义信息更加丰富。 关键词:本体;事件本体;概念相似度;语义;相似度计算;事件本体相似度 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)08019233206 doi:10.19734/j.issn.10013695.2018.01.0077
place at
palce
action has
action
status has status
language has
language
C2A,C2O,C2T,C2P,C2S,C2L}存在分类关系,当且仅当(E1E2 或 者 E1`= E2且 C1jC2j(j∈{A,O,T,V,P,L}))EC1 称为 EC2 的 下位事件,EC2称为 EC1的上位事件,用 Risa(EC1,EC2)表示。 例如 “地震”和“交通事故”是“突发事件”的下位事件类,可以 表示为 Risa(地震,突发事件),Risa(交通事故,突发事件)。

WordNet简介

WordNet简介
B.3
WordNet的词汇组织结构
➢同义词集(Synsets)
Example:
❖ 地球绕着太阳转, 自然会有寒来暑往的四季交替 ❖ 自然奥秘 {自然、必然、一定、必定} {自然、天然}
B.4
WordNet的词汇组织结构
词汇(Words) 、同义词集、语义(Senses)的数量
POS Unique Strings Synsets Total Word-Sense Pairs
Noun 109195
75804
134716
Verb
11088
13214
24169
Adjective 21460
18576
31184
Adverb 4607
3629
5748
Totals 146350 111223
195817
B.5
WordNet的词汇组织结构
多义词信息(1)
词 性 单义词和语义
名词
94685
动词 形容词
5920 15981
副词
3820
总计
120406
多义词
14510 5168 5479 787 25944
多义词语义
40002 18221 15175 1900 75298
B.6
WordNet的词汇组织结构
多义词信息(2) 词 性 平均词义(包括单义词) 平均词义
名词
1.23
2.75
动词
B.18
WorNet 中词语间的关系
动词蕴涵关系(entailment) 、动词的上位关系 (hypernymmy) 、方式关系(troponymy)、因果关系 (cause relation)

知网 HowNet - 清华大学

知网 HowNet - 清华大学

知网不是什么?( 开场白 --知网不是什么?( ) 知网不是什么?(2)
近年他在另外的场合又说: 近年他在另外的场合又说 “HowNet is a database/network of semantic relationships among Chinese words. Conceptually it’s similar to WordNet of English, but the author claims they differ substantially. For one thing, HowNet is NOT free. Well, they are making words A-D free for download, as a teaser.”
buyer, purchaser, emptor, vendee (a person who buys) 中是歧义的; 哪个 “buy”? -- 在 WordNet中是歧义的; 中是歧义的 但在 HowNet中是没有歧义的 中是没有歧义的
知网的知识力量 – 动态的激活
知网常识推理举例 概念相似度计算 概念相关关系的建立
知网系统的概貌
数据统计 系统组成
数据统计
Chinese character Chinese word & expression English word & expression Chinese meaning English meaning Definition Record 7152 92159 86141 106591 106731 27877 172097
关于WordNet的评述(2) 的评述( ) 关于 的评述
Princeton paper reads:

知网 HowNet 介绍

知网 HowNet 介绍

知识 --资源的建设

知识是一个系统,是一个包含着各种概念与概念之间 的关系,以及概念的属性与属性之间的关系的系统 世界上一切事物(物质的和精神的)都在特定的时间 和空间内不停地运动和变化。 它们通常是从一种状态变化到另一种状态, 并通常由 其属性值的改变来体现



知识的基本单位: 万物(包括物质的和精神的)、部件、 属性、时间、空间、属性值、事件
2234
154
819 248 892 121
分类体系详解
Entity
Event Attribute Attribute
vy|实体} ├ {thing|万物} {entity|实体:{ExistAppear|存现:existent={~}}} │ ├ {physical|物质} {thing|万物:HostOf={Appearance|外 观},{perception|感知:content={~}}} │ │ ├ {animate|生物} {physical|物质:HostOf={Age|年龄},{alive|活 着:experiencer={~}},{die|死:experiencer={~}},{metabolize|代 谢:experiencer={~}},{reproduce|生 殖:PatientProduct={~},agent={~}}} │ │ │ ├ {AnimalHuman|动物} {animate|生物:HostOf={Sex|性 别},{AlterLocation|变空间位置:agent={~}},{StateMental|精神状 态:experiencer={~}}} │ │ │ │ ├ {human|人} {AnimalHuman|动物:HostOf={Ability|能 力}{Name|姓名}{Wisdom|智慧},{speak|说:agent={~}},{think|思 考:agent={~}}} │ │ │ │ │ └ {humanized|拟人} {human|人:modifier={fake| 伪},{forge|伪造:PatientProduct={~}}}

中文微博情感分析系统LTLAB上海交通大学中德语言技术联

中文微博情感分析系统LTLAB上海交通大学中德语言技术联
基于标点符号的特征:问号的数量和感叹号的数量 句中评价词的个数 纯粹表达主观意愿词的个数。评测要求纯粹表达主观意愿的句子
不算作观点句。针对这一要求,我们人工收集了一些纯粹表达主 观意愿词(如“祝愿”),并将句中该类词的数量作为一个特征
根据实验结果,人工调整了个别特征的权重,调低了分类器 判分的阈值
简介
在本届评测设立的3个评测任务中,LTLAB分别参加了 任务1(观点句识别)和任务3(情感要素抽取)。
对于任务1:采用了基于分类器的方案,特征抽取时 考虑到了多种词性和句法特征。
对于任务3:参评系统结合了基于分类器的抽取和基 于模板的抽取两种方案,考虑到了词的统计信息和微 博特有的话题信息。
• 机器学习方法+后续规则过滤是 析,速度受到限制,不利于扩
行之有效的方法。

来自网络和评测数据样例的评价词 词典加入正则表达式模板,如“丢.{1,4}的脸”可以匹配“丢我的
脸” 对于抽取出的评价词,首先设定初始评价极性为词典中的极性;
然后向前一个范围内寻找是否含有表否定的词语,如“不”、 “没有”等,每找到一个词就对当前评价极性进行一次反转。
2. 观点句识别
基于VFI(Voting Feature Interval)分类器进行二值分类,正例即为观 点句:
4. 总结
经验
不足
• 两个任务中都使用到了VFI分类 • 评价词抽取采用了较简单的词 器,在保证准确率变化不大的 典匹配的方法,未考虑到上下 情况下获得了较高的召回率。 文
• 构建适合网络语言的分词词表 • 人工收集词典的方式过于低效, 和情感词典较大程度的改善了 不利于扩展
结果。
• 系统依赖于完整的依存句法分
3. 情感要素抽取

基于LDA模型和Hownet的多粒度子话题划分方法

基于LDA模型和Hownet的多粒度子话题划分方法

优先出版 计 算 机 应 用 研 究 第32卷--------------------------------作者简介:李湘东(1963-),男,辽宁庄河人,副教授,博士,主要研究方向为信息检索、数据挖掘、自动分类;巴志超(1990-),男,山东滨州人,硕士研究生,主要研究方向为信息检索、自动分类;黄莉(1964-),女,广东普宁人,副研究馆员,硕士,主要研究方向为科技文献管理、文献资源建设、信息服务.基于LDA 模型和Hownet 的多粒度子话题划分方法李湘东a, b ,巴志超a ,黄 莉c(武汉大学 a .信息管理学院;b .信息资源研究中心;c .图书馆,武汉 430072)摘 要:针对LDA 建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA )和知网(Hownet )语义词典相结合的多粒度子话题划分方法(MGH-LDA )。

首先采用LDA 模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF 模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网(Hownet )语义词典来计算新闻文档之间的相似度;最后通过single-pass 增量聚类算法进行新闻文档的聚类,实现子话题划分。

通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。

关键词:新闻报道;子话题划分;多粒度;狄利克雷分配模型;语义相似度计算 中图分类号:TP391 文献标志码:AMuti-granularity subtopic division based on latentdirichlet allocation and hownetLI Xiang-dong 1, 2, BA Zhi-chao 1, HUANG Li 3(a. School of Information Management, b. Center for Studies of Information Resources, c. Library, Wuhan University, Wuhan 430072, China)Abstract: In order to solve the generalization of the Latent Dirichlet Allocation (LDA) model result and high similarity of documents between subtopics, this paper proposed a new method (called as MGH-LDA) which based on the Latent Dirichlet Allocation (LDA) and Hownet semantic dictionary to realize muti-granularity subtopic division. Firstly, the method adopted the LDA model to initially divide the news collection that come from different resources and acquired the document collections of the same topics according to the contribution degree of the documents. Secondly, it obtained the muti-granularity characteristics collections based on the TF-IDF model and represented the news documents with the key words characteristics. Owning to a high similarity that the documents of the subtopics have, the method introduced the calculation method of the word semantic similarity degree and adopted the Hownet semantic dictionary to realize the calculation. Finally, the method realized the subtopics division by clustering the news documents with the single-pass incremental clustering algorithm. The method can improve the accuracy of the hot news sub-topics division effectively by the experiments on the real news data.Key Words: news reports; subtopic division; muti-granularity; Latent Dirichlet Allocation (LDA); semantic similarity calculation目前,由于互联网快速发展带来的信息过载、缺乏结构性等问题,使得人们很难在海量的信息中快速、准确地获取用户感兴趣的新闻。

基于HowNet的词汇语义倾向计算

基于HowNet的词汇语义倾向计算

基于HowNet的词汇语义倾向计算作者:朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德, ZHU Yan-lan, MIN Jin, ZHOU Ya-qian , HUANG Xuan-jing, WU Li-de作者单位:复旦大学,计算机科学与工程系,上海,200433刊名:中文信息学报英文刊名:JOURNAL OF CHINESE INFORMATION PROCESSING年,卷(期):2006,20(1)被引用次数:119次参考文献(9条)1.Vasileios Hatzivassiloglou;Kathleen R McKeown Predicting the semantic orientation of adjectives 19972.Turney Peter;Littman Michael Measuring praise and criticism:Inference of semantic orientation from association[外文期刊] 2003(04)3.Turney Peter Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[外文会议] 20024.BoPang;LillianLee Shivakumar Vaithyanathan.Thumbsup? Sentimentclessificationusingmachinelearningtechniques 20025.Bo Pang;Lillian Lee Seeing Stars:Exploiting Class Relationships for Sentiment Categorization with respect to Rating Scales[外文会议] 20056.K Dave;S Lawrence;DM Pennock Mining the peanut gallery:opinion extraction and semantic classification of product reviews 20037.Bing Liu;Minqing Hu;Junsheng Cheng Opinion observer:analyzing and comparing opinions on the Web 20058.HowNet HowNet's Home Page9.刘群;李素建基于《知网》的词汇语义相似度的计算 2002本文读者也读过(3条)1.赵林.胡恬.黄萱菁.吴立德基于知网的概念特征抽取方法[期刊论文]-通信学报2004,25(7)2.许云.樊孝忠.张锋.XU Yun.FAN Xiao-Zhong.ZHANG Feng基于知网的语义相关度计算[期刊论文]-北京理工大学学报2005,25(5)3.熊德兰.程菊明.田胜利.XIONG De-lan.CHENG Ju-ming.TIAN Sheng-li基于HowNet的句子褒贬倾向性研究[期刊论文]-计算机工程与应用2008,44(22)引证文献(118条)1.贾珊珊.邸书灵.范通让基于表情符号和情感词的文本情感分析模型[期刊论文]-河北省科学院学报 2013(2)2.甘小红.张兆年基于多特征融合的中文情感分类方法研究[期刊论文]-图书情报工作 2012(21)3.刘培奇.凡星.段中兴倾向性文本的概念图过滤技术的研究[期刊论文]-微电子学与计算机 2012(12)4.徐群岭一种新型的中文文本情感计算模型[期刊论文]-计算机应用与软件 2011(6)5.张素智.孙培锋基于KSVM的网络评论情感分类研究[期刊论文]-郑州轻工业学院学报(自然科学版) 2011(3)6.李娟.张全.贾宁中文词语倾向性分析处理[期刊论文]-计算机工程与应用 2009(2)8.程亮.何志浩.李留英.李龙中文BBS内容安全监控模型构想[期刊论文]-情报杂志 2007(12)9.李华.储荷兰.高旻中文网络评论观点词汇语义褒贬倾向性判断[期刊论文]-计算机应用 2012(11)10.庞娜增量学习算法对文本情感识别模型的改进[期刊论文]-电脑开发与应用 2011(7)11.何凤英基于语义理解的中文博文倾向性分析[期刊论文]-计算机应用 2011(8)12.彭学仕.孙春华面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)13.任小燕中文情感分析综述[期刊论文]-科技信息 2011(31)14.孙春华.刘业政.彭学仕一种含强度的基准词选择和词汇倾向性判别方法[期刊论文]-情报学报 2011(12)15.杨经.林世平基于SVM的文本词句情感分析[期刊论文]-计算机应用与软件 2011(9)16.李娟.张全.贾宁.臧翰芬基于模板的中文人物评论意见挖掘[期刊论文]-计算机应用研究 2010(3)17.党蕾.张蕾一种基于知网的中文句子情感倾向判别方法[期刊论文]-计算机应用研究 2010(4)18.程显毅.杨天明.朱倩.蔡月红基于语义倾向性的文本过滤研究[期刊论文]-计算机应用研究 2009(12)19.宋施恩.樊兴华基于词共现和词上下文的领域观点词抽取方法[期刊论文]-计算机工程与设计 2013(11)20.陈涛.徐睿峰.吴明芬.刘滨一种基于情感句模的文本情感分类方法[期刊论文]-中文信息学报 2013(5)21.黄硕.周延泉基于知网和同义词词林的词汇语义倾向计算[期刊论文]-软件 2013(2)22.龙珑.邓伟绿色网络博文倾向性分析算法研究[期刊论文]-计算机应用研究 2013(4)23.程传鹏.王海龙情感倾向判断中基准词的选择[期刊论文]-智能系统学报 2013(4)24.李寿山.黄居仁基于Stacking组合分类方法的中文情感分类研究[期刊论文]-中文信息学报 2010(5)25.张健.钱杰.徐茂兴网络评论观点抽取的研究[期刊论文]-浙江工业大学学报 2010(4)26.沈凤仙.朱巧明基于特征倾向性的网页特征提取方法研究[期刊论文]-计算机工程与设计 2009(16)27.梁坤.古丽拉·阿东别克基于SVM的中文新闻评论的情感自动分类研究[期刊论文]-电脑知识与技术 2009(13)28.崔鸿达.蒋朝惠基于语义倾向性分析的不良文本检测模型研究[期刊论文]-贵州大学学报(自然科学版)2013(3)29.周胜臣.瞿文婷.石英子.施询之.孙韵辰中文微博情感分析研究综述[期刊论文]-计算机应用与软件 2013(3)30.李国林.万常选.边海容.杨莉.钟敏娟基于语素的金融证券域文本情感探测[期刊论文]-计算机研究与发展2011(z2)31.李培.何中市.黄永文基于依存关系分析的网络评论极性分类研究[期刊论文]-计算机工程与应用 2010(11)32.闻彬词语情感倾向性识别[期刊论文]-咸宁学院学报 2010(6)33.赵煜.蔡皖东.樊娜.李慧贤利用词汇分布相似度的中文词汇语义倾向性计算[期刊论文]-西安交通大学学报2009(6)34.马海兵.刘永丹.王兰成.李荣陆三种文档语义倾向性识别方法的分析与比较[期刊论文]-现代图书情报技术2007(4)35.王兰成.徐震基于情感本体的主题网络舆情倾向性分析[期刊论文]-信息与控制 2013(1)36.魏韡.向阳一种新的中文词语情感极性判别方法[期刊论文]-微电子学与计算机 2013(5)37.张莉跨领域中文评论的情感分类研究[期刊论文]-计算机应用研究 2013(3)38.李迎凯.徐小良一种改进的基于知网的句子相似度计算方法[期刊论文]-电子科技 2012(7)39.邓箴一种基于本体的词汇语义倾向计算[期刊论文]-中小企业管理与科技 2012(13)40.吴丽华.冯建平.曹均阔中文网络评论的IT产品特征挖掘及情感倾向分析[期刊论文]-计算机与数字工程41.张瑞SMS.网络舆情信息监控系统的设计与实现[期刊论文]-现代情报 2012(3)42.金宇.朱洪波.王亚强.陈黎.于中华基于直推式学习的中文情感词极性判别[期刊论文]-计算机工程与应用2011(34)43.宋晓雷.王素格.李红霞.李德玉基于概率潜在语义分析的词汇情感倾向判别[期刊论文]-中文信息学报 2011(2)44.王晓东.刘倩.张征情感词汇Ontology驱动的话题倾向性计算[期刊论文]-计算机工程与应用 2011(27)45.陈发鸿基于核方法的文本极性分类研究[期刊论文]-海峡科学 2011(8)46.杨昱昺.吴贤伟改进的基于知网词汇语义褒贬倾向性计算[期刊论文]-计算机工程与应用 2009(21)47.申晓晔.封化民.毋非基于语义的Web新闻内容倾向性分析框架[期刊论文]-郑州大学学报(理学版) 2009(1)48.徐琳宏.林鸿飞.杨志豪基于语义理解的文本倾向性识别机制[期刊论文]-中文信息学报 2007(1)49.杨国泰.陈启安一种预测文本情感分类词语权值的算法[期刊论文]-电脑知识与技术 2013(12)50.马晓玲.金碧漪.范并思中文文本情感倾向分析研究[期刊论文]-情报资料工作 2013(1)51.任远.巢文涵.周庆.李舟军基于话题自适应的中文微博情感分析[期刊论文]-计算机科学 2013(11)52.张梅.段建勇概念与属性间语义约束知识的获取方法研究[期刊论文]-语言文字应用 2012(1)53.丁晟春.文能.蒋婷.孟美任基于CRF模型的半监督学习迭代观点句识别研究[期刊论文]-情报学报 2012(10)54.魏韡.向阳.陈千中文文本情感分析综述[期刊论文]-计算机应用 2011(12)55.赵鹏.何留进.孙凯.方薇基于情感计算的网络中文信息分析技术[期刊论文]-计算机技术与发展 2010(11)56.闻彬.何婷婷.罗乐.宋乐.王倩基于语义理解的文本情感分类方法研究[期刊论文]-计算机科学 2010(6)57.柳位平.朱艳辉.栗春亮.向华政.文志强中文基础情感词词典构建方法研究[期刊论文]-计算机应用 2009(10)58.杜伟夫.谭松波.云晓春.程学旗一种新的情感词汇语义倾向计算方法[期刊论文]-计算机研究与发展 2009(10)59.王素格.李德玉.魏英杰.宋晓雷基于同义词的词汇情感倾向判别方法[期刊论文]-中文信息学报 2009(5)60.李钝.乔保军.曹元大.万月亮基于语义分析的词汇倾向识别研究[期刊论文]-模式识别与人工智能 2008(4)61.卢玲.王越.杨武一种基于朴素贝叶斯的中文评论情感分类方法研究[期刊论文]-山东大学学报(工学版)2013(6)62.朱俭文本情感研究综述[期刊论文]-软件导刊 2012(9)63.路冬媛.李秋丹一种融合读者心情要素的新闻推送方法[期刊论文]-中文信息学报 2011(3)64.陈岳峰.苗夺谦.李文.张志飞基于概念的词汇情感倾向识别方法[期刊论文]-智能系统学报 2011(6)65.宋乐.何婷婷.王倩.闻彬极性相似度计算在词汇倾向性识别中的应用[期刊论文]-中文信息学报 2010(4)66.孟凡博.蔡莲红.陈斌.吴鹏文本褒贬倾向判定系统的研究[期刊论文]-小型微型计算机系统 2009(7)67.白鸽.左万利.赵乾坤.曲仁镜使用机器学习对汉语评论进行情感分类[期刊论文]-吉林大学学报(理学版)2009(6)68.孙宏纲.陆余良中文博客主题情感句自动抽取研究[期刊论文]-计算机工程与应用 2008(20)69.孙宏纲.陆余良.刘金红.龚笔宏基于HowNet的VSM模型扩展在文本分类中的应用研究[期刊论文]-中文信息学报2007(6)70.徐鹏基于直觉模糊推理的网页在线评论情感倾向分类[期刊论文]-计算机应用与软件 2013(6)71.金鑫.李小腾.朱建明突发事件网络舆情的演变机制及其情感性分析研究[期刊论文]-现代情报 2012(12)72.王晓东.李永波.郑颖基于模板匹配的网络评论倾向性分析[期刊论文]-计算机工程与应用 2012(32)73.王晓莉.古里拉·阿东别克哈萨克语语句情感识别研究初探[期刊论文]-计算机应用与软件 2011(8)75.姚天昉.娄德成汉语语句主题语义倾向分析方法的研究[期刊论文]-中文信息学报 2007(5)76.杨震.赖英旭.段立娟.李玉鑑基于上下文重构的短文本情感极性判别研究[期刊论文]-自动化学报 2012(1)77.王铁套.王国营.陈越.黄惠新基于语义模式与词汇情感倾向的舆情态势研究[期刊论文]-计算机工程与设计2012(1)78.代大明.王中卿.李寿山.李培峰.朱巧明基于情绪词的非监督中文情感分类方法研究[期刊论文]-中文信息学报2012(4)79.李芳.何婷婷.宋乐评价主题挖掘及其倾向性识别[期刊论文]-计算机科学 2012(6)80.陈铭.李生红.陈秀真基于句式结构的评论倾向性识别方法[期刊论文]-通信技术 2011(2)81.万月亮.朱贺军.刘宏志基于网页结构化倾向的网页分类方法研究[期刊论文]-信息网络安全 2009(9)82.江敏.肖诗斌.王弘蔚.施水才一种改进的基于《知网》的词语语义相似度计算[期刊论文]-中文信息学报2008(5)83.文涛.杨达.李娟中文软件评论挖掘系统的设计与实现[期刊论文]-计算机工程与设计 2013(1)84.杨频.李涛.赵奎一种网络舆情的定量分析方法[期刊论文]-计算机应用研究 2009(3)85.代大明.李寿山.李培峰.朱巧明基于情绪词与情感词协作学习的情感分类方法研究[期刊论文]-计算机科学2012(12)86.LI Dun.MA Yong-tao.GUO Jian-li Words semantic orientation classification based on HowNet[期刊论文]-中国邮电高校学报(英文版) 2009(1)87.侯敏.滕永林.李雪燕.陈毓麒.郑双美.侯明午.周红照话题型微博语言特点及其情感分析策略研究[期刊论文]-语言文字应用 2013(2)88.李寿山.李逸薇.黄居仁.苏艳基于双语信息和标签传播算法的中文情感词典构建方法[期刊论文]-中文信息学报 2013(6)89.常晓龙.张晖融合语素特征的中文褒贬词典构建[期刊论文]-计算机应用 2012(7)90.赵妍妍.秦兵.刘挺文本情感分析[期刊论文]-软件学报 2010(8)91.侯锋.王传廷.李国辉网络意见挖掘、摘要与检索研究综述[期刊论文]-计算机科学 2009(7)92.乐国安.董颖红.陈浩.赖凯声在线文本情感分析技术及应用[期刊论文]-心理科学进展 2013(10)93.李勇敢.周学广.孙艳.张焕国结合依存关联分析和规则统计分析的情感词库构建方法[期刊论文]-武汉大学学报(理学版) 2013(5)94.田超.朱青.覃左言.李鹏基于评论分析的查询服务推荐排序[期刊论文]-小型微型计算机系统 2011(9)95.张彬.杨志晓基于基准词的文本情感倾向性研究[期刊论文]-电脑知识与技术 2011(8)96.王翠波基于文本情感挖掘的企业技术竞争情报采集模型研究[期刊论文]-图书情报工作 2010(14)97.张亮.尹存燕.陈家骏基于语义树的中文词语相似度计算与分析[期刊论文]-中文信息学报 2010(6)98.杨超.冯时.王大玲.杨楠.于戈基于情感词典扩展技术的网络舆情倾向性分析[期刊论文]-小型微型计算机系统2010(4)99.李斌.彭勤科.张晨突发公共事件网络在线评论序列的特征分析[期刊论文]-计算机应用研究 2008(9)100.徐军.丁宇新.王晓龙使用机器学习方法进行新闻的情感自动分类[期刊论文]-中文信息学报 2007(6) 101.徐健基于网络用户情感分析的预测方法研究[期刊论文]-中国图书馆学报 2013(3)102.周杰.林琛.李弼程基于机器学习的网络新闻评论情感分类研究[期刊论文]-计算机应用 2010(4)103.郑逢强.林磊.刘秉权.孙承杰《知网》在命名实体识别中的应用研究[期刊论文]-中文信息学报 2008(5)104.潘怡.叶辉.邹军华E-learning评论文本的情感分类研究[期刊论文]-开放教育研究 2014(2)105.厉小军.戴霖.施寒潇.黄琦文本倾向性分析综述[期刊论文]-浙江大学学报(工学版) 2011(7)106.李实.叶强.李一军.罗嗣卿挖掘中文网络客户评论的产品特征及情感倾向[期刊论文]-计算机应用研究2010(8)107.王海.冯向前.钱钢网页在线评论情感倾向的直觉模糊分类[期刊论文]-计算机工程与应用 2013(1)108.周咏梅.杨佳能.阳爱民面向文本情感分析的中文情感词典构建方法[期刊论文]-山东大学学报(工学版)2013(6)109.施寒潇.厉小军主观性句子情感倾向性分析方法的研究[期刊论文]-情报学报 2011(5)110.殷春霞.彭勤科利用复杂网络为自由评论鉴定词汇情感倾向性[期刊论文]-自动化学报 2012(3)111.田超.朱青.覃左言.李鹏基于评论分析的查询服务推荐排序[期刊论文]-小型微型计算机系统 2011(9) 112.杨超.冯时.王大玲.杨楠.于戈基于情感词典扩展技术的网络舆情倾向性分析[期刊论文]-小型微型计算机系统 2010(4)113.文能.丁晟春商品主观评论信息的倾向性分析综述[期刊论文]-情报杂志 2010(12)114.傅向华.刘国.郭岩岩.郭武彪中文博客多方面话题情感分析研究[期刊论文]-中文信息学报 2013(1)115.郗亚辉.张明.袁方.王煜产品评论挖掘研究综述[期刊论文]-山东大学学报(理学版) 2011(5)116.姚天昉.程希文.徐飞玉.汉思·乌思克尔特.王睿文本意见挖掘综述[期刊论文]-中文信息学报 2008(3) 117.王洪伟.刘勰.尹裴.廖雅国Web文本情感分类研究综述[期刊论文]-情报学报 2010(5)118.赵妍妍.秦兵.刘挺文本情感分析[期刊论文]-软件学报 2010(8)引用本文格式:朱嫣岚.闵锦.周雅倩.黄萱菁.吴立德.ZHU Yan-lan.MIN Jin.ZHOU Ya-qian.HUANG Xuan-jing.WU Li-de基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(1)。

文物知识图谱的构建与应用探讨

文物知识图谱的构建与应用探讨

d題!实践I PRACTICE文物知识图谱的构建与应用探讨文!J绍南/首都博物馆北京100045杨鸿浪/首都博物馆北京100045侯霞/首都博物馆北京100045摘要:随着我国文物征集、保护、研究、传播事业的不断发展,形成了来源不同、格式不同的海量文物数据,其中蕴含着巨大的数据价值。

文物知识图谱对于文物知识数据分析、展示和利用具有天然的优势。

在文物领域构建知识图谱后,语义检索、推荐、问答是最典型的三类应用,是在智慧博物馆建设中迈出的一大步。

关键词:智慧博物馆,文物知识图谱,关联数据,知识学习,文物元数据模型为了更好地展示、保护和研究文物遗产,世界各国建立了数以万计各种类型的博物馆,博物馆逐渐成为文物保护和文化传承的主要载体。

博物馆的发展可以划分为传统博物馆、数字博物馆和智慧博物馆三个阶段。

传统实体博物馆中,信息的传递主要以文物到人的形式存在,人到文物的信息传递需要考虑到文物展出的时间和空间要求。

而数字博物馆的建立克服了时空要求,通过集中式的数据采集将文物实体数字化,并借助互联网和多媒体技术在终端上更好的将文物展示给人。

但是文物与人的信息传递被数字化所阻隔,人看到的只是冷冰冰的数字化的文物,导致真实感、交互性和体验感不足,尤其是对于文物与文物之间的关系挖掘和研究支持不足,不利于文物的维护、保管和研究。

智慧博物馆的提出是现代技术进步的产物,随着互联网、云计算、虚拟现实和人工智能技术的进步,数字博物馆存在的问题也逐渐得到解决。

其中知识图谱是一种可以挖掘实体与实体之间关系的技术,可以有效挖掘文物与文物间的关系,构建知识数据库,进而有效地解决文物的存储、展示和管理问题。

因此将知识图谱引入到智慧博物馆建设中,是目前的发展方向。

知识图谱最早于2012年由谷歌提出并成功应用于搜索引擎,当前知识图谱已为语义搜索、大数据分析、智能推荐和数据集成等提供强大的支撑,正在多种大型行业和领域中得到广泛应用。

除谷歌外典型的案例还有Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识图谱。

基于HowNet构造语义场的方法

基于HowNet构造语义场的方法

最 大 义 项 相 似 度 作 为 该 词 语 对 的 相 似 度 "($!CN1
CO-G $%P ."($!ENQ1EOT-02 QR S1TR U
8A8 义项间的相似度计算
4567#’中两个义项的相 似 度 "($!EN1EO-就 由 VWX的四元组对应部分的相 似 度 加 权 求 和 得 到1数 学模型如下@
-清华大学 计算机科学与技术系=智能技术与系统国家重点实验室=北京 $%%%C(.
摘 要J为 了 能 尽 量 消 除 传 统 语 义 场 研 究 中 的 主 观 随 意 性! 提出一种基于 "#$%&’构造语义场的新方法!并充分利 用 语 义场的空间特性!将词语相似度计算引入语义场 用 于 划 分 语 义 场 结 构(计 算 实 例 表 明)提 出 的 构 造 语 义 场*划 分 语 义 场 结 构 的 方 法!有 利 于 计 算 机 自 动 获 得 语 义 场!具 有 客 观 性 和 可 计 算 性 的 特 点!有 效 排 除 了 以 往 构 造 语 义 场 的 主 观 随 意 性 !可 应 用 到 各 种 基 于 语 义 的 文 本 处 理 方 法 中 (
$H%FEdbcJ237?8S7V2?398?:<11234L1<S73V2:72<@WL;?8W12S2@782VTL <?;#<VLV<>VS23234
一 步M理 解N原 文=一些 研 究 者 希 望 将 语 义 学 应 用 于 文本处 理技 术=开 始 着 眼 于 文 本 字 表 层 下 的 语 义 层 的研究Q于是=语义场成为研究的热点问题 Q @$A
在 文 本 处 理 领 域=非 结 构 化 文 本 可 以 用 向 量 空 间 模型 形 式 化 表 示=使 各 种 数 学 运 算 成 为 可 能Q 然 而=在向量 万空方间数模据型 的 词 间 相 互 独 立 基 本 假 设 的 前 提 下 =堆 积 起 来 的 词 语 无 法 真 正 代 表 原 文 Q为 了 能 进

知网HowNet介绍

知网HowNet介绍
├ {AlterRelation|变关系} {AlterSpecific|实变:agent={*}}
│ ├ {AlterPossession|变领属} {AlterRelation|变关 系:agent={*},possession={*}}
│ │ ├ {take|取} {AlterPossession|变领 属:agent={*},possession={├ {GetMarried|结婚}
{associate|交
往:agent={human|人:modifier={male|男}},partner={human|
人:modifier={female|女}}};{associate|交往:agent={human|
agentanimalhuman动物directionlocationinilocation位置locationthrulocation位置locationfinlocation位置instrumentleg腿foot脚a上下位b同义c反义e部件整体f属性宿主g材料成品h工具事件i场所事件j时间事件k值属性l实体值m事件角色n相关关系o施事经验者关系主体事件p受事内容领属物等事件sufferfrom罹患xcausecure医治y
事件关系和角色转换 (2)
{buy|买} [entailment] <----> {choose|选择}[entailment]; agent OF {buy|买}=agent OF {choose|选择}; possession OF {buy|买}=content OF {choose|选择}; source OF {buy|买}=location OF {choose|选择}.
│ ├ {physical|物质} {thing|万物:HostOf={Appearance|外 观},{perception|感知:content={~}}}

知网 HowNet - 清华大学

知网 HowNet - 清华大学

知网不是什么?( 开场白 --知网不是什么?( ) 知网不是什么?(3)
知网不是语义词典、义类词典、概念词典、 知网不是语义词典、义类词典、概念词典、 英汉双语词典 – 知网不是词典 知网不是汉化的WordNet、不是WordNet的 、不是 知网不是汉化的 的 中文代用品 知网不是语言学研究的产物
概念相似度计算
贪官 <> 学生 贪官 <> 教师 贪官 <> 校长 贪官 <> 市长 walk <> run walk <> jump walk <> swim walk <> fly walk <> buy 0.307692 0.355556 0.386667 0.454545 0.144444 0.144444 0.130159 0.124444 0.018605
知网中概念的定义 (1) )
Concept definitions in HowNet – “buy” 1. {GiveAsGift|赠:manner={guilty|有罪 有罪}, 赠 有罪 purpose={entice|勾引 勾引}} 勾引 2. {buy|买} 买 Cf. Synset definition in WordNet – “buy” 1. buy, purchase (obtain by purchase;) 2. bribe, corrupt, buy, make grease palm (make illeagal payment)
buyer, purchaser, emptor, vendee (a person who buys) 中是歧义的; 哪个 “buy”? -- 在 WordNet中是歧义的; 中是歧义的 但在 HowNet中是没有歧义的 中是没有歧义的

基于HowNet的术语语义知识库构建技术

基于HowNet的术语语义知识库构建技术

基于HowNet的术语语义知识库构建技术王羊羊;陈刚;蔡东风;王裴岩【摘要】Knowledge base for specific domains can satisfy the knowledge requirements for the natural lan-guage processing system. However,most current work for building the domain knowledge base is hand -built and inefficient. To solve this problem,more than 2300 pieces of terminology describing information and the rules that have been formulated were analyzed. Then more than 200 semantic frameworks were summa-rized based on core word while the other words are filled to the frameworks according to the rule and the sta-tistical results. Finally,the validness of the constructed knowledge base is demonstrated that good results are achieved in term of similarity calculation.%领域知识库能够满足特定领域的自然语言处理系统对知识的需求,然而大部分领域知识库的构建方式为手工构建,效率较低。

针对这一问题,分析已经手工构建的2300余条航空术语描述信息及其在构建过程中总结的规则,在此基础上,总结了200余条核心词框架,核心词以外的其他词,通过一种规则与统计相结合的方法进行框架的自动填充,从而提高了构建术语语义知识库的自动化程度。

HowNet

HowNet

汉语词语W1和W2,如果W1有n个义项(概念):S11、
SSS21im2m、,(…我A…,们BS规)1n=定,l,WolgoW2g有p1(p和md(eWc个soc2义m的rim项p相ot(i似n概o(n度念A( A,为)B:,各B))S)个2)1、概S念22的、相…似…
度绝对值的之最大值,W1和W2相式度计算如公式2:
关键词 知网;词语相似度;义原相似度;字典结构;句子相似度
1 引言
相似度的计算是中文信息处理中最为基础和重 度,并在词语定义词典的存储方式做了改进,利用汉
要的工作,它直接决定着某些领域的研究和发展。如 字的编码来组织词典。实验表明:一些区别词的相似
机器翻译、信息检索、自动文摘、自动问答系统等领 度更加合理,且提高了词语的查找速度。本文在计算
本文第2节对相似度进行简单介绍;第3节介绍基 于HowNet的词语相似度的计算;第4节对字典的设计 的改进进行讨论;第5节介绍句子相似度的计算;第6 节实验结果与分析;第7节对全文进行总结与展望。
2 相似度简介
同义词词林、知网、WordNet等);另一类是基于统 计的相似度计算方法(如TF-IDF等)。目前国内,以《知

32 depth(p1) − depth(p2 )
p1, p2 depth (p1) dist(p1,p2 )
Sim( p1, p2 ) = ±
α

基于HowNet句子相似度的计算
的词相似度仍然很大。文献[4] 在文献[2]论文的基础 上,进一步考虑了义原的深度信息,并利用《知网》 义原间的反义、对义关系和义原的定信息来计算词语 相似度。本文借鉴文献[2]、[4]的词语相似度计算方 法,在计算词语的相似度时考虑单义元的否定(义元相 似度取反)、加大符号义元”^”和”~ ” 的权植、对 第一义原有符号”^”的词语相似度的值取反。把词 语相似度的取值范围规定为[-1,+1]之间。若词语的 定义一样,则语义相似度为1;若两个词语的定义相 反,那么其相似度为-1。

HowNet在自然语言处理领域的研究现状与分析

HowNet在自然语言处理领域的研究现状与分析

HowNet 在自然语言处理领域的研究现状与分析高璐1赵小兵2(1.中央民族大学信息工程学院,中国北京100081;2.国家语言资源监测与研究中心少数民族语言分中心,中国北京100081)【摘要】自HowNet 诞生以来,作为一个中文常识性知识库,HowNet 为自然语言处理提供了一个新的研究资源。

本文主要研究了HowNet 利用其计算词语相似度的优势在中文自然语言处理应用中做出的突出贡献,深入剖析了HowNet 的知识结构以及相关技术,并提出了HowNet 在近年来应用过程中遇到的技术难题及瓶颈。

【关键词】知网;自然语言处理;HowNet ;词语相似度自然语言处理的最终目标是让计算机能够与人类进行有效的通信。

国外的自然语言处理发展的相对成熟,大规模的真实语料库的建立以及知识库诸如WordNet 、FrameNet 的不断完善推动了自然语言的发展。

尽管这样,由于中文和英文的结构句法不同,有自己独特的特色,因此我们不能本着“拿来主义”,用国外已有的技术来处理中文的自然文本,必须有一套适合中文的处理模式。

HowNet 由董振东、董强先生于1999年在因特网上公布,作为一个双语知识库,它为中文自然语言处理提供了不可多得的语言资源。

目前关于知网的研究还处于基础阶段,刘群、李素建等人深入研究了基于HowNet 的词语相似度计算,其他的研究人员也将HowNet 应用于信息检索、MC 评测集的建立等领域,取得了可喜的成绩。

本文深入研究了HowNet 的相关结构,分析了HowNet 的知识组成以及网状关系,探讨了Hownet 在当前领域的现状并指出了其存在的问题,并分析了原因。

1HowNet 简介《知网》[3]是一个在线的语言外的知识系统,其中概念的定义被描述为计算机很容易计算的机构化标记语言形式。

它除了提供中文含义还提供了含义相等的英文词汇。

知网中的每个概念有多个义项,而每个义项由多个义原按照KDML 语法组织在一起。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

知网简介知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

今天它终于上网面世了。

我们期待会有越来越多的人关心它,使用它,甚至参与它的完善、扩充和发展。

1. 问题的提出1988年前后,董振东曾在他的几篇文章中提出以下的观点:(1) 自然语言处理系统最终需要更强大的知识库的支持。

(2) 关于什么是知识,尤其是关于什么是计算机可处理的知识,他提出:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。

一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。

(3) 关于如何建立知识库,他提出应首先建立一种可以被称为知识系统的常识性知识库。

它以通用的概念为描述对象,建立并描述这些概念之间的关系。

(4) 关于由谁来建立知识库,他指出知识掌握在千百万人的手中,知识又是那样博大精深,靠三、五个人甚至三、五十个人是不可能建成真正意义上的全面的知识库的。

他提出:首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。

在此基础上再向专业性知识库延伸和发展。

专业性知识库或称百科性知识库主要靠专业人员来完成。

这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。

知网的研究和建设是实践上述观点的努力。

2. 知网的哲学要掌握和利用好知网系统,必须首先了解知网系统的哲学思想。

知网系统的哲学也就是它对客观世界的认识与把握。

知网哲学的根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。

它们通常是从一种状态变化到另一种状态,并通常由其属性值的改变来体现。

试以人为例,人的生老病死是一生的主要状态。

这个人的年龄(属性)一年比一年大{属性值},随着年龄的增长头发的颜色(属性)变为灰白{属性值}。

另一方面,一个人随着年龄的增长他的性格(精神)变得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}。

基于上述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。

特别要强调的是,部件和属性,这两个基本单位在知网的哲学体系中占有着重要的地位。

关于对部件的认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体。

门和窗是建筑物的部件;手和脚是动物的部件。

但与此同时,一个建筑物又可能是一个社区的部件;一个人又可能是他所属的家庭或社会的部件。

一切事物都可以分解为部件。

空间可以分解为上下左右;时间可以分解为过去、现在和未来。

没有一种事物只能是部件,而不能是整体;也没有一种事物只能是整体,而不会是部件。

我们认为一个事物被视为是整体还是部件,可以因系统的不同,而不同对待。

关于部件在整体中的部位和它的功能,知网遵循这样一种认识:事物的部件在它整体中的部位和功能的描述大体上比照人体。

例如:山头、山腰、山脚、桌腿、椅背、河口,建筑物的门和窗比照人体的口和眼等等。

汉语用拟人的手法来描述部件,别的语言也类似,这反映了人类认识事物方法的共性。

关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的,没有了属性就没有了事物。

人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自然属性以及国籍、出身、职业、贫富等社会属性。

在某些特定的情况下可以说属性比事物更重要,这一点在人们的日常生活的替代活动中可以得到体现。

如:当我们要把一个钉子钉到墙上,但我们没有锤子,于是我们要找锤子的替代物,那么什么是锤子的替代物呢?那应该是属性最接近锤子的属性的物品才可能是替代物,而这时重量和硬度是关键性的属性。

属性和它的宿主之间的关系是固定的,这是说有什么样的宿主就有什么样的属性,反之亦然。

属性与宿主之间的关系同部件与整体之间的关系是不同的。

这也体现在知网在涉及属性的标注规范上,知网规定在标注属性时必须标注它可能的宿主的类型。

知网还规定在标注属性值时都必须标注它所指向的属性。

3. 知网的特色计算机化是知网的重要特色。

知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。

知网作为一个知识系统,实副其名是一个网而不是树。

它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。

知网在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病”的经验者。

对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们的共性。

而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则是它们的个性。

同时知网还着力要反映概念之间和概念的属性之间的各种关系。

知网把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。

总的来说,知网描述了下列各种关系:(a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)(b) 同义关系(可通过《同义、反义以及对义组的形成》获得)(c) 反义关系(可通过《同义、反义以及对义组的形成》获得)(d) 对义关系(可通过《同义、反义以及对义组的形成》获得)(e) 部件-整体关系(由在整体前标注 % 体现,如"心","CPU"等)(f) 属性-宿主关系(由在宿主前标注 & 体现,如"颜色","速度"等)(g) 材料-成品关系(由在成品前标注 ? 体现,如"布","面粉"等)(h) 施事/经验者/关系主体-事件关系(由在事件前标注 * 体现,如"医生","雇主"等)(i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如"患者","雇员"等)(j) 工具-事件关系(由在事件前标注 * 体现,如"手表","计算机"等)(k) 场所-事件关系(由在事件前标注 @ 体现,如"银行","医院"等)(l) 时间-事件关系(由在事件前标注 @ 体现,如"假日","孕期"等)(m) 值-属性关系(直接标注无须借助标识符,如"蓝","慢"等)(n) 实体-值关系(直接标注无须借助标识符,如"矮子","傻瓜"等)(o) 事件-角色关系(由加角色名体现,如"购物","盗墓"等)(p) 相关关系(由在相关概念前标注 # 体现,如"谷物","煤田"等)知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于《同义、反义以及对义组的形成》由用户自行形成而不是逐一地、显性地标注在各个概念之上的。

知网是一个知识系统,而不是一部语义词典。

尽管被我们称为知识词典的常识性知识库是知网的最基本的数据库。

知网的全部的主要文件包括知识词典构成了一个有机结合的知识系统。

例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。

我们预计用户将来把它们与知识词典一起加以利用。

4. 知网建设的方法知网是一个以上述各类概念为描述对象的知识系统。

知网不是一部义类词典。

知网是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。

这是它与其他的树状的词汇数据库的本质不同。

知网的哲学和它的根本特性决定了它的特别的建设方法。

4.1 义原的提取什么是义原,跟什么是词一样的难以定义。

但是也跟词一样并不因为它难于定义人们就无法把握和利用它们。

大体上说,义原是最基本的、不易于再分割的意义的最小单位。

例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。

我们设想所有的概念都可以分解成各种各样的义原。

同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。

如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,我们就有可能建立我们设想的知识系统。

利用中文来寻求这个有限的集合,应该说是个捷径。

中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。

我们的方法的一个重要特点是对大约六千个汉字进行考察和分析来提取这个有限的义原集合。

以事件类为例,在中文中具有事件义原的汉字(单纯词)中我们曾提取出3200个义原。

试以下面为例我们得到了9个义原但其中有两对是重复应予合并。

治:医治管理处罚……处:处在处罚处理……理:处理整理理睬……3200个事件义原在初步合并后大约可以得到1700个,然后我们再进一步加以归类,我们便得到大约700多个义原。

请注意,到现在为止完全不涉及多音节的词语。

然后我们用这700多个义原作为标注集去标注多音节的词,当我们发现这700多个义原不符合或不满足要求时,我们便进行的合理调整或适当扩充。

这样就形成了今天的800多个事件义原的标注集以及由它们标注的中文的事件概念。

综上所述,知网的建设方法的一个重要特点是自下而上的归纳的方法。

它是通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。

4.2 义原的考核与确定在初步确定了一批义原并形成了一个基本的标注集之后,如何加以考核和确定?第一、在扩大标注中观察该义原的覆盖面。

我们有一条原则:我们已有的义原一定要能够描述全部的概念。

这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们以有的义原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况。

在很个别的情况下我们不排除怀疑其中某个概念是否存在,以决定取舍。

第二、观察某一个义原在概念之间关系中的地位。

如果一个义原在同类别的许多概念中出现或者不同类别的概念中出现,那么这样的义原就是稳定的义原是一个必须确定的义原。

以事件类“医治”这个义原为例,它不仅出现在“医”、“治”、“治疗”、“医疗”、“治病”、“求医”、“看病”等概念中,并且还出现在“医生”、“医院”、“医药”、“诊所”、“不治之症”、“有病乱投医”。

因此,“医治”这个义原是稳定的、是必须确定的。

相关文档
最新文档