基于本体知识库的自动语义标注

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［5 ］
内容紧密相关，这些 term 是围绕着文档描述的内容展开的，因以下假设是成立的：此， a）一个文档中抽出的关键词的语义是紧密相关的； b）一个文档主要描述了一个知识领域。 SO1 ' …SO n '］基于以上假设，可以认为解［应同处于一个知识领域，或者尽可能处于同一知识领域。从几何空间结构角度 T1 …T n 的解应满足：来讲， a）它们位于或尽可能位于同一知识领域下； b）在该知识领域的 RDF 有向图中，它们之间距离尽可能近。为此，本文提出基于语义对象之间语义距离的语义消歧方法，使得标注结果满足上述假设。 3. 1 语义距离语义距离这个概念试图对概念或实例之间关联性的强弱或“相关系给以定量表述。关联性的定量表述有“相关函数 ” ” “ “语义数这样现成的术语，所以直接采用概念相关函数 ” 或相关系数” 之类的术语比较自然。语义距离这个术语的引入在理论上并无必要，不过是取其表述简明而已，实际上语义距离的计算就是计算概念或实例之间的语义相关系数。知识库中实体之间最普遍的关联关系是路径关联，即实体 E1 、 E n 之间存在一条属性序列（ property sequence ）， En 那么 E1 、 P1 ， E2 ， P2 ， E3 ， …， En － 1 ，是路径关联的，其关联关系 R = ｛ E1 ， Pn － 1 ， En ｝， P i 表示实体之间存在的连接属其中 E i 表示实体，性。语义距离是指连接两实体之间语义关联路径的其大小记为 L R 。长度， P1 ， E2 ， P2 ， E3 ， …， En － 1 ， Pn － 1 ， En ｝， O1 、 On 关对于 R = ｛ E1 ， n － 1 。联路径长度为通常情况下，两实体关联路径越短，说明其关联性越强。 3. 2 最短路径问题本文利用图理论中计算最短路径问题的算法计算知识库中任意两个实体之间最短的语义关联路径，进而得到两实体之间的语义距离。为了达到以上目的，首先需要提取知识库中所有的三元组，然后将其中主语和宾语都是实体的三元组存储在邻接矩阵此邻接矩阵即为该知识库中所有实体之间直接关联关系的中，图表示。为了方便计算，假设图中每条边的权值为 1 ，且不考虑边的方向性。希望寻找 RDF 图中每一对顶点间最短路径长度的问题， pair shortestpaths ）问题。这也称为每对顶点间的最短路径（ allv∈ V，更具体地说，就是已知图 G = （ V，E），对任意的 u、计算 d （ u， v）的最小值。 Dijkstra 算法是典型的单源最短路径算法［6］，用于计算一个节点到其他所有节点的最短路径。其主要特点是以起始点直到扩展到终点为止。 Dijkstra 算法能为中心向外层层扩展，得出最短路径的最优解，但由于它遍历计算的节点很多，效率不高。解决上述每对顶点间的最短路径问题的方法是使用 | v | 次 Dijkstra 算法，每次从不同的顶点出发计算最短路径。将记录 RDF 图中任意两个实体间最短路径长度的矩阵 minLengthMatrix 进行持久化供基于最短路径的语义消歧使用。 3. 3 基于最短路径的语义消歧基于最短路径的语义消歧的基本思路为：采用关键词匹配把关键词映射到候选语义对象作为标注有向图的的映射方法，定义 1
2
语义词典
基于本体知识库的命名实体识别需要有一个语义词典以实现关键词与本体概念或者关键词与实体之间的匹配。关键词提供了直接的信息定位入口，在根据关键词匹配到具体的概语义词典起到了关键作用。念或实体的过程中，语义词典将建立从词语到语义对象的相互映射，即给定一个词语能够找出其对应哪些语义对象；相反，给定一个语义对象，又可以得到语义对象对应的词语，这显然是一个多对多的映射。因为知识库中语义对象的属性值主要是用名词和名词词组来表示的，所以语义词典中名词及名词词组是主要考虑的。语义词典的逻辑结构如图 1 所示，其含义是对于一个通过首先判断其词性，如果是名中文分词组件得到的词语（ term ），词或名词词组，则找出其出现在哪些语义对象的值属性（ value property）之中，于是将该 term 归约为这些语义对象（ semantic object）。这些语义对象就是命名实体识别的候选实体。
{
ent m源自文库doc i
}
。其中， ds = ｛ doc1 ， doc2 ， …， doc i ， …， doc m ｝
1
命名实体识别
命名实体（ named entity，NE）是指人、组织、地点和其他通
doc i 表示文档库中第 i 个文档， m 表示文档数量，表示文档库， ent2 ， …， ent m ， …， ent k ｝表示用于标注文且 0 ＜ i ＜ m； kb = ｛ ent1 ，
［4 ］
目前研究自动语义标注主要利用的技术包括预定义规则、机器学习、分类模型、序列模型、主谓宾语法成分、本体等。利用本体中信息的自动语义标注的典型系统是 SemTag
［3 ］
，其依
据 TAP 知识库识别出待标注关键词的候选实例，然后利用上下文（前后各 10 个单词）与知识库中候选实例的上下文分别构造文本向量，计算相似度选出最匹配的实例。自动语义标注可以看做传统的命名实体识别（ named entity recognition，NER）与实体标注的组合过程。信息抽取（ information extraction）中的命名实体类型限制为几个通用的类型，
Automatic semantic annotation based on ontology and knowledge base
QI Xin，XIAO Min，SUN Jianpeng
（ College of Computer Science ＆ Technology，Wuhan University of Technology，Wuhan 430063 ，China）
旨在提高标注的注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法，质量。为识别出文档中的候选命名实体，设计了语义词典的逻辑结构，论述了以实体之间语义关联路径计算语 gram 的语义提出了基于最短路径的语义消歧方法和基于 N义距离的方法；语义标注中的复杂问题是语义消歧，消歧方法。针对构建的测试数据集，进行的标注实验表明该方法能够依据本体知识库，有效地对 Web 文档进行自动语义标注。 gram；语义消歧；有向图；知识库关键词：语义标注； N中图分类号： TP301 文献标志码： A 文章编号： 1001-3695 （ 2011 ） 05-1742-03 doi： 10． 3969 / j． issn． 1001-3695． 2011． 05． 042
［2 ］ k 表示实体数量，且0 ＜m＜k 。档的实体，
过名称引用的事物。更宽泛的解释包括任何引用世界中特定事物的符号：数字、地点、钱数量、日期等。命名实体识别就是要判断一个字符串是否代表一个命名实体，并确定它的类别。在信息抽取研究中，命名实体识别是目前最有实用价值的一项技术。根据 MUC 评测结果，英文命名实体识别任务的 F指数（召回率与准确率的加权几何平均值，权重取 1 ）能达到 90% 以上
为了更高效地管理和访问 Web 内容，语义 Web 向 Web 内容中增加了形式化结构和语义（元数据和知识）
［1 ］
。语义 Web
如组织（ organization ）、人（ person ）、地点（ location ）、日期（ date）、钱数量（ money ）等。虽然这些类型已经覆盖了最重要的、领域无关的命名实体类型，然而针对具体的应用领域，相同的命名实体类型还可以进一步细化，如大学、学院、系都是 organization。本文中的自动语义标注是基于本体知识库的，故命名实体应该识别为更细致的类型，即本体知识库中的语义对象。如果考虑到将语义标注的结果用于语义信息检索，则需要将识别出的命名实体标注为知识库中的实体。
Abstract： To recognize candidate named entities， designed the semantic dictionary and calculated semantic distance between entities by semantic relevance path． The most complex problem in semantic annotation was semantic disambiguation． This paper proposed a semantic disambiguation method based on the shortest path and Ngram． Experiments was made on a news corpus． The result shows that the method is effective for the task of automatic semantic annotation． Key words： semantic annotation； Ngram； semantic disambiguation； directed acyclic graph； knowledge base
远景的实现依赖于海量的元数据，而如何获得这种元数据是一个必须面对的重要挑战。将数以亿计的现存网页进行人工的语义标注显然不是一个可行的方法，所以完全自动地进行语义标注正逐渐成为引人关注的研究问题。本文讨论的语义标注实际上是产生语义 Web 中的元数据层。只有基于元数据层，所有的语义 Web 应用才可能变为现实。语义标注是指从知识库和文档库到标注结果的映射，记为 δds × kb→
收稿日期： 2010-10-18 ；修回日期： 2010-11-18
。
传统的命名实体识别是一个低成本的自然语言处理方式，其使用有限状态自动机技术来抽取分词词典中的名词集合。传统的命名实体识别的主要问题是：产生的标注不在一个开放的形式化系统中编码，并且使用了不加限制的实体类型；识别
IV-023 ）基金项目：中央高校基本科研业务费专项资金资助项目（ 2010-
第 28 卷第 5 期 2011 年 5 月
计算机应用研究 Application Research of Computers
Vol． 28 No． 5 May 2011
基于本体知识库的自动语义标注
戚
摘
*
欣，肖
敏，孙建鹏
（武汉理工大学计算机科学与技术学院，武汉 430063 ）要：为了产生语义 Web 中的元数据，需要提取 Web 文档中的语义信息；面对海量的 Web 文档，自动语义标
第5 期
戚
欣，等：基于本体知识库的自动语义标注
· 1743·
所使用的语言资源以一种专有的形式表示，且没有清晰的语这阻碍了不同系统间语言资源和标注结果的重用。义，这些问题可以通过基于本体知识库的信息抽取架构得识别出的实体应该到解决。识别出的类型应该在本体中定义，在知识库中描述。因此，语义标注系统能够共享预先发布的本体和知识库中包含的语言资源。由于识别出来的实体都是使用知识库中实体的 URI 来标志，这将使得语义标注的结果可以供语义索引和语义检索重用。
作者简介：戚欣（ 1978-），男，湖北武汉人，讲师，博士研究生，主要研究方向为语义 Web、信息检索（ qixin． whut@ gmail． com ）；肖敏（ 1983-），女，河南南阳人，博士，主要研究方向为数据挖掘、个性化推荐；孙建鹏（ 1987-），男，硕士研究生，主要研究方向为 Web 挖掘．