基于本体知识库的自动语义标注
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[5 ]
内容紧密相关, 这些 term 是围绕着文档描述的内容展开的, 因 以下假设是成立的: 此, a) 一个文档中抽出的关键词的语义是紧密相关的; b) 一个文档主要描述了一个知识领域 。 SO1 ' …SO n '] 基于以上假设, 可以认为解[ 应同处于一个知 识领域, 或者尽可能处于同一知识领域 。从几何空间结构角度 T1 …T n 的解应满足: 来讲, a) 它们位于或尽可能位于同一知识领域下; b) 在该知识领域的 RDF 有向图中, 它们之间距离尽可能 近。 为此, 本文提出基于语义对象之间语义距离的语义消歧方 法, 使得标注结果满足上述假设 。 3. 1 语义距离 语义距离这个概念试图对概念或实例之间关联性的强弱 或“相关系 给以定量表述。关联性的定量表述有“相关函数 ” ” “ “语义 数 这样现成的术语, 所以直接采用 概念相关函数 ” 或 相关系数” 之类的术语比较自然。 语义距离这个术语的引入 在理论上并无必要, 不过是取其表述简明而已, 实际上语义距 离的计算就是计算概念或实例之间的语义相关系数 。 知识库中实体之间最普遍的关联关系是路径关联, 即实体 E1 、 E n 之间存在一条属性序列( property sequence ) , En 那么 E1 、 P1 , E2 , P2 , E3 , …, En - 1 , 是路径关联的, 其关联关系 R = { E1 , Pn - 1 , En } , P i 表示实体之间存在的连接属 其中 E i 表示实体, 性。 语义距离是指连接两实体之间语义关联路径的 其大小记为 L R 。 长度, P1 , E2 , P2 , E3 , …, En - 1 , Pn - 1 , En } , O1 、 On 关 对于 R = { E1 , n - 1 。 联路径长度为 通常情况下, 两实体关联路径越短, 说明 其关联性越强。 3. 2 最短路径问题 本文利用图理论中计算最短路径问题的算法计算知识库 中任意两个实体之间最短的语义关联路径, 进而得到两实体之 间的语义距离。 为了达到以上目的, 首先需要提取知识库中所有的三元 组, 然后将其中主语和宾语都是实体的三元组存储在邻接矩阵 此邻接矩阵即为该知识库中所有实体之间直接关联关系的 中, 图表示。为了方便计算, 假设图中每条边的权值为 1 , 且不考 虑边的方向性。 希望寻找 RDF 图中每一对顶点间最短路径长度的问题, pair shortestpaths ) 问题。 这也称为每对顶点间的最短路径( allv∈ V, 更具体地说, 就是已知图 G = ( V,E) , 对任意的 u、 计算 d ( u, v) 的最小值。 Dijkstra 算法是典型的单源最短路径算法[6] , 用于计算一 个节点到其他所有节点的最短路径 。 其主要特点是以起始点 直到扩展到终点为止。 Dijkstra 算法能 为中心向外层层扩展, 得出最短路径的最优解, 但由于它遍历计算的节点很多, 效率 不高。解决上述每对顶点间的最短路径问题的方法是使用 | v | 次 Dijkstra 算法, 每次从不同的顶点出发计算最短路径 。 将记 录 RDF 图中任意两个实体间最短路径长度的矩阵 minLengthMatrix 进行持久化供基于最短路径的语义消歧使用 。 3. 3 基于最短路径的语义消歧 基于最短路径的语义消歧的基本思路为: 采用关键词匹配 把关键词映射到候选语义对象作为标注有向图的 的映射方法, 定义 1
2
语义词典
基于本体知识库的命名实体识别需要有一个语义词典以 实现关键词与本体概念或者关键词与实体之间的匹配 。 关键 词提供了直接的信息定位入口, 在根据关键词匹配到具体的概 语义词典起到了关键作用 。 念或实体的过程中, 语义词典将建立从词语到语义对象的相互映射, 即给定一 个词语能够找出其对应哪些语义对象; 相反, 给定一个语义对 象, 又可以得到语义对象对应的词语, 这显然是一个多对多的 映射。因为知识库中语义对象的属性值主要是用名词和名词 词组 来 表 示 的, 所以语义词典中名词及名词词组是主要考 虑的。 语义词典的逻辑结构如图 1 所示, 其含义是对于一个通过 首先判断其词性, 如果是名 中文分词组件得到的词语( term ) , 词或名词词组, 则找出其出现在哪些语义对象的值属性( value property) 之中, 于是将该 term 归约为这些语义对象 ( semantic object) 。这些语义对象就是命名实体识别的候选实体 。
{
ent m源自文库doc i
}
。其中, ds = { doc1 , doc2 , …, doc i , …, doc m }
1
命名实体识别
命名实体( named entity,NE) 是指人、 组织、 地点和其他通
doc i 表示文档库中第 i 个文档, m 表示文档数量, 表示文档库, ent2 , …, ent m , …, ent k } 表示用于标注文 且 0 < i < m; kb = { ent1 ,
[4 ]
目前研究自动语义标注主要利用的技术包括预定义规则 、 机器学习、 分类模型、 序列模型、 主谓宾语法成分、 本体等。 利 用本体中信息的自动语义标注的典型系统是 SemTag
[3 ]
, 其依
据 TAP 知识库识别出待标注关键词的候选实例, 然后利用上 下文( 前后各 10 个单词) 与知识库中候选实例的上下文分别 构造文本向量, 计算相似度选出最匹配的实例 。 自动语义标注可以看做传统的命名实体识别( named entity recognition,NER) 与实体标注的组合过程 。 信息抽取( information extraction) 中的命名实体类型限制为几个通用的类型,
Automatic semantic annotation based on ontology and knowledge base
QI Xin,XIAO Min,SUN Jianpeng
( College of Computer Science & Technology,Wuhan University of Technology,Wuhan 430063 ,China)
旨在提高标注的 注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法, 质量。为识别出文档中的候选命名实体, 设计了语义词典的逻辑结构, 论述了以实体之间语义关联路径计算语 gram 的语义 提出了基于最短路径的语义消歧方法和基于 N义距离的方法; 语义标注中的复杂问题是语义消歧, 消歧方法。针对构建的测试数据集, 进行的标注实验表明该方法能够依据本体知识库, 有效地对 Web 文档进行 自动语义标注。 gram; 语义消歧; 有向图; 知识库 关键词: 语义标注; N中图分类号: TP301 文献标志码: A 文章编号: 1001-3695 ( 2011 ) 05-1742-03 doi: 10. 3969 / j. issn. 1001-3695. 2011. 05. 042
[2 ] k 表示实体数量, 且0 <m<k 。 档的实体,
过名称引用的事物。更宽泛的解释包括任何引用世界中特定 事物的符号: 数字、 地点、 钱数量、 日期等。 命名实体识别就是要判断一个字符串是否代表一个命名 实体, 并确定它的类别。 在信息抽取研究中, 命名实体识别是 目前最有实用价值的一项技术 。 根据 MUC 评测结果, 英文命 名实体识别任务的 F指数( 召回率与准确率的加权几何平均 值, 权重取 1 ) 能达到 90% 以上
为了更高效地管理和访问 Web 内容, 语义 Web 向 Web 内 容中增加了形式化结构和语义( 元数据和知识)
[1 ]
。 语义 Web
如组 织 ( organization ) 、 人 ( person ) 、 地 点 ( location ) 、 日期 ( date) 、 钱数量( money ) 等。 虽然这些类型已经覆盖了最重要 的、 领域无关的命名实体类型, 然而针对具体的应用领域, 相同 的命名实体类型还可以进一步细化, 如大学、 学院、 系都是 organization。 本文中的自动语义标注是基于本体知识库的, 故命名实体 应该识别为更细致的类型, 即本体知识库中的语义对象 。如果 考虑到将语义标注的结果用于语义信息检索, 则需要将识别出 的命名实体标注为知识库中的实体 。
Abstract: To recognize candidate named entities, designed the semantic dictionary and calculated semantic distance between entities by semantic relevance path. The most complex problem in semantic annotation was semantic disambiguation. This paper proposed a semantic disambiguation method based on the shortest path and Ngram. Experiments was made on a news corpus. The result shows that the method is effective for the task of automatic semantic annotation. Key words: semantic annotation; Ngram; semantic disambiguation; directed acyclic graph; knowledge base
远景的实现依赖于海量的元数据, 而如何获得这种元数据是一 个必须面对的重要挑战 。 将数以亿计的现存网页进行人工的 语义标注显然不是一个可行的方法, 所以完全自动地进行语义 标注正逐渐成为引人关注的研究问题 。 本文讨论的语义标注 实际上是产生语义 Web 中的元数据层。 只有基于元数据层, 所有的语义 Web 应用才可能变为现实。 语义标注是指从知识库和文档库到标注结果的映射, 记为 δds × kb→
收稿日期: 2010-10-18 ; 修回日期: 2010-11-18
。
传统的命名实体识别是一个低成本的自然语言处理方式, 其使用有限状态自动机技术来抽取分词词典中的名词集合 。 传统的命名实体识别的主要问题是: 产生的标注不在一个开放 的形式化系统中编码, 并且使用了不加限制的实体类型; 识别
IV-023 ) 基金项目: 中央高校基本科研业务费专项资金资助项目( 2010-
第 28 卷第 5 期 2011 年 5 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 28 No. 5 May 2011
基于本体知识库的自动语义标注
戚
摘
*
欣,肖
敏,孙建鹏
( 武汉理工大学 计算机科学与技术学院,武汉 430063 ) 要: 为了产生语义 Web 中的元数据, 需要提取 Web 文档中的语义信息; 面对海量的 Web 文档, 自动语义标
第5 期
戚
欣, 等: 基于本体知识库的自动语义标注
· 1743·
所使用的语言资源以一种专有的形式表示, 且没有清晰的语 这阻碍了不同系统间语言资源和标注结果的重用 。 义, 这些问题可以通过基于本体知识库的信息抽取架构 得 识别出的实体应该 到解决。识别出的类型应该在本体中定义, 在知识库中描述。因此, 语义标注系统能够共享预先发布的本 体和知识库中包含的语言资源 。 由于识别出来的实体都是使 用知识库中实体的 URI 来标志, 这将使得语义标注的结果可 以供语义索引和语义检索重用 。
作者简介: 戚欣( 1978-) , 男, 湖北武汉人, 讲师, 博士研究生, 主要研究方向为语义 Web、 信息检索( qixin. whut@ gmail. com ) ; 肖敏( 1983-) , 女, 河南南阳人, 博士, 主要研究方向为数据挖掘 、 个性化推荐; 孙建鹏( 1987-) , 男, 硕士研究生, 主要研究方向为 Web 挖掘.
内容紧密相关, 这些 term 是围绕着文档描述的内容展开的, 因 以下假设是成立的: 此, a) 一个文档中抽出的关键词的语义是紧密相关的; b) 一个文档主要描述了一个知识领域 。 SO1 ' …SO n '] 基于以上假设, 可以认为解[ 应同处于一个知 识领域, 或者尽可能处于同一知识领域 。从几何空间结构角度 T1 …T n 的解应满足: 来讲, a) 它们位于或尽可能位于同一知识领域下; b) 在该知识领域的 RDF 有向图中, 它们之间距离尽可能 近。 为此, 本文提出基于语义对象之间语义距离的语义消歧方 法, 使得标注结果满足上述假设 。 3. 1 语义距离 语义距离这个概念试图对概念或实例之间关联性的强弱 或“相关系 给以定量表述。关联性的定量表述有“相关函数 ” ” “ “语义 数 这样现成的术语, 所以直接采用 概念相关函数 ” 或 相关系数” 之类的术语比较自然。 语义距离这个术语的引入 在理论上并无必要, 不过是取其表述简明而已, 实际上语义距 离的计算就是计算概念或实例之间的语义相关系数 。 知识库中实体之间最普遍的关联关系是路径关联, 即实体 E1 、 E n 之间存在一条属性序列( property sequence ) , En 那么 E1 、 P1 , E2 , P2 , E3 , …, En - 1 , 是路径关联的, 其关联关系 R = { E1 , Pn - 1 , En } , P i 表示实体之间存在的连接属 其中 E i 表示实体, 性。 语义距离是指连接两实体之间语义关联路径的 其大小记为 L R 。 长度, P1 , E2 , P2 , E3 , …, En - 1 , Pn - 1 , En } , O1 、 On 关 对于 R = { E1 , n - 1 。 联路径长度为 通常情况下, 两实体关联路径越短, 说明 其关联性越强。 3. 2 最短路径问题 本文利用图理论中计算最短路径问题的算法计算知识库 中任意两个实体之间最短的语义关联路径, 进而得到两实体之 间的语义距离。 为了达到以上目的, 首先需要提取知识库中所有的三元 组, 然后将其中主语和宾语都是实体的三元组存储在邻接矩阵 此邻接矩阵即为该知识库中所有实体之间直接关联关系的 中, 图表示。为了方便计算, 假设图中每条边的权值为 1 , 且不考 虑边的方向性。 希望寻找 RDF 图中每一对顶点间最短路径长度的问题, pair shortestpaths ) 问题。 这也称为每对顶点间的最短路径( allv∈ V, 更具体地说, 就是已知图 G = ( V,E) , 对任意的 u、 计算 d ( u, v) 的最小值。 Dijkstra 算法是典型的单源最短路径算法[6] , 用于计算一 个节点到其他所有节点的最短路径 。 其主要特点是以起始点 直到扩展到终点为止。 Dijkstra 算法能 为中心向外层层扩展, 得出最短路径的最优解, 但由于它遍历计算的节点很多, 效率 不高。解决上述每对顶点间的最短路径问题的方法是使用 | v | 次 Dijkstra 算法, 每次从不同的顶点出发计算最短路径 。 将记 录 RDF 图中任意两个实体间最短路径长度的矩阵 minLengthMatrix 进行持久化供基于最短路径的语义消歧使用 。 3. 3 基于最短路径的语义消歧 基于最短路径的语义消歧的基本思路为: 采用关键词匹配 把关键词映射到候选语义对象作为标注有向图的 的映射方法, 定义 1
2
语义词典
基于本体知识库的命名实体识别需要有一个语义词典以 实现关键词与本体概念或者关键词与实体之间的匹配 。 关键 词提供了直接的信息定位入口, 在根据关键词匹配到具体的概 语义词典起到了关键作用 。 念或实体的过程中, 语义词典将建立从词语到语义对象的相互映射, 即给定一 个词语能够找出其对应哪些语义对象; 相反, 给定一个语义对 象, 又可以得到语义对象对应的词语, 这显然是一个多对多的 映射。因为知识库中语义对象的属性值主要是用名词和名词 词组 来 表 示 的, 所以语义词典中名词及名词词组是主要考 虑的。 语义词典的逻辑结构如图 1 所示, 其含义是对于一个通过 首先判断其词性, 如果是名 中文分词组件得到的词语( term ) , 词或名词词组, 则找出其出现在哪些语义对象的值属性( value property) 之中, 于是将该 term 归约为这些语义对象 ( semantic object) 。这些语义对象就是命名实体识别的候选实体 。
{
ent m源自文库doc i
}
。其中, ds = { doc1 , doc2 , …, doc i , …, doc m }
1
命名实体识别
命名实体( named entity,NE) 是指人、 组织、 地点和其他通
doc i 表示文档库中第 i 个文档, m 表示文档数量, 表示文档库, ent2 , …, ent m , …, ent k } 表示用于标注文 且 0 < i < m; kb = { ent1 ,
[4 ]
目前研究自动语义标注主要利用的技术包括预定义规则 、 机器学习、 分类模型、 序列模型、 主谓宾语法成分、 本体等。 利 用本体中信息的自动语义标注的典型系统是 SemTag
[3 ]
, 其依
据 TAP 知识库识别出待标注关键词的候选实例, 然后利用上 下文( 前后各 10 个单词) 与知识库中候选实例的上下文分别 构造文本向量, 计算相似度选出最匹配的实例 。 自动语义标注可以看做传统的命名实体识别( named entity recognition,NER) 与实体标注的组合过程 。 信息抽取( information extraction) 中的命名实体类型限制为几个通用的类型,
Automatic semantic annotation based on ontology and knowledge base
QI Xin,XIAO Min,SUN Jianpeng
( College of Computer Science & Technology,Wuhan University of Technology,Wuhan 430063 ,China)
旨在提高标注的 注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法, 质量。为识别出文档中的候选命名实体, 设计了语义词典的逻辑结构, 论述了以实体之间语义关联路径计算语 gram 的语义 提出了基于最短路径的语义消歧方法和基于 N义距离的方法; 语义标注中的复杂问题是语义消歧, 消歧方法。针对构建的测试数据集, 进行的标注实验表明该方法能够依据本体知识库, 有效地对 Web 文档进行 自动语义标注。 gram; 语义消歧; 有向图; 知识库 关键词: 语义标注; N中图分类号: TP301 文献标志码: A 文章编号: 1001-3695 ( 2011 ) 05-1742-03 doi: 10. 3969 / j. issn. 1001-3695. 2011. 05. 042
[2 ] k 表示实体数量, 且0 <m<k 。 档的实体,
过名称引用的事物。更宽泛的解释包括任何引用世界中特定 事物的符号: 数字、 地点、 钱数量、 日期等。 命名实体识别就是要判断一个字符串是否代表一个命名 实体, 并确定它的类别。 在信息抽取研究中, 命名实体识别是 目前最有实用价值的一项技术 。 根据 MUC 评测结果, 英文命 名实体识别任务的 F指数( 召回率与准确率的加权几何平均 值, 权重取 1 ) 能达到 90% 以上
为了更高效地管理和访问 Web 内容, 语义 Web 向 Web 内 容中增加了形式化结构和语义( 元数据和知识)
[1 ]
。 语义 Web
如组 织 ( organization ) 、 人 ( person ) 、 地 点 ( location ) 、 日期 ( date) 、 钱数量( money ) 等。 虽然这些类型已经覆盖了最重要 的、 领域无关的命名实体类型, 然而针对具体的应用领域, 相同 的命名实体类型还可以进一步细化, 如大学、 学院、 系都是 organization。 本文中的自动语义标注是基于本体知识库的, 故命名实体 应该识别为更细致的类型, 即本体知识库中的语义对象 。如果 考虑到将语义标注的结果用于语义信息检索, 则需要将识别出 的命名实体标注为知识库中的实体 。
Abstract: To recognize candidate named entities, designed the semantic dictionary and calculated semantic distance between entities by semantic relevance path. The most complex problem in semantic annotation was semantic disambiguation. This paper proposed a semantic disambiguation method based on the shortest path and Ngram. Experiments was made on a news corpus. The result shows that the method is effective for the task of automatic semantic annotation. Key words: semantic annotation; Ngram; semantic disambiguation; directed acyclic graph; knowledge base
远景的实现依赖于海量的元数据, 而如何获得这种元数据是一 个必须面对的重要挑战 。 将数以亿计的现存网页进行人工的 语义标注显然不是一个可行的方法, 所以完全自动地进行语义 标注正逐渐成为引人关注的研究问题 。 本文讨论的语义标注 实际上是产生语义 Web 中的元数据层。 只有基于元数据层, 所有的语义 Web 应用才可能变为现实。 语义标注是指从知识库和文档库到标注结果的映射, 记为 δds × kb→
收稿日期: 2010-10-18 ; 修回日期: 2010-11-18
。
传统的命名实体识别是一个低成本的自然语言处理方式, 其使用有限状态自动机技术来抽取分词词典中的名词集合 。 传统的命名实体识别的主要问题是: 产生的标注不在一个开放 的形式化系统中编码, 并且使用了不加限制的实体类型; 识别
IV-023 ) 基金项目: 中央高校基本科研业务费专项资金资助项目( 2010-
第 28 卷第 5 期 2011 年 5 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 28 No. 5 May 2011
基于本体知识库的自动语义标注
戚
摘
*
欣,肖
敏,孙建鹏
( 武汉理工大学 计算机科学与技术学院,武汉 430063 ) 要: 为了产生语义 Web 中的元数据, 需要提取 Web 文档中的语义信息; 面对海量的 Web 文档, 自动语义标
第5 期
戚
欣, 等: 基于本体知识库的自动语义标注
· 1743·
所使用的语言资源以一种专有的形式表示, 且没有清晰的语 这阻碍了不同系统间语言资源和标注结果的重用 。 义, 这些问题可以通过基于本体知识库的信息抽取架构 得 识别出的实体应该 到解决。识别出的类型应该在本体中定义, 在知识库中描述。因此, 语义标注系统能够共享预先发布的本 体和知识库中包含的语言资源 。 由于识别出来的实体都是使 用知识库中实体的 URI 来标志, 这将使得语义标注的结果可 以供语义索引和语义检索重用 。
作者简介: 戚欣( 1978-) , 男, 湖北武汉人, 讲师, 博士研究生, 主要研究方向为语义 Web、 信息检索( qixin. whut@ gmail. com ) ; 肖敏( 1983-) , 女, 河南南阳人, 博士, 主要研究方向为数据挖掘 、 个性化推荐; 孙建鹏( 1987-) , 男, 硕士研究生, 主要研究方向为 Web 挖掘.