Word排版素材_长文档草稿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、绪论............................................................................................................. II
(一)课题的背景和意义......................................................................... II 1.研究的背景................................................................................... II
2.研究的目的和意义....................................................................... II (二)国内外研究现状............................................................................ I V 1.主题图和主题图融合研究现状.................................................. I V
2.词汇相似性度量研究现状........................................................... V
3.句子相似性度量研究现状.......................................................... V I (三)本文的研究content .................................................................... VIII 1.研究content .............................................................................. VIII
2.研究方法及技术路线............................................................... VIII (四)扩展主题图的融合......................................................................... X 1.扩展主题图融合定义及原则....................................................... X
2.扩展主题图融合过程................................................................ XII (五)语义冲突..................................................................................... XIII 1.语义异构的原因....................................................................... XIII
2.语义冲突的定义及类型........................................................... X IV (六)语义相似度在扩展主题图融合中的使用................................XVII 1.简单文本分类的应用..............................................................XVII
2.扩展主题图融合中的文本分类技术应用............................ XVIII
3.主题融合与词语语义相似度................................................... X XI
4.知识元融合与句子语义相似度..............................................XXII (七)本章小结.................................................................................. XXIV
一、绪论
(一)课题的背景和意义
1.研究的背景
本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。
相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。
2.研究的目的和意义
扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。
现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典
有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。
(二)国内外研究现状
863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。
1.主题图和主题图融合研究现状
主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium 全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000[3],这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图—XML Topic Maps(XTM)[4]成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。
主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法
[5]和2007年由Jung-Mn Kim[6]提出了TM-MAP算法。SIM算法的本质是
字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法
[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的