2016山东统计科研重点课题申报书范本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编号:
山东省统计科研重点课题
申报书
课题名称:基于非结构化数据的专家综合评价技术
研究和使用
课题负责人:
联系电话:
负责人所在单位:
山东省统计局制表
2016年4月17日填
课题名称基于非结构化数据的专家综合评价技术研究和使用课题负责人负责人所在单位山东职业学院
课题组成员
研究起止日期2016年6月至2017年6月
一、申请理由(研究目的、意义及研究成果拟达到的目标)
1.研究目的
随着人类社会由信息社会迈向知识社会,专家资源己成为是各类组织中最有价值的核心资源,无论是在政府部门还是企业工厂等社会生产部门中都需要那些拥有丰富专业知识和技能的领域专家组织团队来指导研发、攻关技术难关,以此提高工作或生产效率。例如在政府的科技部门中,为了使科技项目评估、科技成果评奖等工作顺利展开,政府部门一般都建立有一定数量的专家信息库,在课题评审、成果鉴定时,就从专家信息库中挑选和项目研究方向相关的专家组成评审小组。但要在海量的网络信息里找到合适的专家并不是一件容易的事,而人工蹄选获取方式是非常耗力耗时的。由此在组织内部通过输入关键词如何能够方便简单地查找该查询领域合适的权威专家信息成为一个重要的研究课题。
2.研究意义
在传统的Web搜索引擎中,例如百度、Google、Yahoo等较有代表性的搜索引擎,已经成为人们查找获取网络信息的主要途径,依靠索引和关键字匹配技术找到各方面的相关网页并按相关性排序返回结果,极大提高信息查找效率,很大程度上改变了人们的生活工作方式。但如果需要通过传统搜索引擎获取相关专家,还必须借助人工方式逐个查看召回的文档信息,从中判断和查询相关的专家信息。另一方面专家的研究、内容和领域也是不断变化的,主要特点是以非结构化信息为主,表现形式为科研论文、项目文档、成果鉴定文件等。这些因素使得专家检索不能通过简单的关键字匹配就满足要求,而是要对专家的研究论文等非结构化数据的挖掘和分析,勾画出其涉及的研究领域,并通过智能综合评价系统,定量评定专家相关领域的研究水平,准确描述专家,为企业、政府机构等组织提供准确查找专家服务。研究专家检索方法和技术对专家进行评价,针对特定机构构建专家检索系统对政府机构、企业等组织有重要意义,专家检索可以根据用户需求找到具有特定经验和技能的人,是企业非常有价值的辅助管理工具;并且促进组织和组织之间的信息和知识得以共享,对实现各组织隐性知识的转移和共享、增加组织内部人员交流、加强组织内外部人员协作、为项目或团队挑选合适人选等具有积极的作用。总而言之,专家检索有效地管理企业员工的知识和技能,对提升生产效率、创新能力和增强竞争力具有重要的支撑意义。
3.研究现状
近年来,为了动态挖掘组织内部相关资源评价专家专长,国内外展开了一系
列相关研究,TREC企业检索任务中的专家检索子任务在一定程度上代表了当前专家检索研究进展。
作为Web Track的后继项目,TREC于2005年起增加了企业检索(Enterprise Search)任务,并设立企业专家检索子任务,从2005年到2008年共举行了三届,该任务利用企业内部的网站网页、共享文档、电子邮件、数据文件以及日志等作为企业数据集,对于给定的查询条件,参和者构建专家识别和专家排序检索模型,并将得到的相关专家列表等结果返回给TREC组办者进行测评。它主要是提供一个公共评测平台,为研究员根据组织检索人物,对专家检索方法和技术进行经验性评价,极大地推动了专家检索技术的发展。目前针对专家检索主要有以下几种方法:基于文档的专家检索方法、基于候选专家的专家检索方法、基于话题模型的专家检索方法和基于链接分析的专家检索方法。
Balog等人提出了两种基于语言模型的专家检索策略:一种是基于专家的建模策略;另一种是基于文档的建模策略。(1)文档语言模型首先对每个候选专家,在企业知识库中找出和其相关的所有文档,然后在候选专家和和其相关文档之间建立一定联系,用来表示候选专家和文档之间关系的相关性程度。给定査询条件,使用文本信息检索模型对文档进行评估,结果得到每个文档都有一个得分,用来表示文档和查询之间的相关性程度。最后对于每个候选专家,使用某种形式将各个相关文档的得分结合起来,从而得到每个候选专家的最终得分。(2)专家语言模型首先从企业知识库中识别每位候选专家并提取出相关信息,然后利用这些信息构建一个描述候选专家所拥有的知识和技能的知识说明文档,而这个文档就相当于候选专家的“简历”。当系统为所有候选专家都构建简历完成之后,候选专家和用户所提交的查询的相关程度就取决于这个“简历”和该查询的相关程度。最终,系统按相关程度高低将专家列表返回给用户。
为了从更深层次的隐含语义上抽取专家的研究领域,也有学者使用话题模型对专家进行建模。王美姣在文献中针对基于文档的方法忽略了用户输入查询和专家在隐含语义上的联系,提出了话题模型和文档相结合的方法,该方法对查询和文档建模单词-主题-文档关系,而不是使用语言模型建立单词-文档关系。李春英等人在文献中使用概率主题模型从作者发表的论文中提取主题向量作为学者的研究方向。刘健等人在文献中使用话题模型解决依赖候选专家和查询词之间的独立性假设问题,且其可操作性比经典模型更强。
随着社交网络的发展,学者开始研究了专家的合著、问答等社会网络关系,
并利用这些关系信息进一步分析和识别出专家,例如Zhang等人对Java在线社区进行了分析,构建提交/回复关系网络图,并利用PageRank算法计算专家专长得分。Karimzadehgan等人利用组织内部管理者、上下级、同级等层次关系,基于相邻专家(节点)拥有某些共同知识的特点,提出一种基于组织层次结构的专家检索方法。另外Deng等人将社区概念引入到专家检索中,把“社区”作为专家和查询词之间关联的桥梁进行建模。这类方法都是基于随机游走模型,但存在一个重要问题就是单纯利用链接的信息对专家进行建模,忽略了主题的信息,可能导致查找出来的专家并不符合用户所要求的专业领域。
在专家检索系统方面,目前国外己经有一些比较典型的学术领域专家检索系统,ArnetMiner主要是针对计算机科学领域的知识服务平台,根据输入的关键字可查找到相关的专家、论文和机构,并提供社会网络分析功能;INDURE是拍杜大学和印第安纳经济公司合作的项目,是可以搜索研究者及其成果的搜索引擎;Microsoft AcademicSearch不但可以提供专家、论文等方面的检索,还可以对合作者、引证等关系进行可视化。而国内武汉大学的陆伟等采集武汉大学内部网页信息和万方数据库中专家的论文信息作为数据源,借鉴传统信息检索方法,设计并实现了以武汉大学为例的组织内专家检索系统一些学术数据库例如维普数据库、万方数据库等利用自身的数据库资源,构建了学者检索引擎,为用户提供通过姓名,作者学科等专家检索功能。
综述所述,目前通过挖掘专家相关非结构化文档对专家进行建模,体现了专家的专业知识和技能,但并没考虑专家的权威性,存在专家信息孤立缺乏关联问题,例如某一专家虽然发表了许多论文,这就只说明了该专家的自身有一定的专业水平,但并不能说明该专家的学术成果对别人的影响程度。而利用社会网络关系来评估候选专家的权威性,可以据此来排序候选专家,此类方法缺乏对领域主题支持,搜索出来的转存在话题漂移问题。