文献数据库中书目信息共现挖掘系统的开发
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:文献数据库中书目信息共现挖掘系统的开发 [J],现代图书情报技术,2008(8):70-75.
70 现代图书情报技术
文献数据库中书目信息共现挖掘系统的
开发
崔 雷 刘 伟 闫 雷 张 晗 侯跃芳 黄莹娜 张 浩(中国医科大学信息管理与信息系统(医学)系 沈阳110001)
【摘要】针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。
【关键词】文本挖掘 共现分析 书目信息 科学计量学【分类号】G254
DevelopmentofaTextMiningSystemBasedontheCo-occurrenceofBibliographicItemsinLiteratureDatabases
CuiLei LiuWei YanLei ZhangHan HouYuefang HuangYingna ZhangHao
(DepartmentofInformationManagementandInformationSystem(Medicine),
ChinaMedicalUniversity,Shenyang110001,China)
【Abstract】Thispaperpresentsatextminingsystembasedontheco-occurrenceofbibliographicitemsinliteratureda tabases.ThissystemproducestheprincipalbibliometricindicatorsofagivendocumentsetorientedtoPubMedandWebofScience,andsomeofresultsarepresentedbyvisualizationtechniques.Furthermore,itprovidesclusteranalysisandas sociationanalysisbyinvestigatingtheco-occurrencedataofhigh-frequentMeSHterms,high-productiveauthors,highly-citedpapersandhighly-citedauthors.Usingtheseapproachesuserscanminingthepotentialassociationrulesa mongMeSHterms,andengagescientometricinvestigations.
【Keywords】Textmining Co-occurrence Bibliographicsystem Scientometrics
收稿日期:2008-03-19
收修改稿日期:
2008-06-12 本文系国家自然科学基金项目“运用文本数据库中元数据关联规则进行知识发现的研究”(项目编号:70473101)的研究成果之一。
1 开发背景与目标
文本挖掘和知识发现是知识发现研究中的一个重要分支。文本挖掘(Textmining)一般定义为从文本文件中提取有趣的、不平凡的模式或知识的过程。目前,文本挖掘的方法和应用研究已经成为比较活跃的研究领域。开发出相应的计算机软件系统成为开展文本挖掘研究的必要条件。
鉴于此,笔者设计并实现了一个面向生物医学数据库和引文数据库的文本挖掘系统:书目信息共现挖掘系统
XIANDAITUSHUQINGBAOJISHU 71
(BibliographicItemCo-OccurrenceMiningSystem,BI COMS)。该系统所分析的主要对象包括:来自于权威的生物医学数据库———PubMed数据库中的主题词/副主题词共现关系;来自于引文索引数据WebofScience的引文同被引关系。通过对这些共现数据的聚类分析和关联分析,挖掘出部分元数据之间的关联规则。同时,也针对文献计量学的基本指标(如作者、期刊、发表年代等)的发文和引文频数进行统计分析,最终提供可视化的结果。该系统开发的直接效果是为笔者开展国家自然科学基金课题提供基本工具,其长远意义则是为今后大量的文本挖掘和科学计量学的研究建立平台。
2 系统的实现方案与应用效果
本系统主要涵盖5个功能,分别为:
(1)信息抽取模块(InformationExtraction):从目标数据库,即从PubMed数据库中自动下载XML格式的文献记录,解析并抽取元数据———医学主题词(Medi calSubjectHeading,MeSH)及其附主题词的组合; (2)矩阵预处理模块(MatrixPre-Process):按照高频主题词的语义关系,对MeSH以及ChemicalName
进行语义筛选,控制聚类分析的粒度,产生用于文本挖掘的二维矩阵结构;
(3)文本挖掘模块(TextMining):从二元矩阵中发现潜在的生物医学规则;
(4)数据可视化模块(DataVisualization):以系统树图(Dendrogram)的方式来显示聚类分析后的元数据之间的关联关系,并显示元数据间距离曲线关系图; (5)规则接口模块(RuleInterface):储存从文本挖掘模块中获取的规则,并为今后建立面向生物医学领域的本体知识库奠定基础。系统模块结构如图1所示。
2.1 信息抽取模块的设计
信息抽取模块主要负责数据下载和数据解析入库。在数据下载设计中,通过网上的免费软件MedKit软件查询PubMed数据库,进而获得需要下载的文献序号列表,即PMID列表,再按照该列表以断点续传的
方式下载论文数据[1]
。在数据解析的设计中,按照其
文献数据的XML格式,设定抽取所需信息的模板,并按照模板对数据进行解析和完整性校验,该模块流程如图2
所示。
图1 系统模块结构图
总第168期 2008年 第8期