医学信息采集的策略与方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学信息采集的策略与方法
段永璇;常文华;谷景亮;张睿;岳媛
【摘要】Described in this paper are the significance of medical information collection, selection principles for medical information resources and common strategies for medical information collection, methods of collecting elec-tronic medical information resources, practical techniques of collecting common medical knowledge, and the whole collection process of medical information.%介绍了医学信息采集的意义、信息源的选取原则及常用的采集策略、医学电子信息源的采集方法、常规医学知识获取的实践技术和医学信息采集的整体流程。
【期刊名称】《中华医学图书情报杂志》
【年(卷),期】2016(025)009
【总页数】5页(P18-21,42)
【关键词】医学信息;信息采集;开放知识获取;数据处理;大数据
【作者】段永璇;常文华;谷景亮;张睿;岳媛
【作者单位】山东省医药卫生科技信息研究所,山东济南250062;聊城市人民医院,山东聊城 252000;山东省医药卫生科技信息研究所,山东济南250062;山东省医药卫生科技信息研究所,山东济南250062;山东省医药卫生科技信息研究所,山东济南250062
【正文语种】中文
【中图分类】G253;R-058
随着医院信息化建设的不断加强,信息技术在医学领域应用的不断深入,医疗服务模式逐步进入数字医疗时代。
2015年9月5日,国务院印发的关于《促进大数据发展行动纲要》中的国家大数据资源统筹发展工程中明确提出:“加强互联网信息采集利用。
加强顶层设计,树立国际视野,充分利用已有资源,加强互联网信息采集、保存和分析能力建设,制定完善互联网信息保存相关法律法规,构建互联网信息保存和信息服务体系”。
山东省卫生和计划生育委员会《关于加快推进人口健康信息化建设的意见》也要求按照我省人口健康信息化建设目标和基本原则,建设好“三网五库”,尤其要“建立完善大数据、云计算分析处理应用,以知识库、方法库、模型库为基础,对数据进行深度挖掘、清洗、分析、整理,形成专题数据集”。
数据是信息化建设的基础载体,医院信息化的管理本质是对各类医学数据的集中管理。
医学信息采集是医学信息资源建设中不可缺少的重要环节,是医学知识开放获取的必要手段[1]。
通过计算机科学和现代网络通信技术及数据库技术,医学信息
采集可为医学科研活动提供信息的收集、存储、处理、提取和数据交换,并满足各类用户的数据需求,为大数据的发展建设提供有力保障。
1 医学信息采集概况
医学信息采集是计算机信息科学与生命科学的交叉应用,是利用计算机软硬件技术,包括电子、计算机、通讯、医疗仪器等对定制的目标数据源,实时进行医学信息资源采集、抽取、挖掘、处理,从而为医学信息服务系统及研究活动提供数据输入的整个过程。
在实际的医学科研及信息化建设过程中,医学信息采集主要有以下几方面意义:医学信息采集是运用医学信息的前提和基础,医学信息采集的内容、数量、深度、广度以及采集的方法及效率,直接影响医学科研活动的质量和效果;医学信
息采集是进行卫生决策和评价的信息保障,科学的决策源于对信息资料的充分获取,从国家医药卫生政策的制定,到各类医学活动的综合评价、分析都必须以大量的事实数据为基础;医学信息采集则贯穿数据处理、整合、分析的整个过程;医学信息采集是进行医学科研活动的重要支撑,医学科研项目的创新、选题、立项、研究、研发、成果鉴定等活动都离不开信息采集。
随着医学信息研究领域的不断延伸,医学信息数据可采集的类型不断增多,产生的周期不断缩短,数据量呈爆炸性增长[2],医学信息采集的手段也由传统的人工采
集向更为先进的自动化采集过渡。
传统的人工采集,主要获取未形成文献资料的医学信息内容,利用传统的目录、索引、访谈、调查问卷等采集与科研活动有关的信息,适用于分散的、难以统一或具有主观性的信息采集;自动化采集则是利用计算机软硬件技术、体征监测器、传感器、医疗设备等对医学信息进行实时或连续的获取,适用于大量客观数据的连续采集。
而在实际的科研活动中,则需要两种采集方式的综合运用。
2 医学信息采集策略
开展医学科研活动,首先要确定科研活动的数据基础,作出相应的数据需求分析,制定必要的数据采集策略。
医学信息需求分析是医学信息采集的出发点,主要任务是明确信息的服务对象,确定数据源目标,设计采集的内容及范围,以及预期采集的结果等。
以疾病信息数据构建为例说明不同研究对象的数据需求,如图1所示。
图1 疾病信息采集需求分析
如需研究疾病分类数据,采集的内容就应包括疾病名称、类别、简介等基础信息;如需研究疾病特征数据,采集的内容就需增加病理、特点、并发症等信息;如需研究疾病信息数据,采集的内容就需涵盖治疗方法、用药参考等更全面的信息。
采集的研究数据,依据一定的数据分类标准(如ICD-10)进行划分和整理,就能形
成具备一定信息量的疾病数据库。
因此,采集需求的不同,决定了信息采集范围的
不同,形成了不同的研究产出。
确定采集需求后,就需要选择合适的医学信息源。
医学信息源是医学信息采集的主体对象,需要有针对性的选择,并且了解信息源的类型,采取适当的评价和选择策略,提高信息采集的有效性。
随着计算机及信息技术的飞速发展,医学信息源的类型也在不断扩充,呈现多元化发展,对采集工作提出了更高的要求。
医学信息源涉及面广泛,主要包括学术、科研、药物、生物、基础研究、临床等各个领域。
医学信息源包括的内容和特点见表1。
医学信息源种类繁多,如果对涉及的信息源进行全面采集,必然会影响研究活动的快速部署和开展。
一般来说,在实际科研活动中对信息源的筛选应遵循以下原则,即需要通过对信息源的可靠性、及时性、相关性、全面性、易用性、信息量等方面进行综合考量,依据采集目的进行选取,一般选取相关度高、来源可靠、时效性强、性价比高、易获取的信息源。
在确定目标信息源后,就可以制定合理的医学信息采集策略,从而对科研活动展开针对性的采集分析。
常用的采集策略如下。
一是定向采集,即对医学科研命题在某一方面进行定向分析,如与医学活动相关的网络舆情分析。
二是定题采集,主要针对特定的医学科研课题进行调研,如医疗改革问题研究。
三是多向采集,适用于要求较高的医学科研类数据分析,如生物样本数据的综合分析。
四是跟踪采集,适用于对特定医学项目进行动态跟踪,强调信息的连续性,如基因测序的样本采集。
五是委托采集,适用于委托专业的医学信息服务机构或专家对信息进行处理,如医学查新机构的查新咨询服务[3]。
表1 医学信息源类型及特点类型内容特点医学文献数据源以文
献线索和文本信息为主,包括期刊、论文、会议、报告、标准、档案、索引、文摘、全文、文献数据库等。
数量大、便于保存、积累,数据比较系统,但数据更新相对滞后。
医学事实数据源以健康档案,临床数据、基础实验或生物信息数据为主,内容包
括医疗记录、临床病例、检查报告、治疗方案、影像数据、药品、仪器设备参数、实验数据、图表、图谱等信息数据。
信息量大,产生周期短,研究价值大,可采集的类别及方式多,但数据类型多,相对封闭,较离散,多为异构数据,整合困难。
医学网络数
据源以网络信息为主,内容包括医学政策、新闻、知识、专题以及网站等。
内容丰富,时间较新,采集方便,但质量良莠不齐,分散无序。
3 医学信息采集方法
在众多的医学信息源中,电子信息源以其内容丰富、数据量级大、开放易获取等特点,逐步成为信息采集的首选。
以常见的电子医学信息资源为采集对象,介绍医学信息采集中的实践方法。
根据检索范围和要求的不同,常规的医学信息检索方法主要有以下几种方式。
搜索引擎检索是使用百度、google、维基百科等学术搜索引擎,广泛获取医学信息。
医学文献数据库检索是利用免费医学信息数据库、文献数据库、文摘、全文、会议、专题等,进行文献或数据检索。
专题医学网站站内检索是利用专业的医学网站进行专项信息检索,数据记录查询等。
站点内部检索是在特定的网站内精确到字段,动态信息查询等。
此外,网站的程序代码通常会包含部分隐含信息,利用隐含数据检索方法可缩短信息获取时间。
在实际的医学信息获取过程中,出于对各类资源安全性的考虑,部分资源会采取一定的保护措施,采集时需根据实际情况及信息获取的难度,针对性地开展技术性攻关,在法律及政策许可的条件下,降低资源网站的运行开销,对开放资源进行获取。
下面介绍几种常用的信息获取技术。
3.1 医学信息常规内容的获取
检索到相关的医学信息后,一般可直接将信息内容在浏览器中保存为不同的文件格式,对于采取特别的技术手段或限制代码来保护的信息内容,则需借助一定的技术手段实现。
常见的信息保护机制、特征以及常用的技术对策见表2。
表2 常见信息保护机制与对策点机制特征对策功能代码限制采用禁用鼠标右键,禁用复制功能,禁用鼠标选取功能,禁止全选功能等方式对内容进行保护安装破除右键限制的浏览器插件;或查看源文件,另存为其他格式,再用Word或记事本打开的方式来获取。
禁止信息另存信息无法直接保存或下载后无内容查看源文件、保存或使用文件下载工具等信息动态生成信息内容是由系统调用数据库自动生成,无法直接下载内容。
查看源文件,另存为html格式信息动态调用内容是采用脚本文件,调用数据库动态生成,源代码中无法直接察看数据信息采用文件下载工具,或找到调用源地址,再查看源码防盗链技术采用防盗链机制,隐藏真实地址,防止文件下载分析信息代码,找出真正需要的信息地址,进行深层抓取
3.2 医学信息批量采集技术
开展医学科研活动时,会涉及到对单个医学网站的数据进行批量的数据获取,因此需要先分析数据的特征和数据生成的机制,并具备有效的访问权限。
其中采集人员需具备一定的html语言基础,结合常规数据获取方法进行综合采集,可借助下载软件或编写程序对数据进行采集。
需要注意的是,利用工具下载的多是静态页面,并非实际需要的目标数据,需进行必要的数据清理。
面对数据量大的采集需求时,应采用网站数据批量采集技术,分析网站的架构,确定采集深度,获取必要的数据标签,设计合理的采集方案,提高数据的采集效率。
为了避免影响网站的正常运营,应尽量采集静态页面,不采用多线程技术,减少被采集源的运行压力。
3.3 其他数据格式的医学信息获取
除了常规的医学信息文本数据的获取,还可对其他医学类的多媒体数据进行采集,
如表格、图片、动画、音频、视频、脚本文件、网络文档及多格式文档等内容批量获取(word,excel,txt,pdf等)。
3.4 高级的医学信息获取技术
由于特殊条件的限制及研究需要,我们会用到一些较为高级的信息获取技术,包括文件加解密,软件逆向工程、网络数据监测、数据转换与解析[4]、多站点采集技
术[5]、网络爬虫技术[6]等。
此类技术研究应遵循开放知识获取的准则[7],以开放知识为采集对象,在获得信息提供者的许可和不损害他人利益的情况下开展。
4 医学信息采集流程
基于上述的采集策略和技术方法,对医学信息的采集工作过程作出归纳。
医学信息数据的采集流程如图2所示。
图2 医学信息数据采集流程
医学信息采集大致分为以下5步:第一步是确定医学信息的采集范围,利用搜索
引擎和数据库确定相关内容,从中选择利于研究工作开展的数据源;第二步是分析医学信息采集对象的数据结构,制定合理的采集方案,选择合适的采集策略和方法;第三步是对研究数据进行开放获取[8],确保数据的完整性,并对数据进行整理、
归类;第四步是对不同形式或格式的数据进行标准化转换,确保数据格式的统一,进行数据清理工作;第五步是对数据进行存储,建设对应的数据库,便于数据的积累和长期利用[9],实现云端的数据共享[10]。
5 总结
国家在万众创新大数据工程中的“知识服务大数据应用”明确提出:“利用大数据、云计算等技术,对各领域知识进行大规模整合,搭建层次清晰、覆盖全面、内容准确的知识资源库群”。
可见,医学信息的数据采集工作是一项长期、持续、复杂的工作。
目前医学信息的数字化建设仍处于发展阶段,医学信息应用及建设基础薄弱。
随着医疗信息化建设工作的深化,大数据及云计算的深入应用[11],作为数据积累
的必要过程和手段,医学信息的数据采集必将发挥越来越重要的作用。
【参考文献】
【相关文献】
[1] 朱梅芳.基于信息控制与获取平衡理论的信息资源开放获取对策研究综述[J].图书馆学刊,
2010(1):68-70.
[2] 李麟.2012年国际开放获取实践进展综述 [J]图书情报工作 , 2013,57(20):136-142.
[3] 段永璇.利用网络平台解决科技查新委托中的常见问题[J].中华医学图书情报杂志,2010,19(4):65-66.
[4] 段永璇.数据解析在肿瘤放射治疗中的应用[J].国际放射医学核医学杂志,2015,39(6):505-508.
[5] 左翔.医学数据挖掘的探究与应用[J].中国农村卫生事业管理,2011, 31(3):268-270.
[6] 罗雪琼.基于云平台泌尿外科医学信息获取分析系统的研究
[J].中国数字医学, 2014, 9(12):20-23.
[7] 张立新.开放获取资源的知识整合研究[D].长春:东北师范大学,2010.
[8] 刘玉玲.我国开放存取信息服务优化策略研究[D].长春:东北师范大学. 2010.
[9] 张杰.数字资源长期保存综合价值评价方法研究[D].长春:东北师范大学,2010.
[10] 李浩.基于云计算的医疗信息共享体系[J].中国卫生信息管理杂志,2011,8(3):65-69.
[11] 刘真.云计算模型在铁路大规模数据处理中的应用[J].北京交通大学学报,2010,34(5): 14-19.。