科技文献元数据自动抽取研究述评

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

元数据 自动抽取是信息抽取( I n f o r ma t i o n E x t r a c t i o n , I E ) 的研 究 内容之一,科技文献元数据 的 自动抽取能够
充 分利用科技文献本 身所 具有的 内在结构信 息来实现
信息抽取, 可 以看作是面 向领域 的信息抽取. 对数字 图书馆中大量 的异构 的科技文献 实现 其元
1 科技文献元数据概述
本文从元数据 的属性和 元数据的粒度 两个 角度对
科技文献元数据进行分类. 1 . 1从 元数据 的属性来看
数据 的 自动抽取是一项具有挑战性的工作.在这 里,科
Me t a d a t a Mi n e r C a t a l o g u e P r o 、 Me t a d a t a E x t r a t c o r 等) . 本
文在综述 国 内外科技文献元数据 自动抽取理论研究和 应用 实践研究 的基础上,探讨科技文献元 数据 自动抽 取 的研 究进展, 并指出现有研究的特点和存在的不足.
ma c hi n e - l e a r n i n g e x t r a c t i o n
在传统 的图书馆 中,文献的元数据信 息( 如标题 、
作者 、参考文 献等) 往往 由文献 的生产 者( 作者) 或加工 者( 图书 馆员) 手工 抽取或录 入 的. 但 随着 目前 网络上 的科技 文献数量激 增, 单 靠人工抽取 或录入 这些元数 据 已不 太可 能,另外,大量 的遗 留纸质文 档 中的信 息 在转化 为数字文档 的过程 中,也需要 能够 自动抽 取这
G O NG L i ・ Q u n , MA B a o — Y i n g , C H A NG Xi a o — R o n g
( C o m p u t e r E n g i n e e r i n g , C h a n g  ̄ i C o l l e g e , C h a n g j i 8 3 1 1 0 0 , C h i n a )
些文档Fra Baidu bibliotek的元数据.
元数据, 而另一文献则可能包含标题、作者 、出版者等
元数据; 不 同文献中的元数据的出现顺序可能不 同.
近年来,国 内外学术 界对科技文献元 数据 的 自动 抽取展开 了相应的研究( 如基于机器学习的元数据 自动 抽取研究、 基于规则的元数据 自动抽取研究) , 业界也设 计 和 开 发 了 一 些 科技 文 献 元 数据 自动 抽 取工 具 ( 如
Ab s t r a c t :Fr o m t h e p e r s p e c t i ve s o f me t a d a t a a t t r i b u t e s a n d me t a d a t a g r a n u l a r i t y ,t he me t a d a t a o f s c i e n t i ic f p a p e r i s a n a l y z e d .On hi t s ba s i s ,t h e r e s e rc a h o n me t a d a t a e x t r a c t i o n o f s c i e ti n f i c p a p e r i n d o me s t i c nd a i n t e r n a t i o n a l a r e a n a l y z e d a n d s y n t h e s i z e d f r o m t wo a s p e c t s o f he t he t o r e t i c a l r e s e rc a h nd a a p p l i c a t i o n i n p r a c t i c e . Fi n a l l y , t h e f e a t u r e s nd a s h o r t c o mi n g s o f t h e c u r r e n t r e s e rc a h re a p oi n t e d o u t . Ke y wo r ds :s c i e n t i f i c p pe a r ;a u t o ma t i c me t a da t a e x ra t c t i o n; r u l e - b a s e d e x ra t c t i o n ;t e mp l te a — b a s e d e x t r a c t i o n;
元数据 自 动抽取的理论研究和应用实践研究两个方面对国内外科技文献元数据自动抽取研究成果进行分析和综
合,最后指 出了现有研 究的特 点和存在 的不足 . 关键词:科技文献; 元数据 自动抽取 ; 基 于规 则的抽 取; 基 于模板 的抽取 ; 基于机器学 习的抽取
Li t e r a t ur e Re vi e w o n Au t o ma t i c Me t a da t a Ex t r a c t i o n o f Sc i e nt i ic f Pa pe r
2 0 1 3年 第 2 2卷 第 3 期
h t t p : / / ww w . c - S ・ a . o r g . c a
计 算 机 系 统 应 用
科技文献元数据 自动抽取研究述评①
龚立群,马宝 英,常晓荣
( 昌 吉学 院 计算机工程系,昌吉 8 3 1 l o o )

要: 首先从元数据 的属性和元 数据 的粒度两个角度对科技 文献元数 据进 行了分析, 在此基础上,从科技文 献
相关文档
最新文档