文本挖掘在生物医学领域中的应用及其系统工具
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[ e r s et iigi im dcn ; a r n ug rcsig a e ni cg io ;rl i - K yWod ]t nn bo e i e n t a l g aepoes ;n m de tyr o t n e t n xm n i ul a n t e n i ao
图 1 文 本 挖 掘 基 本模 型
巨!i l 竺 I l 盒 固 共 析
垃圾 邮件过 滤 、 户关 系 管 理 、 客 自动 简 历 评 审 等 都 是典 型 的文本 挖掘技 术 。
12 流 程 及 模 型 .
13 技 术 .
文本挖掘 涉及 多个 学科领域 , 如数据库 、 信息
成 结构 化文本 , 并根 据 该 结 构发 现 新 的概 念 及 获取 相 应 的关 系 。构成模 型如 图 1 所示 。
数据源 h叫源文本卜T 叫 __ 结构化数据r T 知识或模型 卜T 叫知识 _叫 _—
数据 挖掘 ( aamiig , D t n ) 又称 数据 库 知 识 发 现 n ( nweg i oeyi aaae , 指从 结构 化信 K o l eds vr dt s) 是 d c n b 息 中提取人们感兴趣 的知识 。这些知识 是隐含 的 、 事 先未知 的、 潜在 的有用 信息 。文本挖 掘 ( et iig Tx mnn )
s i x r cin;C —o c re c n l ss hp e ta to O c u n e a ay i
1 文本 挖掘概 述
1 1 概 念 .
取文本 特征 , 将文 本数 据 转 化 为计 算 机 能识 别 的结 构化数 据 , 后 利 用 聚 类 、 类 等 数 据 挖 掘 技 术 形 然 分
i ime ia ed we e i to u e n dealwih sr s ad o h au a a g a e p o e sn n b o d c lf l r n rd c d i ti i t te s li n t e n t r lln u g r c s i g,o tl g ,n me n oo y a d e t y r c g to ni e o ni n,r l t n hp e ta to t i eai s i xr ci n,tx ls i c to n l se ig,C —o c re c n y i ,s se tos o e tca sf ai n a d c u trn i O c u r n e a a ss y tm o l l a d t er e a u to n h i v l ain,a d vs aiain. n iu lz to
Appl ato ft x n ng i b o e c lfed a t y t m o l i i n o e t mi i n i m dia l nd is s se t o s c i
LU n in u— a 。 Tig ,Ja g Yo h o
( . dcl irr o hns L 1 Mei ba f i e A,Bin 00 9 C ia aL y C e P eig10 3 , h ; j n 2 D p r et f dcl n r ai , h nnnU iesy C agh 10 3 H nnPoic , h a . ea m n o Mei f m t n Z oga nvrt, h nsa40 1 , u a r ne C i ) t a Io o i v n
[ btat h pc cpoesso t t iigi b m dc eadteapi tno x n gtcnl y A s c]tesei rcse fe nn i ein n plai fet i ho g r i f xm n o i h c o t min e o
是数据 挖掘 的一个 方 向 , 它所 挖 掘 的对 象 是非 结 构
唪 旦
l 旦
化或半 结构化 , 即从 数 以百 万 计 的文 本 数 据 中寻 找 潜在规律 和趋 势 。文本 挖 掘 在 商业 、 媒 、 育 、 传 教 政
府 、 行及 生 物 技 术 、 银 医疗 卫 生 等 行 业 领 域 都 发 挥 着不 可忽 视 的作 用 。搜 索 引擎 、 自动 邮件 回复 、
吕 婷 姜友 好 ,
[ 摘要 ]系统介绍 了生物 医学文本挖掘的具体流程和文本挖掘技术在 生物 医学领域 中的应用情 况, 并着重从 自然语 言处 理和本体、 命名 实体识别、 关系抽取、 文本分类与聚类、 共现分析、 系统工具及评价、 可视化等方面分别做 了阐述。 [ 关键词 】生物 医学文本挖掘 ; 自然语言处理; 命名 实体识 别; 系抽取 ; 关 共现分析 [ 中图分类号] 3 8 G 5 . R 1 ;2 4 0 文献标识码 : A [ 文章编号 ]6 1 3 8 (0 0 0 - 0 6 0 17 - 9 2 2 1 )4 0 5 - 9
检索 、 信息 提 取 、 器 学 习 、 机 自然 语 言 处 理 、 算 语 计 言学 、 统计 数 据 分 析 、 图论 等 。文 本 挖 掘 按 照 挖 掘
对象 分为 两类 。一 是 单 文本 的数 据 挖掘 , 主要 涉及
・ຫໍສະໝຸດ Baidu
5 6-
中华 医学 图书情报杂志 2 1 4月 第 1 0 0年 9卷第 4期
C i JMe ir n e, o.9N . A r 0 0 hn dLb f i 11 o4 p.2 1 I S V
・
生物 医药信 息研 究
文 本 挖 掘 在 生 物 医 学 领 域 中 的 应 用 及 其 系 统 工 具