人类基因组测序文本数据挖掘研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Po a)的有效词频公式 n= (J1 , 1 2 +81— )/ ,其
中 为 判 断高频 词 的最 低 频 次值 ,, 为仅 出现 一 次
的词 的 总 和 ,通 过 计算 所 有 主 题 词 中的高 频 词 进 行
1组最低 频 次值 为 5 1以上 的 2 5个词 为 高频 主题词 ;
对 其题 录信 息进 行提 取 并进 行 共 词聚 类 分 析 ,提 取 高频 主 题 词 ,生 成词 篇 矩 阵 、共现 聚 阵、共 词 聚 类 ,认
为 文本数 据挖 掘技 术 能够很 好地 反 映 学科 发展 状 况及研 究 热点 ,从 而为研 究人 员提供 有 价值 的信 息 。
[ 关键 词 ] 人 类基 因组 ;测序 ;文本数据 挖掘 ;共词 分析 ;聚 类分析
2. 1 生成 词 篇 矩 阵与 共现 矩 阵 相关 文献 题 录 2. 下载 后 ,先利 用 书 目共现 系统 ( il ga hcI m C Bbi rp i t o o e
一
3 研 究 结 果
3 1 高频 主题 词 判定 .
通 过对 文献 题 录信 息 的提 取 ,第 1组 相 关 文 献
[ 稿 日期 ] 2 1 —1 —1 收 01 1 6
[ 作者简介] 于跃 ,硕士研究 生 ,发表 论文 1篇 ;通讯 作 者 :王伟 ,博士 ,教 授 ,博 士生 导 师 ,主 要 研究方 向为 医学信息学 、信息计量 学。
部树 和全 部副 主题 词 ,将 检 索 出 的 2组 文献 用 布 尔 运算 符 “ n ” 连 接 ;选 取 “ u n G nm e ad H ma eo e S—
nm ,H ma ” Meh r” u ngnmesqecn o e u n [ s ]o hma eo eunig ” [ lFe s ) Al id ] 。文献 出版时 问 限定 为 20 l 0 1年 1 月
1日 一2 1 0 1年 5月 1 1 1 3,共 检 出相 关 文 献 7 3 4 8 篇 。为便 于 比较 ,根 据 文 献 出版 时 间 分 为 2个 组 : 第 1组 ( 0 1—2 0 20 0 5年 ) 共 2 5 6篇 ;第 2 组 5 ( 0 6— 0 1年 ) 共 4 8 8篇 。对 相 关 文 献 题 录 选 20 2 1 2 取 X ML格 式下 载 ,生 成专 题 文献 数据 库 。
第 2组最 低频 次 值 为 5 6以上 的 3 7个 词 为 高 频 主 题
词 。见 表 1和表 2 。
判 断筛 选 ;利 用 BC MB系统 建 立 高 频 词 词篇 矩 IO
阵 ( 频词 在 每篇 文献 中 出现频 次 的矩 阵 ) 和共 现 高
矩阵 ( 主题 词 共现 情况 的矩 阵 ) 。
于 跃 潘 玮 王 丽 伟 王 伟
长春 10 2 ) 30 1
( 吉林大学公共卫生学院医药信息与卫生管理学系
[ 要 ] 对 P b d数据 库 中 2 0 摘 u Me 0 1年 1月 1日 一2 1 0 5月 1 1年 1日的人 类 基 因组 测序 相 关 文献 进行 检 索 ,
利用 S S 8 0统计 软件 ,对 2个 时 间段 高 频 P S1.
词 的词篇 矩 阵 进 行 系 统 聚类 分 析 ,用 oha 系 数 作 ci i
为聚 类 系数 ,采 用 类平 均 距 离 法 作 为类 间距 离 的计 算 方 法 ,并 做 出聚 类 树 。另 外 测 定 聚类 所 得 类 团 中 每个 主 题词 的中心 度 ,以确定 每个 类 团 的含 义 。
《自然 》 ( aue 和美 国 的 《 学》 ( c ne 杂 N tr) 科 Si c) e 志在 2 1 0 1年 度 科 研 热 点 预 测 中 ,分 别 将 “ 因组 基
测 序 大爆 发 ” ( e o G nme—sq e c g E poi ) 和 献 中 出 现 该 词 及 其 同 un ig
・
3 ・ 9
医学信 息学杂志
21 第 3 02年 3卷 第 4期
J U N LO DC LN OR T S 2 1 V 1 3. O4 O R A F ME IA F MA I 02.o. N . I C 3
医学信息 学杂志
21 02年第 3 3卷第 4期
J R A F DC LIF R^ T S 02.o 3 N . OU N LO IA O 』A I 2 1 V 13. O4 ME N \ C .
・医学 信息 研 究 ・
人 类 基 因 组 测 序 文 本 数 据 挖 掘 研 究
表 1 文 献 高 频 主 题 词 表 ( 0 1— 0 5 年 ) 20 20
( 示前 1 显 0位 主 题 词 )
2. . 形成 共词 聚 类 22
本 文 所 使 用 的主 题 词 共 现
聚类 方 法 是 系 统 聚 类 分 析 ( 称 等 级 聚类 ,H e— 也 ir
ac ia Cut ) rhc l ls r 。其 原 理 为 :文献 标 引 时 由多个 主 e
[ bta t A src] R teigte i rtrs nh ma eo esq ec n yif m P b e ul hdf m2 0 . . o 0 5 1 , x e i n t a e u ngnm uneaa s o u M dpbi e o 0 1 1 1t2 1. . e— r v h le u o e l sr s r 1 1
Re e r h o e tDa a M i g o m a n m e S q e c a y i s a c n T x t mn n Hu n Ge o e u n e An l s Y Y e A i ANG L —w i ANG We De a t s U u ,P N We ,W i e .W i p r—
t cs i i rp i if mao n a is u o— o nls , i eun ysb c haig r et c d w r ar ,C —o— r t bb o ahc n r t nadcre t a lg o i r o c w r aayi hg d s h ̄ q ec uj t ednsa x at , o m tx O e e e r e d i
hos t tpos,S st r vde v l a e i fr ain t e e c r . O a o p o i au bl n om t o r s a hes o r
[ ew rs K y od ]
H ma eo ;Sq ec nl i;T x dt iig o— odaayi;Cutr nl i u ngnme eu neaay s et aam nn ;C w r nls s s ls a s ea ys
2 资料 与 方 法
2 1 数 据来 源
“ 应基 因” ( d pa o e e )列 入全 世界 科学 界 适 A a t inG n s t
选 取 P b d为 数 据 来 源 ,检 索 有 关 人 类 基 因 uMe
组测 序 的相 关 文 献 。确 定 “ e un eA a s ” 和 S q e c n l i ys “ eo e H ma ” 2个 Me H主 题词 ,分别 扩 展全 G nm , u n S
义 词 的文 献进 行 检 索 ,并 将 检 索 结果 与先 前 主 题 检 索途 径 检 出 的文 献 用 布 尔 运 算 符 “ r 进 行 连 接 , o” 检索 策 略 : ( Sq e c n ls ” Meh n ” e ” e un e A a i [ s ]ad G - ys
计方 面参 考借鉴 了杨颖 等 论 文 中的方 法 ,并 加 以
修改 。
术 ,对 数据 进 行存 储 、传 输 、检 索及 分 类 显 示 ,从
大 量抽 象数 据 中发 现 新 的 信 息 ,基 因 组 测 序 ( e G.
n m e un ig o eSq ecn )是 目前 科 学研 究 的热 点 ,英 国 的
而 通 过研 究 这 些 类 团 的 变 化 ,继 而 对 该 领 域 的 发 生 、发展 、演 变 、未 来 等 问题 做 出分 析 与 预测 。
2. 3 确 定 中心 主题 词 在 确 定 每 个 类 团所 表 达 2. 概念 的过程 中 ,由于 每个 类 团 中 的主 题 词 较 多 ,因 此需 要 确定 每个 类 团 中的 中 心 主题 词 。 由于类 团 中
m r o d a I o t nadH at n gm n, col ul el , inU i rt, h n cu 3 0 1 hn etfMei l n r i n el Maa e et Sho o P b c at Jl nv sy C agh n1 02 ,C ia i c f ma o h f iH h i ei
c re c t x o—wo d c u trn r o mu ae .I c ai e h td t nn o d w y t rf c e eo me t tt sa d r s a c u r n e mar ,c i r l se g a ef r l td t lr i sta aa mi i g i a g o a e e t v l p n au n e e rh i f s o l d s
的主要 主题 词 为 20 7个 ,其 中 出现 次 数 为 1的 主 4 题 词有 1 1 1个 ;第 2组 相 关 文 献 主 题 词 为 313 8 0
0c r n eMa i B i e ,B C MB)4对 文 献 题 录 cur c t x ul r I O e r d [ - 3
关 注 的焦 点之 一 _ J 1 。本 文 运 用 数据 挖 掘 和 可 视化
1 引言
数 据挖 掘 ( a nn ) 是 知识 发 现 的 核 心技 D t Miig a
方法 对基 因组 测序 的相关 文 献 进 行分 析 ,揭 示 该 领
域 的研 究 现状 、学 术 前沿 和 发 展趋 势 ,为 医学 科研 和卫 生管 理决策 提 供 有 价值 的信 息 。本 文在 研 究设
中的主题词 ( 为避 免 特 征 词 与 不 相 关 词 的影 响 ,这
里 只提取 主要 主题 词 )进 行提取 ;根 据 帕欧 ( M.L _
个 ,其 中 出现 次 数 为 1的 主 题 词 有 16 6个 。根 据 4 帕欧 的有 效词 频 公 式 和数 据 实 际 分 布情 况 ,确 定 第
2 2 研 究 方 法 .
各 主题 词 之 间的共 现 关 系 与社 会 网络 中的个 体 共 现 关 系类 似 ,因此在 中心 主 题词 确 定 过 程 中 ,借 鉴 社
会 网络 分 析 中确 定 网络 中 个 体 中 心 地 位 的 “ 心 中 度 ” 数 值 对 中心 主 题 词 进 行 判 断 。具 体 方 法 为 : 利用 U ie 软件 对 每个 类 团 的主题 词 共 现 矩 阵 进行 cnt 相 对 中心 度计 算 ,主题 词 的 相对 中心 度 越 大 ,其 地 位 越 突 出 ;中心 度最 大 的 2个 主题 词 即 为 该 类 团 的 中心 主题 词 ,用 以判 断类 团含 义 。