3.共现聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“THE DNA/RNA AND PROTEINS OF RESEARCH PAPERS”
词共现

词:
关键词、主题词、自由词

共现:
同一篇文章、同文摘、同句子(标题)

直接反映了概念(知识单元),拆散了文章。
词共现
文献中的共现
文献中的共现

共现
两个或者两个以上标目在同一个字段中出现


综合楼,信息系实验室5,7楼 11月2日,11月5日

时间:

任务:
检索并下载文献 使用文献处理软件,处理数据 使用统计分析软件,分析数据

系统聚类
分层聚类或(hierarchical cluster) 开始时,有多少点就是多少类。 第一步先把最近的两类(点)合并成一
类,然后再把剩下的最近的两类合并成 一类; 这样下去,每次都少一类,直到最后只 有一大类为止。显然,越是后来合并的 类,距离就越远。
K-均值聚类


工具
BICOMB Bibliographic Item Co-Occurrence Matrix Builder 书目共现分析系统 http://www.cmu.edu.cn/information/showpage .asp?pageid=382

工具
Bibexcel http://www8.umu.se/inforsk/Bibexcel/

两类之间最近点之间的距离可以作为这两类之间的距离, 两类中最远点之间的距离作为这两类之间的距离; 各类的中心之间的距离来作为类间距离。 在计算时,各种点间距离和类间距离的选择是通过统计软件的选 项实现的。不同的选择的结果会不同,但一般不会差太多。
聚类分析算法:类间距离

类与类之间距离定义方法:
(二)曼哈坦距离 对应元素间差值绝对值的和表示,即
d (a, b) xa1 xb1 xa 2 xb2 xan xbn
聚类分析算法:相似度

相似系数

夹角余弦:
C xy (1) cos xy
wenku.baidu.com y
i i 2 i i i
i 2
x y
i
聚类分析算法:相似度
共现的泛化(篇内与篇间)

作者1,2,3 作者单位1,2,3 标题 期刊 摘要:词1,2,3 主题词1,2,3 分类号1,2,3 引文

1.作者、期刊、年代 2.作者、期刊、年代
作者 作者单位 标题 期刊 摘要 主题词 分类号 引文
1.作者、期刊、年代
作者共现(合著)

最短距离法(single linkage)

类与类之间距离定义为两类间样品距离的最小值。 类与类之间距离定义为两类间样品距离的最大值。 类平均法(average linkage) :类与类之间距离定义为两类间样品距离的平 均值 类与类之间距离定义为两类的重心之间的距离。

最长距离法(complete linkage)

关键问题:

聚类分析算法:相似度

如果想要对100个学生进行分类,如果仅仅知道他们的数学成 绩,则只好按照数学成绩来分类;这些成绩在直线上形成100 个点。这样就可以把接近的点放到一类。
0
50
100
聚类分析算法:相似度

如果还知道他们的物理成绩,这样数学和物理 成绩就形成二维平面上的100个点,也可以按 照距离远近来分类。
论文1 被引论文1 被引论文2 被引论文3 0 0 1
论文2 1 1 0
论文3 0 1 1
论文4 1 0 1
…… …… …… ……
聚类分析算法:类间距离
聚类分析算法:类间距离


由一个点组成的类是最基本的类;如果每一类都由一个点 组成,那么点间的距离就是类间距离。但是如果某一类包 含不止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:
共现的泛化

作者同被引
共现的泛化

期刊同被引
共现的泛化(期刊同被引)
数据矩阵
论文1 主题词I 主题词j 0 0 论文2 1 1 论文3 0 1 论文4 1 0 ……
论文1 被引论文1 被引论文2 被引论文3 0 0 1
论文2 1 1 0
论文3 0 1 1
论文4 1 0 1
…… …… …… ……
软件使用
SPSS SAS Cluster 3.0

http://bonsai.ims.u-
tokyo.ac.jp/~mdehoon/software/cluster/software.h tm#ctv

gCluto
http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/do
聚类分析原理

聚类和分类
分类问题中,在知道训练样本的分类属性情况
下,将数据对象分到不同的已知类中。
聚类分析原理


聚类问题中,在划分的类未知的情况下,将数 据对象分组成不同类,需在训练样本中找到这 个分类属性。 样本和变量(指标)
数学 语文 外语
学生姓名
张三 李四 王五
76 87 90
76 65 97

文献引用网络
文献引用网络
同被引和书目对
• • • •


同被引 强度 被引文献A 幅度 书目对(引文耦合) 被引文献C 强度 幅度
引用文献3
被引文献B
引用文献1
引用文献2
引用文献4
人类信息行为(HIB)155篇论文同被引网络
CO-CITATION GRAPH OF 394 ARTICLES
主题词I
0
主题词j
0
1
1
0
聚类分析算法:相似度

两篇论文相似(异)度的计算:

简单匹配系数(对称)
bc d (i, j ) abcd

Jaccard系数(非对称): c b
d (i, j )
abc
聚类分析算法:相似度

Ochiai系数
Ochiai
AB同被引次 A被引次 B被引次
聚类分析的种类



系统聚类法:用于对小样本的样品间聚类及对指标聚类 。 逐步聚类法或称快速聚类法:用于对大样本的样品间聚类 。 有序样品聚类法:用于对有排列次序的样本的样品间聚类, 要求必须是次序相邻的样品才能聚在一类。 模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法, 适用于小样本。 分割聚类法:适用于对指标聚类 。
66 87 76
16种饮料的热量、咖啡因、钠及价格四种变量
聚类分析算法

聚类统计量:在聚类分析中反映样品或变量间关系 亲疏程度的统计量。

距离: 用于对样品的聚类。常用欧氏距离,在求距离前, 需把指标进行标准化 。 相似系数: 常用于对变量的聚类。一般采用相关系数。 相似度计算:点和点之间的距离 类间距离计算:类和类之间的距离。

k-means cluster,快速聚类(quick cluster) 先说好要分多少类:假定分3类,这个方法要求你事先确定3 个点为“聚类种子”(SPSS软件自动为你选种子);也就是说, 把这3个点作为三类中每一类的基石。 根据和这三个点的距离远近,把所有点分成三类。再把这三 类的中心(均值)作为新的基石或种子(原来的“种子”就 没用了),重新按照距离分类。 如此迭代下去,直到达到停止迭代的要求(比如,各类最后 变化不大了,或者迭代次数太多了)。 显然,前面的聚类种子的选择并不必太认真,它们很可能最 后还会分到同一类中呢。
物 理
数学
聚类分析算法:相似度

三维或者更高维的情况也是类似;只不过三维 以上的图形无法直观地画出来而已。在饮料数 据中,每种饮料都有四个变量值。这就是四维 空间点的问题了。
物 理
化学 数学
聚类分析算法:相似度
(一)欧几里得距离 欧式距离由对应元素间差值平方和的平方根所表示,即
设有a和b两个n维向量,xa ( xa1 , xa 2 ,, xan ), xb ( xb1 , xb 2 ,, xbn ) d (a, b) ( xa1 xb1 ) 2 ( xa 2 xb 2 ) 2 ( xan xbn )

1 1 0 a c
0 d b
设每个对象有P个变量:

a表示对象i和对象j的值都为1的变量的数目, b表示对象i和对象j的值都为0的变量的数目, c表示对象i为1、对象j的值为0的变量的数目, d表示对象i为0、对象j的值为1的变量的数目。
论文1 论文2 1 论文3 0 论文4 1 ……


中间距离法(median method)


重心法(centroid method)


Ward离差平方和法(Ward's minimum-variance method)
聚类分析的种类
样本聚类: R型聚类,行 变量聚类: Q型聚类,列

例如临床上为修复耳缺损,可先以正常耳朵的耳
长、耳宽、耳外展距等指标为依据,对耳朵进行 聚类分析,把正常耳朵划分成几类,然后找出各 类之标准化耳朵,以供临床修复各种耳缺损病员 时参考。 衬衣的号码:S,M,L,XL,XXL
共现聚类分析
主要内容
共现 聚类 基于共现的聚类分析

共现分析



同被引和书目对 词共现 共现的泛化 共现矩阵 软件
共现
共同出现,co-occurrence 同时发生、存在或出现 在一个文本语料库中,两个术语超出正常 频率的同时发生、存在或出现。 在语言学里,共现可以解释为语义上相似 的指标或者是固定搭配(成语)表达。

聚类
聚类分析原理 聚类分析算法 聚类分析的种类 软件使用

物以类聚 人以群分
聚类分析原理

聚类分析(cluster analysis)
是一个将数据集划分为若干组或类的过程,
同一个组内的数据对象具有较高的相似度;而
不同组中的数据对象是不相似的。 相似或不相似的描述
基于数据描述属性的取值。 用各对象间的距离来表示。
相似矩阵
主题词1 主题词1 主题词2 主题词3 主题词4 1 0.85 0.47 0.66
主题词2 0.85 1 0.63 0.52
主题词3 主题词4 …… 0.47 0.63 1 0.02 0.66 0.52 0.02 1
……
共现分析

可以进行共现分析的标目
作者:合著 单位:合作 主题词、关键词:共词分析 引文:同被引分析
作者:PubMed,CNKI 主题词:PubMed,CNKI 引文:SCI CD-ROM


统计频次
高频作者 高频主题词 高被引论文



共现分析:形成共现矩阵 分析数据 SPSS聚类分析 聚类结果的分析 得出结论

共现分析

聚类分析结果
课程安排
上机实践去! 地点:
wnload
共现聚类分析
分析内容 步骤

分析内容

学科、主题的发展历史
高被引论文的时间排序

学科、主题的研究现状
高频主题词的共现聚类分析 高被引论文的同被引聚类分析

学科、主题的趋势
高频主题词的共现聚类分析战略坐标 高被引论文的同被引聚类分析战略坐标
步骤


搜集数据 确定主题 选择数据库,制定检索 策略 下载文献 处理数据: 抽取字段
相关文档
最新文档