gCLUT-1.0说明书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
gCLUTO 使用说明书
Matt Rasmussen, Mark Newman
明尼苏达大学. 版权2003
最后修改:CST 2003年 1月20日星期一12:33:38
/~mrasmus/gcluto
1
目录
1 说明 (1)
1.1 gCLUTO简介 (1)
1.2 gCLUTO功能 (1)
2 . gCLUTO安装 (1)
3.gCLUTO使用 (2)
3.1 概述 (2)
3.2 创建新项目 (3)
3.3 导入数据 (3)
3.4 数据聚类 (4)
3.5 可视化方案 (6)
3.5.1可视化矩阵 (6)
3.5.2可视化山丘 (9)
1 说明
1.1 gCLUTO简介
gCLUTO (Graphical Clustering Toolkit,图形聚类工具包)是CLUTO数据聚类文库的图化形前端,其用途就是为CLUTO软件提供一个用户友好的图形界面。另外,gCLUTO还提供了交互式聚类结果可视化的几种方法。gCLUTO可以在/gkhome/cluto/gcluto/download下载。更多信息请访问/gkhome/cluto/gcluto/overview。
1.2 gCLUTO功能
gCLUTO具有以下功能:
∙提供项目树视图:用于管理数据文件,聚类方案和可视化结果;
∙提供详细对话框:用于选择聚类参数;
∙提供电子表格界面:用于浏览数据;
∙提供HTML 界面:用于浏览聚类结果;
∙Bootstrap聚类方法。
∙提供可视化矩阵:为一种彩色的交互式矩阵;
∙提供可视化山丘:通过多维标度计算生成的三维山丘聚类图形。
2 . gCLUTO安装
目前, gCLUTO 适用于Linux 和Microsoft Windows 平台。
∙在/gkhome/cluto/gcluto/download找到gCLUTO的最新版本。
∙下载到本人电脑的任意目录下,解压文档。
∙阅读README.txt文件以将正确版本的gCLUTO载入操作系统。
∙Windows用户可以通过将gcluto.exe放入资源管理器来创建桌面快捷方式。右击图标,将其拖至桌面,从弹出的菜单中选择“在此创建快捷方式”。
1
∙Linux用户可以创建一个符号链接至gcluto,并将符号链接置在最方便使用的地方。
注意:实际的可执行文件(gcluto, gcluto.exe)必须在与解压后的程序文件在同一个文件夹内才可保证程序的执行。请勿将其重新定位。
3.gCLUTO使用
3.1 概述
图3.1 gCLUTO界面
开始对数据进行聚类时,会用到很多文件,如数据文件,聚类方案文件和可视化方案文件。和许多其他应用程序一样,gCLUTO使用“项目”的理念来组织用户的数据和工作流。
载入一个项目,它的内容将会在树状图中显示,见图3.1中的左侧条形栏目(a)。树状图中的图标为项目中的条目。
∙表示的是项目,代表项目本身,是项目树的根。
∙表示的是数据,将数据导入项目后,数据图标就会出现在项目树上。一个项目可包含许多不同的数据项。
∙表示的是结果,对某个数据项聚类后,该图标就会生成并置于聚类数据项之下。
∙表示的是可视化矩阵,这是聚类后生成的一个可视化结果。所有的可视化结果都出现在其来源聚类结果之下。
∙表示的是可视化山丘,另一个可视化结果,力图从三维的角度来描述类群之间的相互关系。
在任意项上右击会弹出菜单,菜单在列出该项上可执行的操作,双击可以在一个叫做“视图”的新窗口中打开该项的内容,类似于图3.1中右侧的(b)(c)(d)。当在其中一个视图中工作的时候,菜单栏就会出现该视图特有的菜单选项。
3.2 创建新项目
gCLUTO第一次打开时是一个空的项目树。需要创建一个新的项目树以开始工作。在菜单栏选择“File”,再选择“New Project”,就会出现一个对话窗口,命名项目并在指定位置保存。
gCLUTO将会生成一个目录,称为项目目录。项目目录以项目命名并存储在特定位置。与该项目相关的信息都会存储在项目目录里。
打开已有项目需选择“File”,再选择“ Open Project”,然后会出现对话框。确定项目目录的位置后打开该项目,在项目目录内会有一个
“project_name.prj”文件,“project_name”为项目名。选择这个文件点击“打开”。
这些步骤后,项目树的项目将被载入并显示。
3.3 导入数据
gCLUTO接受的数据类型与CLUTO相同。参见CLUTO的说明书可详细了解具体的数据类型。
∙matrix file (*.mat)——包括致密矩阵,稀疏矩阵,或者用于表示聚类的数据的相似度图(similarity graph)。
∙row lables (*.rlabel)——保存数据矩阵的行标签。
∙column labels (*.clabel)——保存数据矩阵的列标签。
∙class labels (*.rclass)——保存数据矩阵中行的类标签。
导入新的数据项:在菜单栏上选择“Project”,再选择“Import Data”。出现的导入数据对话框允许用户打开指定位置的上述几种文件类型。点击
“Browse”将弹出文件对话框,允许用户定位所需文件。对于*.txt文件可选择Delimited File进行导入。只有*.mat文件要求用户必须通过适当的选项指定*.mat文件包含的是矩阵数据还是图形数据。
如果先选择*.mat文件,gCLUTO会尝试通过为*.mat文件名加上扩展名来推测可选文件(*.rlabel, *.clabel, *.rclass)的位置,例如,对于名为genes.mat 的文件,gCLUTO会推测genes.mat.rlabel为行标文件。如果这个文件存在,gCLUTO会将它作为默认文件并在"Browse"文件对话框中打开。
当指定这些文件后,用户可为该数据项设定标签。如不设定,数据项将以除去扩展名的*.mat文件作为标记。在导入数据对话框点击“OK”, gCLUTO将试着读取所选文件。如果没有遇到错误,gCLUTO将添加新的数据项至项目树并打开数据视图。数据视图允许用户浏览数据,核实其是否被正确导入。
对于用BICOMB软件生成的词篇矩阵,可选择“Delimited File”,并在“Deliminated File Option”中选择以首行(列)作为行(列)标,“Delimiters”选择“Tab”,最后点击“OK”即可完成julei.txt文件的导入。
3.4 数据聚类
如果按照3.3中介绍的步骤导入数据,那么就可以准备数据聚类了。开始聚类有两种途径。第一种是右击项目树中的数据项,在弹出菜单上选择“Cluster”。第二种是数据视图打开后在菜单栏“Data”下选择“Cluster”。
在任一菜单选择“Cluster”后会出现聚类选项对话框,包含用于聚类的所有参数选项。只有特定的选项在一起才有意义。随着用户做出选择,gCLUTO会自动更新对话框以确保选择的合理性。
Cluster Method(聚类方法)有四种:Repeated Bisection(重复二分法),Direct(直接聚类),Agglomerative(凝聚聚类)和 Graph(图形聚类)。其各自特点如表1所示。用户可根据实际需要选择恰当的聚类方法。
表1 算法特点简述表
聚类算法特点简要介绍
K-way算法遵循重复二分法的系列步骤计算。
整个K-way算法仅仅在一步直接计算。