SIMCA-P_11.5_指南(中文)要点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SIMCA-P,SIMCA-P+指南
11.0版本
Umetrics AB
1992-2005 Umetrics AB
本篇文章诣在告诉本软件使用者一些该软件的注意事项,并且该文件并不能作为Umetrics AB 公司承担义务的一部分。
该软件中的信息(包括所包含的所有数据库)均需要得到已公布或未公布的许可协议方可使用,并且必须在获得许可协议的前提下方可以使用或拷贝,在未得到已公布或未公布的许可协议下擅自的进行软件的拷贝是一种违法行为,在未得到Umetrics AB公司书面许可的前提下,该产品的任何部分不可以再次安装或以任何形式、任何传播方式(包括电子传播方式、机械传播方式)进行软件的传播。
SIMCA是Umetrics 公司的注册商标,Windows是Microsoft 公司的注册商标。
包括以下商品:SIMCA-P,SIMCA-P+
编辑日期:2005年5月16日
目录
SIMCA软件的启动
基本操作规程
基础信息
SIMCA-P软件是以工程(projects)的形式来进行数据的建模处理。
一个工程就是一个包含着主要的数据集(dataset)分析结果(没有模型数量的限制)的集合。
你可以通过输入数据(主要是数据集)来进行一个新的工程的建立。
当你选择活动模型类型(Active Model Type)并列举一个新的工作集或一个已经存在的工作集时,SIMCA-P软件将自主建立不合适的模型。
在一个工程建立的最初,系统默认的工作集包含所有的数据,包含所有的居中变量及方差的变化范围,并将其视作变量X,并且模型是变量X的重要组成部分。
一个工程窗口可以显示每一个模型的分析结果,每一行数据及时对一个模型的分析结果进行总结。
活动模型(即所需要进行建模处理的模型),也可以在灰色区域(status bar)左边的显示框中显示,即在命令菜单的下方。
如果你想打开一个模型,在工程窗口中双击该模型,将打开一个包含模型结果所有信息(一行一个分类)的模型窗口。
另外一种激活模型的方法(如果部分模型已经提供)是从显示框中(左上方)选中该模型的名字。
数据分析流程
1、数据的预处理及数据的选择(数据集和工作集菜单)
2、数据集菜单将允许你进行数据的拟合、修改,产生新的变量,并且将对
原数据进行筛选及压缩。
系统默认的工作集一旦被打开,里面将包含所
有作为自变量X及其方差范围的数据集。
新的工作集也将包含这些内容。
工作集菜单允许你对最初的工作集进行修改。
3、指定模型,并对模型进行拟合(分析菜单)。
4、对结果进行核实并执行诊断(分析菜单)。
5、使用模型进行预测(预测菜单)。
基本数据的录入及新工程的建立
文档:新文档
从文档或数据库中选择所需要录入的数据。
SIMCA-P软件可以录入以下格式的文档数据:
DIF:数据互换模式(许多应用程序可以输出DIF格式的数据文档)。
TXT:标准被限定的text文档(一行一个数据)
TXT:任意形式的text文档(有无数据头均可)
MAT:Matlab 4.0版本文档(二进制)
XLS:EXCEL文档的所有形式
LOTUS 123:*.wkl 格式的文档
JCAMP-DX:*.jcm,*.dx,*.jdx 格式的文档
ANDI:色谱工作站AIA 格式文档
NSAS:数据文档
GRAM:Galactic *.spc 格式文档
其他格式(参考第四章):包括旧版SIMCA-P数据文档。
文档资源的选择
资源目录:包含数据文档的目录
名称:将资源文档,例如:ENVIRO.DIF
双击该资源文档的名称。
目标目录:该目录用于储存工程,例如:C/SIMDATA/ENVIRO
如果你愿意,你可以修改工程目录(目标目录)的位置。
SIMCA-P软件默认资源目录作为目标目录。
文档内容的表示
为自变量和观察对象指定主要的和尽可能多的次要的检识符。
第二数据集
可能一会你还会录入一些额外的数据(第二数据集)以用于预测。
你可以在菜单File/Import Secondary Dataset中完成该操作。
显示
按照你习惯的方式进行软件显示格局的建立并保持工程水平选项及基本信息的选项处于醒目位置。
数据的预处理(数据集菜单)
从数据集中进行变量及观测值的绘图
将你想要进行绘图的变量或观测值进行标记,右键点击标记的项目上,然后选择想绘制的图像类型。
将所有的X的观测值绘制一个线形图,只需要右键点击这个数据集并选择Plot/Xobs.
可以按如下步骤使用数据集菜单对一个SIMCA-P数据集进行观察或修改:Quick Info
将数据集中显示的变量或观测值按时间或频数的相互作用形式进行绘图。
Trimming/Winsorizing单个或所有的变量
Edit dataset
基本的编辑命令。
Generate new variables
产生一个同已存在变量或模型结果中所获取变量组成相同的变量。
数据集。
使用以下命令进行数据光谱滤波:
Orthogonal Signal Correction (OSC)
Multiple Scatter Correction (MSC)
Standard Normal Variates (SNV)
1st and 2nd Derivatives
Wavelet transform and compression
PLS wavelet transform of time series
Decimation of time series
数据的准备(工作集菜单)
在工程开始之初,系统默认的工作集是包括在录入过程中定义为X自变量和Y自变量的所有的数据集以及计算出的方差值。
关联的模型(不合适的)在活动区域显示。
当你已经准备好了一个包含数据集所有基本数据的PLS模型(系统默认),或者PC的X模型或Y模型。
如果这正是所想要进行运算的,你可以直接进入分析菜单。
如果想要获得一个包含被排除的变量或转化之后的变量或不同水平的变量的模型,这就需要首先对工作集进行修正。
当你指定一个工作集(选择 starting Workset New or As Model)时,SIMCA-P 系统将自动产生一个不合适的模型。
工作集
新工作集
使用在录入数据过程中被定义为X和Y的所有基本原始数据集。
新模型
使用一个已经被选择的模型的工作集作为起始点。
按照如下步骤进行工作集的修改:
观测值
对观测值进行筛选(排除/留下),或者将它们分成不同的类别以进行分类。
变量
对X/Y变量进行定义、转换、计算等运算。
转换
转换变量值。
延迟
建立延迟变量(仅SIMCA-P有该项功能)
变量/变量组
选择变量,并指定类型。
选择所需的变量作为X变量、Y变量或排除,对X变量、Y变量或者需排除
的变量进行标记并且点击“Set”按钮。
扩展
通过进行加和、平方、立方运算对X自变量容量进行扩展。
运算标准
选择一个基本的运算标准(UV=……10页)
选项
指定模型水平的选项。
处理模型(分析菜单)
选择模型类型
如果你的所有自变量均定义为X自变量,那么软件将默认将模型定义为PCX 模型;或者你在录入数据的过程中将自变量均定义为X自变量和Y自变量,那么系统将默认将模型定义为PLS模型。
当工作集规范允许你进行修改时,你可以对模型的类型进行修改,你可以将模型的类型修改成以下种类:PCX
仅含有X变量的PC模型。
PCY
仅含有Y变量的PC模型。
PC All
既含有X变量,又含有Y变量的PC模型。
PC Class
当你的观测值分成了多个数据类时,你所选择的一个数据类的PC。
PLS
含有X变量和Y变量的偏最小二乘法回归数据处理。
PLS Class
当你的观测值分成了多个数据类时,对所选择的一个数据类进行偏最小二乘法回归处理。
PLSDA
当你的观测值分成了多个数据类时,进行区别性的偏最小二乘法数据回归处理。
模型拟合
自动拟合
由软件自动进行模型数据的拟合。
二主要分类
直接对两个主要分类进行数据处理,通常可用于对数据进行快速描述。
单一分类
每次仅对一个分类进行数据处理,这样无论该分类是否具有显著性意义,均可以使每一个分类均进行数据处理运算。
移除分类
将最末分类移除。
自动拟合数据类模型
自动拟合或者将所有指定数据类模型中所有分类进行数据处理。
指定水平模型
指定一个模型作为基础水平或者最高水平标准。
拟合复查(分析菜单)
数据拟合结束后,所有的谱图及数据表均会在模型描述中体现出来。
拟合概要
1.模型复查。
2.X变量、Y变量复查,将所有的变量进行累积拟合(PLS中仅对Y变量进
行拟合)。
3.X变量、Y变量排序:通过分类对一个变量进行拟合。
4.分类的贡献值:模型中一个分类对拟合结果的贡献程度。
5.主成分:t1 vs t2,t1 vs u1,等。
6.荷载系数:p1 vs p2,w*c1 vs W*c2,等。
7.系数(PLS)
8.对工程影响最大的变量(PLS)
9.DMod(X变量或Y变量)与模型(X变量或Y变量)之间的距离。
10.观测值vs预测值(PLS)。
11.剩余图像:正态图(选择Y自变量)
12.观测值风险
注意:在分析菜单中,系统默认的所有图像及数据表为最后一个分类的相关数据。
如果你想选择不同的分类进行显示或选择一个不同的变量进行显示,点击鼠标的右键并选择相关选项。
选择一个新的模型类型
在模型拟合完成后,你可以选择一个新的模型类型。
SIMCA-P软件将会分局你所选择的模型类型生成一个新的未拟合的模型。
例如,如果你已经将你的工作集定义为X变量和Y变量,你可以先进行PCY拟合,然后将模型的类型改为PLS,并且可以获得一个和原数据一样的PLS拟合模型(另一个模型)。
预测值(预测菜单)
建立预测数据集
使用预测菜单/Specify Prediction set命令从主要数据集或任何一个次要数据集建立一个预测数据集。
你可以将预测数据集作为一个电子数据报表或图形或数据表结果来显示。
当你没有指定一个预测数据集时,系统默认的预测数据集为首要数据集中的所有数据。
你可以通过首要数据集中或者任何一个你所录入的次要数据集中的观测值建立一个预测数据集。
当你在电子数据报表中建立预测数据集时,你还可以通过键盘向预测数据集中录入数据。
预测值显示
所有的预测值结果(主成分、Y值等),均是以图形或数据表的形式进行显示。
图形、数据表
在这个菜单下,你可以找到常规的图形和数据表程序。
通过这个菜单你几乎
可以对任何数据和分析得出的结果进行绘图或制作数据表。
这个菜单可以为你提供:散点图(scatter)、线形图(line)、柱形图(column)、3D散点图(3d scatter)、柱状图(histogram)、等值图(contour)、3维等值图(response surface)、正态概率图(normal probability plots)、小波处理图(wavelets plots)、控制图(control charts)和batch control charts。
注意:点击鼠标右键可以显示一个活动的图形或数据表。
你可以通过图形获得数据表,也可以通过数据表得到图形。
SIMCA-P分析流程图
批次工程(SIMCA-P+ 10)
基本信息
一个SIMCA-P的批次工程是由两个或两个以上相互关联的工程所组成的。
在工程批次的变换过程中,工程水平的观测值包括每个批次的观测值及变量值均被衡量,并且批次的水平有已完成批次所决定。
批次水平工程的变量是主成分,或者每个时间点观测值水平的最初的变量具有重要意义。
批次可能会被划分为数个阶段。
观测值水平工程
依照批次信息,你首先录入观测值水平信息并建立一个观测值水平工程。
在这些信息中,你必须有一个批次的标示符,指出起始批次和终止批次。
如果存在批次阶段,进而存在阶段标示符。
你可能还要有一个用于指出批次或阶段变化进展及终点的变量,这个变量可以是时间或者成熟度。
在不同的批次阶段你可以拥有不同的成熟度变量。
当批次被划分为阶段时,SIMCA-P软件将秘密的产生一个未拟合的批次模型,即以时间或成熟度作为每一个阶段Y变量的PLS数据类模型。
软件默认一个阶段中的所有变量均为方差值。
对于每一个模型,模型的结果在工程窗口中以线形图的形式表现。
当批次值出现阶段值时,PLS批次数据类模型将被聚类并以MBxx进行命名,xx是一串连续的数字。
你可以在控制图中显示数据分析结果,要么作为主成分点、DModX、预测时间值或成熟度值,或者作为个别变量。
次要数据集可以录入新的批次,这些可以通过相同的方法在控制图中得到展现。
批次水平工程
批次水平工程是以完成批次的主成分点或起始变量为基础,从观测值水平工程中获得的。
批次水平工程师SIMCA-P软件的一个常规工程,当批次最初条件及质量变
量存在时,软件将自动将其加入到批次水平数据集中。
你可以将系统默认的模型类型(PCA)改变成只要是工作集说明允许条件下任何你所想到的类型。
分析周期
观测值水平工程
13、预处理并选择数据(数据集和工作集菜单)
6、数据集菜单允许你trim/Winsorize你的数据,产生新的变量并且进行
数据的光谱滤波(spectral filtering)或者小波压缩(wavelet compression)。
模型由软件默认的工作集发展而来,系统默认的工作集由PLS批次数据类模型组成。
7、对观测值水平模型进行拟合(分析菜单)。
8、对结果和诊断操作进行复核(分析菜单)。
9、批次控制图用于批次值的设置(分析菜单)。
10、录入一个具有新批次的次要数据集并且使用该模型在控制图中显示这
个新的批次(预测菜单/Batch Control Chart)。
批次水平工程
11、建立一个批次水平工程(文件菜单/Create Batch Level project)。
12、对批次水平工程进行数据拟合。
13、使用主成分图(score plots)、载荷图(loading plots)、DModX、贡
献值图(contribution plots)等进行结果阐述。
14、预测并阐述新的批次数据处理结果。
介绍
基本信息
这篇引文仅仅是SIMCA-P软件的一个大致介绍。
建议使用者阅读相关章节(包括模型的建立、数据的录入、PC和PLS模型建立、数据处理结果的阅读),从而获得一个更加详细的该软件的使用说明,同时为了使使用者更好的使用该软件,建议使用者使用USER’S GUIDE 和 ON-LINE HELP系统。
在这篇引文中为使用者列举了以下5个时例。
第一个例子是关于食品数据的模型处理。
第二个例子是从一个矿物整理车间所选取的一个真实数据处理过程。
第三个例子是分析化学中经常遇到的多变量校准的数据处理。
第四个例子是解释分级模型建立。
第五个例子是说明光谱滤波的使用。
第六个和第七个例子是展示如何进行有阶段和没有阶段批次型数据的模型处理。
作为一篇指南,在这儿给使用者提供的仅仅是SIMCA-P软件的一些主要的常用功能和图表。
我们建议你继续使用你自己的数据,参照这篇指南获得相应的数据分析结果。
帮助系统包含和指南相同的信息,只是排版的方式不同。
图形与数据表
你可以使用大量的图形和数据表来展示SIMCA-P软件处理结果。
分析菜单和预测菜单中的结果均是通过图形和数据表的形式进行展示。
通过图表菜单,你可以根据每一个模型中的数据和计算值进行图形及数据表的绘制。
你甚至可以将不同模型中的矢量进行绘图。
所有的矢量数据均可以进行Auto、Cross Correlation plot 和Power Spectrum 处理。
数据集中,你可以通过trimming and winsorizing 操作对数据进行预处理。
显示变量图(Quick info plot)均提供全部的显示数据表(spreadsheet)。
食品
数据
数据的收集通常是以表格的形式来进行开展的,但是如果不能获取有用的信息,数据表格是一点用处都没有的。
图解可以使数据表格中的数据更好的表达。
下面的例子将阐明工程的要素。
这个例子中的数据来自欧洲多个国家不同的食物消费情况。
变量
所选择的变量反映了国家之间不同的传统和文化。
观测值
选取了16个欧洲国家。
数据表
见EXCEL FOOD。
目的
这项研究的目的是为了调查工业化国家之间的食品消费的差异与文化和传统之间的联系,并且因此发现这些国家之间的相似处和不同处。
因此这些数据收集了20个变量和16个国家。
这些数据显示了这20种食品在日常家居生活中的储备的百分比。
分析概要
SIMCA-P分析的步骤如下:
·录入数据集
·数据准备(工作集菜单)。
·PC模型拟合、拟合过程复核(分析菜单)。
·结果说明(分析菜单)。
工程定义
启动SIMCA-P软件并建立一个新的工程,点击FILE/NEW。
选择数据类型(XLS)或ALL Supported Files(系统默认),并找到所需的
数据集(FOODS.XLS)。
数据可以从你的硬盘或者网络驱动中被录入,数据可以以不同的格式被录入,所以选择最合适的格式或者ALL Supported Files 格式。
在这个例子中所选的数据是通过EXCEL所建立的一个XLS格式文档。
如果你的数据在一张软盘上,我们建议你首先将数据拷贝到硬盘上。
如果你想关闭正打开的工程,点击Close Current Project.
注意:所需录入的数据集可以被放置在一个可以获得的目录内的任何地方。
无需将它放置在你所定义的目的目录中。
当你点击Open,SIMCA-P软件将打开Import Wizard界面。
SIMCA-P软件已经识别出这个例子具有观测值的数量和名称以及变量的名称,并将它们使用不同颜色进行了正确的标记。
当你点击“Next”后,工程说明界面将打开。
你可以修改工程的名称和储存目录。
勾选“Use workset Wizard”项,并点击“Finish”
Workset Wizard
“Workset wizard”界面打开后,将引导使用者进行工作集的建立和模型的拟合。
选择变量界面,可以获得哪些变量是X变量,哪些变量是Y变量以及哪些变量需要被排除。
如果你对变量进行了标记并点击了“转换(Transform)”,软件将进行检查并提供相应的转换公式(Log转换)。
本例中,所有的变量均为X变量且无需进行转换,点击“Next”
在这个界面中,你可以选择你所需要的观测值(排除你不需要的观测值)或将观测值分为数据类。
数据类设置通过观测值的ID(使用一个选择的任何一个观测值ID)自动进行数据类的设置。
本例通过使用主成分分析(PCA)得到一个数据表的综述,所有的观测值均被包含在内并未进行数据类的指定。
点击“Next”打开一个简要说明界面,点击“Finish”进行模型的拟合。
分析
简要的模型拟合图形以R2X(cum)形式和Q2(cum)形式进行展示。
双击“model summary line”,简要的拟合模型就以R2X(cum)和累积R2X(cum)、Q2和Q2(cum)及固有值的形式进行展示。
食物的变量按照预期计划的已经被三个新变量相互关联并进行了平行的简化,分数说明解释说明65%的变化。
主成分和荷载值
主成分
选择“Analysis/Scores/Scatter Polt”选项或快捷键进行t1 vs. t2 主成分图形的展示(系统默认)。
在“Label Types”界面,一定要选择第二检识符“Onam”。
椭圆区域代表95%的置信区间。
主成分t1和t2(代表着分类1和分类2的矢量)是通过对最初所有变量进行线性回顾拟合所得到的两个新变量,以提供一个更佳的概况信息。
最初变量的权重(weight)称作荷载值(p1和p2),见下文。
主成分图展示出三组国家类型。
一组是斯堪的纳维亚人国家(北面),第二组是欧洲南部的国家,第三组是分布更加广泛的欧洲中部国家。
通过变量值对不同的观测值(国家)进行着色,点击右键,打开“properties”窗口,依次选择“color”“by categories”,并且在“variable”下拉菜单下选择变量(本例中选择蒜头garlic)。
在“split range”窗口,输入4。
如果想要按照需要进行“split range”的修改,点击右侧的文本框。
南北方的欧洲国家蒜头的食用量存在着明显的区别。
荷载值
选择“Analysis/Loading/Scatter Plot”来显示荷载值p1 vs. p2。
荷载值是结合了X变量主成分(t)的X变量的权重值。
这个图形体现了哪些变量描述国家之间的相似处和不同处。
斯堪的纳维亚人国家主要吃脆面包(crisp bread)、冻鱼(frozen fish)和蔬菜(vegetables),而南方的欧洲国家主要吃蒜头(garlic)和橄榄油(olive oil),中部的欧洲国家(尤其是法国)消费大量的酸奶酪(yogurt)。
第三分类
主成分图(t1 vs. t3)和荷载图(p1 vs. p3)。
第三分类解释数据中13.8%的变化,并且主要体现英国和爱尔兰两国茶叶(tea)、果酱(jam)、罐头汤(canned soup)的高消费情况。
小结
总而言之,一个拥有三个主要的潜在变量数据的三分类模型描述了所要调查的欧洲国家之前主要的食品消费的差异。
这个例子展示了通过一个简单的PC模型拟合可以得到了原始数据表的一个概要信息。
使用者应该使用自己的数据信息进行更多的尝试。
LKAB车间矿物分类
介绍
下面的例子来源于瑞典的一个矿物分类车间。
是由LKAB公司调研工程师Kent Tano负责这项调查。
在这个过程中,原铁矿将通过多项研磨措施分为优质材料(<100mm,50%Fe)。
研磨结束后,这些材料将通过磁性分离器经多个步骤进行分类并集中。
分离流程被分为多条平行的流水线,并且这里还有着反馈系统,以获得高含量铁。
被集中的材料将被分为两个部分,一个部分(PAR)用于送往进行浮动处理,另一个部分(FAR,优质)以铁矿石形式进行出售。
所有的这些产品均需要含有很高的铁含量。
十二项工序因素被指定。
这些因素里,有三个重要因素被用于建立统计学设计(RSM)。
每个实验的结果均由6个反应变量进行衡量,每个设计点均收集了许多观测值。
这个工序配备了一个带有SuperView 900 数据处理系统的ABB Master系统。
从ABB系统中将数据先转移至个人电脑中,并使用SIMCA-P软件进行模型数据处理。
建立的模型再转移回SuperView系统中并对工序进行在线监测(预测值、主成分和荷载图)。
这项调查开展于1992年。
该工序的多变量在线控制方法至今仍在使用,并能取得十分好的产品质量结果。
数据描述
以下是变量和观测值的描述。
变量
18个变量的信息均被收集。
工序变量(X)
因变量(Y)
观测值
一个包含231个观测值的小集合用于模型的建立。
每一个观测值均有一个和数据采集时间相关的名称。
数据表
收集的数据见表1(略)。
这项研究的目的是为了调查工序变量与描述最终产品质量的6个输出变量之间
的联系。
离线分析
因变量概述
一个因变量PC模型的建立是为了了解:
·因变量之间及因变量与观测值之间存在何种联系。
·观测值之间的相似处和不同处及是否有异常值。
·变量的阐述能力。
工序条件与因变量之间的联系
·了解并阐述工序变量与因变量之间的联系。
·预测新的工序条件的输出值。
SIMCA-P操作步骤
·工程定义:录入最初的数据集
·数据准备(工作集菜单)。
指定哪些变量是是X变量(自变量)和哪些变量是Y变量(因变量)。
扩展X变量范围(通过对三个设计变量进行平方和“cross terms”运算)。
·模型拟合,首先进行PC-Y模型拟合,再进行PLS模型拟合,并对拟合过程进行复核(分析菜单)。
·精化模型(通过移除异常值)(工作集菜单)。
·使用PLS模型进行预测(预测菜单)。
工程建立
启动SIMCA-P软件,并通过点击“FILE/NEW”录入数据。
找到数据集(SOVR.XLS)
如果你有SIMCA-P+软件,选择“radio button”去建立一个正态SIMCA-P工程并
点击“Next”。
点击“commands”键,建立变量索引来产生变量数字,并将他们用第二ID进行标记。
对柱形数据(变量)PAR进行标记,直至最后一个数据,使用箭头指示变量中的一个,然后从下拉菜单中将它们选择作为Y变量。
这个选择作为系统默认的工作集。
点击“Next”。