statistica 全套教程包括数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BASIC STATISTICS AND TABLES ............................................ 错误!未定义书签。
Basic Statistics and Tables--Descriptive Statistics......................... 错误!未定义书签。
Basic Statistics and Tables--Correlation Matrices............................. 错误!未定义书签。
Basic Statistics and Tables--t-Test, Independent, by Groups......... 错误!未定义书签。
Basic Statistics and Tables--t-Test for Independent Samples, by Variables . 错误!未定义书签。
Basic Statistics and Tables--t-Test, Dependent samples................... 错误!未定义书签。
Basic Statistics and Tables--t-Test, Single Sample........................... 错误!未定义书签。
Basic Statistics and Tables--Frequency Tables..................................... 错误!未定义书签。
Basic Statistics and Tables--Breakdown and One-Way ANOVA............... 错误!未定义书签。
Basic Statistics and Tables--Crosstabulation Tables......................... 错误!未定义书签。
Basic Statistics and Tables--Stub and Banner Tables......................... 错误!未定义书签。
MULTIPLE REGRESSION........................................................... 错误!未定义书签。
Standard Multiple Regression ...................................................................... 错误!未定义书签。
Stepwise Multiple Regression ...................................................................... 错误!未定义书签。
ANOVA.................................................................................... 错误!未定义书签。
Main Effects ANOVA .......................................................................................... 错误!未定义书签。
Factorial ANOVA ................................................................................................ 错误!未定义书签。
Repeated Measures ANOVA ................................................................................ 错误!未定义书签。
NONPARAMETRICS.................................................................... 错误!未定义书签。
(1)Observed vs. Expected Chi-Square (34)
(2)Correlations (Spearman, Kendall Tau, Gamma)............................... 错误!未定义书签。
(3)Comparing Two Independent Samples (Groups)................................. 错误!未定义书签。
(4)Comparing Multiple Indep. Samples (Groups) (39)
(5)Comparing Two Dependent Samples (Variables)............................... 错误!未定义书签。
(6)Comparing Multiple Dep. Samples (Variables) (42)
DISTRIBUTION FITTING......................................................... 错误!未定义书签。
ADVANCED LINEAR AND NONLINEAR MODELS............................ 错误!未定义书签。
1.General Linear Models (47)
2.Generalized Linear and Nonlinear Models (56)
3.General Regression Models (61)
4.General Partial Least Squares Models (67)
6.Survival Analysis (73)
7.Nonlinear Estimation (87)
8.Log-Linear Analysis of Frequency Tables (95)
9.Time Series and Forecasting (98)
10.Structural Equation Modeling (138)
MULTIVARIATE EXPLORATORY TECHNIQUES.............................. 错误!未定义书签。
1.Cluster Analysis (142)
2.Factor Analysis (151)
3.Principal Components and Classification Analysis (155)
4.Canonical Correlation— (160)
5.Reliability and Item Analysis (162)
5.1、Reliability and Item Analysis........................................................... 错误!未定义书签。
6.Classification Trees (164)
7.Correspondence Analysis (170)
8.Multidimensional Scaling (175)
9.Discriminant Analysis (178)
10.General Discriminant Analysis (183)
INDUSTRIAL STATISTICS AND SIX SIGMA.............................. 错误!未定义书签。
1.Quality Control Charts (191)
DATA MINING......................................................................... 错误!未定义书签。
1.Neural Networks (195)
2.Independent Component Analysis (221)
3.Generalized Cluster Analysis (224)
4. General Classification And Regression Tree Models (230)
5.General CHAID Models (243)
6.Advanced C and RT, CHAID (using Interactive Trees) (261)
7.Boosted Trees (281)
8. Generalized Additive Models (286)
9. MARSplines (291)
10. Machine Learning (293)
11.Rapid Deployment (299)
12.Goodness Of Fit (301)
Basic Statistics and Tables
在许多研究问题中,收集之资料大部份皆杂乱无章,而且当数据笔数过多时无法直接从观察所有数据去了解数据的情形,因此为了使收集的数据能清楚,知道数据的特质及所代表的意义,可以透过简单地整理让数据以表格或者图形或者量数的方式出现,则这就是叙述统计,即对资料本身作简单地说明、分析与解释。
在Statistica软件中,大致上是由10个不同的节点对资料作叙述统计分析。
Basic Statistics and Tables--Descriptive Statistics
此节点主要是对数据有基本认识,诸如对连续型变量可以做平均数、中位数、标准差等等,亦可对间断型变量或是连续型变量做次数分配表与直方图。
在此一提,Statistica也可对连续型变量做次数分配表或直方图,使用者可依造自己偏好选择分类的方法,前提是需先把连续型变量分段成数个区段,而Statistica内建的设定是把连续型变量约分成10份区块,使用者也可自己设定。
间断变量若是以编码表示,Statistica可以选择要以代码或是间断符号表示在图表上。
另外,Statistica还提供峯度、偏度、众数等;此外,若还需要更详细的信息,也可用此节点对变量求出常态机率图、做K-S检定、做常态性检定等,对数据有概略性认识。
【范例说明】从Statistica内建的例子选取”Employees.sta”,总共有11个变量,其中3个为间断型变量,分别是GENDER、DEPART、EDUC,其余皆为连续型变量。
主要是对此笔数据有一个概略性的了解,因此我们对此数据做次数分配表与直方图。
在此我们也会对连续型变量做直方图,由Statistica内建的指令来区分变量。
【范例结果】
a.对连续型变量做叙述性统计分析,其中包括次数、平均数、中位数、众数、标准差等等。
b.接下来对连续型变量”AGE”做分隔,约略分成9部分,以次数分配表形式表现出来,
并以此为依据做一直方图。
不管是从次数分配表,或是直方图都可以看出最多人的年龄层是25-30岁,人数以此往两端下降,可以由图上明显发现此变量服从常态性假设。
c.最后我们对间断型变量”DEPART”做次数分配表,搭配直方图表示。
从次数分配表或是从图上可以发现Bake与Package在此笔数据中所占的比例相当,而Ship的人数略少。
Basic Statistics and Tables--Correlation Matrices
在分析数据前,分析者急欲探索变量间的相关性,藉由变量间的关系可以推论出许多意想不到的论述。
很多统计分析的目的就是想了解变量间的关系,因此使用者可以藉由此节点约略了解变量间的相关性,Statistica主要是用矩阵的形式所表现出来,也可搭配散布图或是对变量做回归估计式。
此节点只有在变量均为连续型的情况下才可使用,若想知道间断型变量间的关系,就须另谋他法。
【范例说明】依旧采用”Employees.sta”的例子来说明,此时我们欲知道连续型变量之间的关系,因此使用Correlation Matrices这个节点。
【范例结果】
Statistica会把有显着相关的变量以红字显示出来,因此我们从表中可以发现AGE与SENIOR、SALARY有正相关,与INI_PROF有负相关,其中SENIOR与SALARY的相关程度高达95%。
在相关矩阵中,其左上右下的对角数值必为1,因为这是代表自己与自己的相关程度。
Basic Statistics and Tables--t-Test, Independent, by Groups
此节点是比较在同笔数据中,利用数据中的间断型变量把数据区分为两部分,对这两部分做一致性检定,比较此两部分是否有差异。
此外,在Statistica还可对数据提供变异数一致性检定、盒须图与常态机率图等。
【范例说明】在”Employees.sta”的例子中,若欲比较男女之间的薪资是否有差异。
首先利用GENDER把男与女的数据区分开,再使用t-Test, Independent, by Groups对此两群体做分析。
【范例结果】
a.Statistica会自动的依照GENDER把数据区分成男与女,Group1是代表女性,Group2
是代表男性。
接着对此两群体各个连续型变量做比较。
Statistica会把有显着差异的变量用红字表示,从表中可以发现男与女的差异只有发生在HEIGHT这部分(其P值小于0.05),对于其它变量则无显着性差异。
b.为了清楚显示出HEIGHT所造成的差异,因此画出HEIGHT的盒须图,可以更清楚的显示
出此两群体的相异性。
(此只列出有差异性的变量图表)
从盒须图发现男性与女性的身高差距非常明显,由图中可以知道男性身高高于女性身高,女性身高大致上分部于60英吋到69英吋,大多数人集中在63到65英吋。
而男性身高分布于63-73英吋,大部分人集中在67-69英吋。
c.做此检定之前,必须确定数据服从常态分配。
使用此方法之前,必须确定数据服从常态分配。
从上图来看,不管是男性或是女性,其身高皆服从常态假设,表示使用此分析方法所得出的结果是可信的。
Basic Statistics and Tables--t-Test for Independent Samples, by Variables
此节点与上述节点差异最大的地方在于此节点是比较两变量间的差异。
把不同变量视为不同群体,并且比较两变量间数据的相异性,前提为此变量需为连续型变量。
此法提供变异数一致型检定,Statistica内设是Levene的变异数一致性的检定方法,另外还有盒须图与常态机率图提供给使用者参考。
【范例说明】由”Employees.sta”的例子中,我们可以发现INI_PROF与CUR_PROF同构型较高,因此我们比较此两变量下的数据是否有差异。
使用此节点分析在此两个变量之下,数据是否有差异。
【范例结果】
从表中可以发现在平均数这部分的P值小于0.05,表示在INI_PROF与CUR_PROF的资料有显着差异。
在标准差的比较上,可以发现并没有太大的不同,之后再用Levene做一次标准差的比较,也是得到相同的结果。
我们可以解释说在INI_PROF与CUR_PROF确实会造成平均数的差异,但就两者的分散情况而言,并没有太大差别。
从图形上来看,也可以明显看出平均数的差异确实很大,但是从数据分布的程度来看,却差异不大。
Basic Statistics and Tables--t-Test, Dependent samples
许多统计数据中,数据间彼此是有相依性的,举个例子来说,在实验室做实验时,固定某种状态下,分别对两种物质(A,B)的反应做纪录,这时可以称此数据为两相依母体,因为在情况1之下,所抽取的A物质,必须与情况1之下的B物质做比较。
若对分属不同情况下的物质来做比较,则失去此实验的意义。
因此,此节点主要是透过成对抽样的方法比较两相依母体是否有差异。
【范例说明】选取Statistica内建的例子”Characteristics”,此例子主要说明不同个体对于比赛项目的得分是否会造成差异。
我们欲比较每个人对Wellness1与Wellness2所得分数是否有差异。
【范例结果】
a.分别比较Wellness1与Wellness2的平均数与变异数是否有所差异。
由上表可知,每个个体对于Wellness1与Wellness2的得分有显着差距,表示每个个体在于Wellness1与Wellness2的得分上并无前后的相关性。
b.对这两个变数画盒须图。
由盒须图可以发现Wellness1与Wellness2在平均数有些微差距,而Wellness1的散布程度又比Wellness2大。
Basic Statistics and Tables--t-Test, Single Sample
前面叙述的方法都是在比较两个不同的群提间的差异,在此提供一个对单一母体做检定的方法,此节点主要是对一个群体做推论的检定方法,可以比较所搜集到的数据与本身主观意识的认知上是否有差异。
Statistica在此还提供盒须图、直方图或是常态机率图等,有助使用者对数据有概念性了解。
【范例说明】采用Statistica内建的”Income.sta”的例子,此数据有3个变量,其中COUNTY为间断型变量,ASSET与INCOME为连续型变量。
在此节点中,我们想要把ASSET与INCOME分别拿来与常数3比较。
【范例结果】
a.若实验者依照自己的主观概念猜测ASSET与INCOME约等于3左右,把此数值与所搜集
到资料做比较。
由上表可以发现ASSET与我们所猜测的常数3相差不远,但是对于INCOME来说,此数值就稍小了点。
由此可推论,ASSET大约在3左右,但是INCOME普遍来说高于3。
b.对两变量做常态性检定。
(在此只附上对ASSET的常态性检定)
由图可知,ASSET大致上来说服从常态性假设。
但为了保险起见,我们还是对ASSET做常态机率图(下图)证。
c.验证是否符合常态分配。
Basic Statistics and Tables--Frequency Tables
图表比起文字更能加深阅读者的印象,因此统计上常常使用图表来辅助使用者对数据的了解。
此节主要是用来对变量做次数分配表与直方图,做法与之前雷同,若是间断型变量则可以选择是否使用编码代替类别符号,若是连续型变量则须加以分段,再用次数分配表与直方图表示。
而Statistica对于间断型变量内建的设定是以类别符号来替代编码,使用者可依照自己需要加以调整。
【范例说明】在此使用Statistica中内建的”Fastfood.sta”来当此节点的例子。
此笔数据中接式间断型变量,我们欲利用次数分配表来对这些间断型变量做一个概括性了解。
其中我们针对消费者购买Food1时,会搭配何种食物。
【范例结果】
从表中可以发现消费者在购买Food1时,约有34%的消费者会搭配Pizza,其次有23.5%的消费者会搭配Hamburger。
接下来我们利用直方图表示出购买Food1时,会搭配食物种类的人数。
从此图可以更容易发现购买Food1的消费者大部分会搭配Pizza与Hamburger,至于搭配其它食物的人数则不相上下,没有明显差异。
Basic Statistics and Tables--Breakdown and One-Way ANOVA
主要是利用间断型变量把数据分类分群,对各群做简单的叙述性统计,诸如平均数、标准差、相关性、百分比等,在此不限制间断型变量只有两类,此节点可以应用到有间断型变量有多个类别,并且算出各类别的变异数分析。
若读者有需要,Statistica可以提供盒须图、常态机率图,另一个特殊的地方就是可以针对各类别的平均数与标准差做效用图,以此获得更进一步的信息。
【范例说明】在此依旧采用”Employees.sta”的例子,不过此时以GENDER与EDUC为分类变数,欲探讨其对SALARY、SENIOR、INI_PROF、CUR_PROF的影响。
【范例结果】
a.先对区分后的资料做叙述性统计分析。
Statistica会先对选取的变量做叙述性统计分析,表格前两列可知GENDER有两个类别,EDUC有三个类别,所以会把数据区分成六部分。
上列表格只贴出GENDER对EDUC做SALARY 部分的叙述性统计,因为篇幅关系无法贴出对SENIOR、INI_PROF、CUR_PROF的叙述性统计。
b.再对区分后数据做变异数分析。
Statistica对有显着影响的因素会以红字表示。
由上表可知,INI_PROF与CUR_PROF对数据会造成显着差异,因为其P值小于0.05。
c.利用Levene的方法做变异数一致性分析。
另外,我们欲了解把资料分成六部分后,彼此间的变异数变化程度是否有差异,因此会对数据做Levene的变异数一致性分析。
由上表可知,在这四个变数之下,其变异数有一致性。
另外还可对GENDER与EDUC做交互作用图,交互作用图是把文字或数字转换成图表,用来帮助使用者了解变量间的关联性。
Basic Statistics and Tables--Crosstabulation Tables
此节点主要是帮助使用者了解间断型型态的数据,比较间断型变量之下每类的情况;除此之外,也可以交叉比较每个间断型变量的数据。
与上述相同,在此不限制间断型变量只有两类,因此可以进行多为列联分析,并且提供间断型变量间交叉的直方图与交互作用图,帮助使用者可以由图表快速获得相关讯息。
【范例说明】在此采用的例子为”Fastfood.sta”,为了比较此两个节点的差异,在此比较GENDER、Car_1、Food_1相互间造成的影响。
【范例结果】
a.对GENDER、Car_1、Food_1做三维的列联表。
此节点可以同时比较多个变量间的关系,并且用次数分配表表现出来。
由上表可知,我们可以同是比较性别、驾驶车种、购买食物之间的关联性。
男性最常驾驶FOR_SPRT购买Food_1时搭配Pizza,至于女性则无此种特征。
b.对此三个变量以交互作用图表示其关系。
其实还可以对此个变量做直方图或是3D立体图形,并且可以把次数转换成百分比等,还可做其它检定,这些全由使用者依照自己需求加以调整。
Basic Statistics and Tables--Stub and Banner Tables
此节点应用的方式与上述节点类似,但是此节点主要是应用在二维列联表,先固定某间断型变量在行,另一变量则固定在列,交叉比对此两间断型变量的关系,分别可以算出观察次数、期望次数、百分比等。
Statistica在此依旧提供最基本的图表,有直方图与交互作用图表,提供使用者快速浏览数据。
【范例说明】在此采用的例子为”Fastfood.sta”,为了比较此两个节点的差异,因此我们对两个例子皆是比较Car_1与Food_1的交叉关系。
【范例结果】
a.对Car_1与Food_1做次数分配表。
由上表可知,此节点主要是二维列联表,大部分的人皆是驾驶着FOR_SPRT购买Pizza 的人,与上一个节点有类似的结论。
其中差异较大的地方是,上述节点明确的叙述出男性人数多于女性人数,若单只看此表,所做的结论可能会略有偏差,有可能是因为性别的关系所以导致此结论产生。
常理来说,男女性别比率应该是1:1,但是此数据男女性别比例却与正常情况来说有极大差异,因此单看此表可能会造成严重的误导。
b.利用交互作用图表示Car_1与Food_1的关系。
从上图所得的结论与上述相差不远,不管驾驶何种车款,此八条线皆有一致的走向,表示大部分的人皆是购买Pizza最多。
Multiple Regression
Standard Multiple Regression
回归分析的主要用处是寻找两个或两个以上的变量之间的相互变化的关系。
通常影响因变量y 的自变量x 并不只一个,而有k 个,上述应变数(y )与自变量(x )也可用数学模型表示:
n i x x x y i
ik k i i i ,,2,122110 =+++++=εββββ
其中0β为截距,i β为回归系数。
【范例说明】
【范例结果】:
》可看出R2=0.4243
》上表为各独立变量的回归系数估计与T检定,此报表不但显示数据为标准化的回归系数(B),且可看出 Beta系数显示每一个独立变量对应变量作预测时相对的贡献,例如上面的报表可看出变量Pressure Vessel-Ton-Weeks*10-3对预测为重要的变量,且在统计上是显着的,而Pressure Vessel-Ton-Weeks*10-3的回归系数代表变量愈高,则应变量也愈高。
》偏相关(Partial )代表独立变量Xi对应变量y的独特贡献(以除去了其它变量后对y的解释能力);半偏相关(Semipart Cor.)的平方是该变量解释应变量总变异的比例。
注: if半偏相关很小但偏相关相对很大,则表示此独立变量对应变量仍有很高的独特影响力(也就是其它独立变量所未能解释而被此变量所解释的仍大)。
Stepwise Multiple Regression
逐步回归法多半用于选择变项(variable-selection),从许多的预测变项中,
选出少数几个具有预测力的变项。
于多元回归分析中,有forward stepwise和backward stepwise两种方法。
其中forward stepwise的特性是一次只能允许一个预测变项进入回归公式,第一个被
选入回归公式者,是预测变项与反应变项(Y)间相关最高的(如X1),第二个进入回归公式者乃是其余预测变项,各剔除了第一个预测变项(X1)的影响力之后,与反应变项的部分相关(part correlation)最高者,此种方式使得每次R 的增加量为最大,如此循环,直到R 的增加量不再达统计上的显着水平为止,则预测变项不再进入回归公式,当预变项进入公式后则留在该公式中,此即为顺向解法的回归分析。
而backward stepwise是先把全部的预测变项都丢入公式中,再来一一剔除。
【范例说明】
在North Carolina,我们将观察空中的biomass(BIO)和五种基底的矿物之间的关联。
【范例结果】
》可知放入了两个变量于模型中,R2=0.6584。
》可看出,于step1时放入了pH变数,又于step2时放入了Na变数,即停止。
》可于此表看到pH和Na的回归系数估计与T检定,皆为显着的。
》也可于此表中看到没有放入模型的三个变量的回归系数估计与T检定,皆为不显着的。
ANOVA
变异数分析(analysis of variation , ANOVA):检定母体平均数是否相等的方法,或检定因子(factor)对依变量是否有影响。
所有的母体皆服从
•常态分配
•变异数皆相等
•常态分配间皆互相独立
Main Effects ANOVA
实验设计皆为每个实验单位仅安排一种处理进行实验(如CRD),只是根据实际的限制上如加上区集(如RBD、LSD)。
●完全随机化设计法(completely randomized design, CRD) :
自母体分配抽出n个随机样本,假设该因子有k个水平,则每个样本接受每一个水平的机率必须相同。
●随机化区集设计法(randomized block design ,RBD) :
当无法达到CRD的要求时,先做成区集,然后再从区集内随机抽样并随机分派。
●拉丁方格设计法(Latin Square Design, LSD):
属于两个方向的区集设计,其设计方法如下(以3x3拉丁方格为例)
【范例说明】
有家工厂为了节省物品需要装配的时间,采取了四种方法(A、B、C、D)来实验,一开始先随机挑选了四名装配员以及四件需要装配的对象。
在这里,我们将采取拉丁方格设计法(Latin Square Design, LSD)。
【范例结果】
》从ANOVA表中,可看出Method对于Source of Variability是有显着影响的。
》从Normal Prob. Plot图中,可看出分配是符合常态的,和假设的一样。
》从以上三张表,可发现符合了”变异数一致”的假设。
Factorial ANOVA
当研究者所使用的自变项是类别变项,依变项是连续变项时,所使用的统计分析技术称为多因子变异数分析(Factorial ANOVA)。
使用于实验因子有数个时,则必须利用一次实验而同时完成数个因子本身之差异检定,并检定出因子间相互影响(交互作用)。
另外,若k 个因子皆只有两个水平(level),则称为2k factorial design。
【范例说明】
在这里,我们将探讨的是如何才能得到最高的纸张延展长度。
也就是将如何选择硬木的集中度(2%、4%、8%)、烧烤的时间(3.0hr、4.0hr)和压力(400、500、650),才能做出最好的纸张。
【范例结果】
》所有的main effects(Time,Pressure,Concentration)以及Pressure*Concentration 的交互作用项都是显着的。
》从此图可以看出,若想得到较高的长度,则应选择Hardwood Concentration 在 2的水平、
Pressure在650的水平以及Time在 4 hr的水平。
》从Normal Prob. Plot图中,可看出分配是符合常态的,和假设的一样。
Repeated Measures ANOVA
若依变量有两个或两个以上时,便要使用Repeated Measures ANOVA。
例如:学生在Time 1的考试成绩和在Time 2的考试成积。
【范例说明】
甲、乙、丙三种英文教学法(B=1表甲教学法,B=2表乙教学法,B=3表丙教学法)与性别(A=1表女生,A=2 表男生),每种教学法各有男女生10位学生参加,期末成绩(包括字汇X1、听力X2、文法X3)。
→从STATISTICA下拉菜单中选择ANOVA选项,便出现以下对话框:【范例结果】
》从上图可见,A、B的交互作用是显着的,因此不再讨论A、B的主效用。
其中,我们也发现了期末成绩和教学法以及性别的交互作用是显着的。
我们可以从下图更清楚的看到:
A1:女生 A2:男生;B1:甲教学法 B2:乙教学法 B3:丙教学法
X1:字汇 X2:听力 X3:文法
》在此图中,我们可以发现一些现象:
(1)在字汇方面,女生以甲教学法表现较差,而男生则以甲教学法较佳。
(2)在听力方面,男生以乙教学法表现出的成绩较女生稍好。
(3)在文法方面,男女生不论用何种教学法,成绩不会有太大的差异。
Nonparametrics
一般常见的统计方法仅适用于母体分配的种类已知时,而只有部分参数未知,这些统计推论方法就在研讨如何估计这些未知参数,或者这些参数得性质与范围,所以只有在一定的条件下,这些统计检定才是有效的。
然而在实际生活中,并不是很容易或可以清楚母体的分布为何,或者数据根本不是来自于一个母体,这样在假定母体分布的情况下进行推断的作法就有可能产生错误的结论,又是甚至造成灾难性的后果。
于是人们希望在母体分布不清楚的情况下,尽量从数据本身获得所需要的信息,这就是无母数统计的宗旨。
所以不以母体中任何参数为估计或检定对象的统计方法称之为无母数统计。
无母数检定的假设条件比较少,并不要求母体服从什么具体的分布,有时甚至不需要什么假定,更适合一般的情况。
无母数检定带有最弱的假设,对模型的限制很少,因而天然地具有稳健性,这也是它广泛被使用的一个理由。
(1)Observed vs. Expected Chi-Square
在有母数统计中所讨论的检定方法都是在检定母体的参数之假设,且对母体都会有些基本假设,但母体假设是否正确却不得而知,所以适合度检定方法是将样本各观察值出现次数与假设分配之理论次数做比较,看观测次数与理论次数是否一致的检定方法。
此外,此方法只针对单样本且连续型的数据检定,即只抽取一组样本作检定,以期回答下列问题:观察次数和某种原则下的期望次数是否有显着差异;观察的比例与所期望的比例是否有差异;样本取自某种类型的总体的假设是否合理等。
而此方法为是把样本分成k 个互斥的类,然后根据要检定的理论分布算出每一类的理论次数f e ,与实际的观察次数f 0进行比较,计算
2χ=e
k i e f f f ∑=-12
0)( 的值,显然f 0与f e 之间的差别应该比较小,即2χ的值比较小,因此2χ>2αχ时拒绝原假
设,不能认为服从这种分布。
此外为使检定之效率高,要求理论次数f e
5≥,若有小于5时须将数据合并,且若分组过多会造成检定失效,但分组过少会造成无法检定,这些都是在进行检定时需注意的。
【范例说明】
本例采用的数据为poverty ,该数据是美国1960年和1970年对随机选择的30个城市人口调查结果的比较。
在本例中共有七个变量,有可能与贫困相关的六个变量以及一个县在贫困线以下的家庭比例,此即为第三个变数Pt_Poor ,也是本范例所采用的变量。
此例子想知道到底一个县在贫困线以下的家庭比例是否服从常态分配。
先透过其它方法算出当数据服从常态分配时的理论次数,再与第三个变数的实际次数作检定,则操作面板如下所示:
【范例结果】
由上表可以看出,2
值为13.53654,p 值为小于0.633197比0.05大,所以不拒绝虚无假设,即在95%的信心水平下相信一个县在贫困线以下的家庭比例是服从常态分配。
(2)Correlations (Spearman, Kendall Tau, Gamma)
此节点是利用无母数的方法去计算变量间的相关系数。
当数据为顺序尺度时,无法计算Pearson 积差相关系数,则利用无母数的方计算两随机变量的样本直线相关程度。
而此节点提供了三种方法,分别为:Spearman Rank 相关系数、Gamma. Statistic 及 Kendall Tau statistic 。
其中Spearman Rank 相关系数的计算方法为将样本观测值i x 分别按其大小给予等级排序,以()i R x 表i x 之顺序值,相同地将样本观察值
i y 按其大小给予等级排序,以。