北航数理统计大作业2-聚类与判别分析讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计作业二
学号:
姓名:
电话:
二〇一四年十二月
对NBA球队的聚类分析和判别分析
摘要:NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱,联盟的30支球队大家也耳熟能详,本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。

利用spss软件通过聚类分析对27个地区进行实力类型分类,并利用判断分析对其余3支球队对分类结果进行验证。

可以看出各球队实力类型与赛季实际结果相吻合。

关键词:聚类分析,判别分析,NBA
目录
1. 引言 (4)
2、相关统计基础理论 (5)
2.1、聚类分析 (5)
2.2,判别分析 (6)
3.聚类分析 (7)
3.1数据文件 (7)
3.2聚类分析过程 (9)
3.3 聚类结果分析 (11)
4、判别分析 (12)
4.1 判别分析过程 (12)
4.2判别检验 (17)
5、结论 (20)
参考文献 (21)
致谢 (22)
1. 引言
1896年,美国第一个篮球组织"全国篮球联盟(简称NBL)"成立,但当时篮球规则还不完善,组织机构也不健全,经过几个赛季后,该组织就名存实亡了。

1946年4月6日,由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”(简称BAA)。

1949年在布朗的努力下,美国两大篮球组织BAA和NBL合并为“全国篮球协会”(简称NBA)。

NBA季前赛是 NBA各支队伍的热身赛,因为在每个赛季结束后,每支球队在阵容上都有相当大的变化,为了让各队磨合阵容,熟悉各自球队的打法,确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通,所以在每个赛季开始之前,NBA就举办若干场季前赛,使他们能以比较好的状态投入到漫长的常规赛的比赛当中。

为了扩大NBA在全球的影响,季前赛有约三分之一的球队在美国以外的国家举办。

从总体上看,NBA的赛程安排分为常规赛、季后赛和总决赛。

常规赛采用主客场制,季后赛和总决赛采用七场四胜制的淘汰制。

[31]
NBA常规赛从每年的11月的第一个星期二开罗,到次年的4月20日左右结束。

在这期间,30支球队总共要进行1189场常规赛,每支球队要打满82场比赛,主客场各占一半。

季后赛从4月下旬开始进行,直到6月中旬决出总冠军为止。

NBA分为东西两个联盟,每个联盟各有三个赛区。

在常规赛中每支球队与同一赛区的球队要打四场,与同一联盟不同赛区的球队打三到四场,与另一联盟的球队打两场。

一个赛季每支球队在自己的主场至少与其它29支球队进行一次交锋。

常规赛的赛程比较紧凑,球队在每个星期有三到四场比赛,而且每个赛季都有不同程度的“背靠背作赛”、连续客场作赛等难度赛程。

在常规赛中,有两个日子的比赛是NBA联盟经过精心安排的,那就是第一天的揭幕战和圣诞节的圣诞大战。

在这两个特殊的日子里,联盟往往会刻意安排最具人气的球星之间进
行对垒,以最大限度地吸引观众的眼球。

NBA 全明星赛是一项表演性的赛事,最初提出这个创意是的当时的NBA总部公关部负责人哈斯克·科恩的,而创意则源自于全美职业棒球联赛全明星赛,目的自然是为了进一步宣传NBA。

1951年波士顿成为了首届赛事的举办城市,当时的全明星赛只有全明星对抗赛一项活动。

第一届扣篮大赛始于1984年丹佛全明星赛。

1986年达拉斯全明星赛,三分远投大赛产生。

1994年明尼亚波利斯全明星赛,新秀挑战赛首次加入。

技巧挑战赛开始于2003年。

2004年全明星赛有了混合投篮赛。

NBA 季后赛(NBA Playoffs)在每年4月下旬开始,东西部各有八支球队获得季后赛资格。

东西两个联盟中各个赛区的冠军加上成绩最好的赛区的第二名组成前四号种子,这四支球队再按照常规赛的成绩依次排为一到四号种子。

剩余四支球队则按成绩依次排为五到八号种子。

季后赛采用七场四胜制,采用2-2-1-1-1的主场分配方法,拥有四个主场的一方将会在第一、二、五(如果需要)、七(如果需要)场比赛坐镇主场,第三、四、六(如果需要)场则是征战客场。

对阵双方的主场优势并非均衡。

季后赛包括总决赛一共有四轮,第二轮叫分区半决赛,第三轮叫分区决赛,获胜球队称为分区冠军,东西部分区冠军晋级总决赛,七局四胜者为当赛季总冠军,总冠军球队中表现最优秀的球员获得总决赛MVP荣誉。

2、相关统计基础理论
2.1、聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

聚类分析的目标就是在相似的基础上收集数据来分类。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。

传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,
直至分类较为合理。

在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means 算法。

K-Means 算法接受输入量 k ;然后将n 个数据对象划分为 k 个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。

聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K-Means 算法的工作过程说明如下:首先从n 个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

一般而言,k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

2.2,判别分析
判别分析是市场研究的重要分析技术,也是多变量分析技术。

它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot 二元判别图(概念图)。

同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。

判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。

并在低维度空间表现这种差异。

判别分析主要有距离判别、贝叶斯(Bayes )判别、费舍尔(Fisher )判别等几种常用方法。

距离判别的基本原理是:首先对样本到总体G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis )规定为:
21(x,)(x )'(x )d G u u -=-∑-
式中∑为p 元总体G 的协方差阵,x 是取自G 的样品,则该式即为样品x
到总体G 的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y 到各个总体*j G 的距离可以用欧式距离度量,即:
2
*
*
2
2j
i i j 1(y,G )||||(a 'x a 'u )m
j i d y u ==-=-∑
由此导出Fisher 判别规则为:
2*2*j j 1(y,G )min (y,G )j k
d d ≤≤=, 则l x G ∈
本文及使用Fisher 判别建立线性判别函数进行距离判别。

即对某球队的分组Fisher 函数值,哪组函数值最大,则球队归为哪一组。

3.聚类分析
本文选取了NBA 联盟30支球队2013-2014常规赛赛季场均数据来研究联盟实力分布规律,由于是对个案进行聚类,所以采用K-均值聚类,根据实际情况,先将27支球队实力类型划分为3类。

3.1数据文件
表0
变量 水平
x1 投篮
x2 三分 x3 篮板 x4 助攻 x5 抢断 x6
得分
将从(NBA 中文数据库)中收集到的数据输入到数据文件中,如下表所示。

表1
球队投篮三分篮板助攻抢断得分
亚特兰大老
45.80% 36.30% 40 24.9 8.3 101 鹰
布鲁克林篮
45.90% 36.90% 38.1 20.9 8.6 98.5 网
波士顿凯尔
43.50% 33.20% 42.5 21 7.1 96.2 特人
夏洛特山猫44.20% 35.10% 42.7 21.7 6.1 96.9
芝加哥公牛43.20% 34.80% 44.2 22.7 7.2 93.7
克里夫兰骑
43.70% 35.70% 44.1 21.2 7.1 98.2 士
达拉斯小牛47.40% 38.40% 40.9 23.6 8.6 104.8
丹佛掘金44.70% 35.80% 45.4 22.4 7.5 104.4
底特律活塞44.70% 32.10% 45.4 20.9 8.4 101
金州勇士46.20% 38.00% 45.3 23.3 7.8 104.3
休斯顿火箭47.20% 35.70% 45.3 21.4 7.6 107.7
印第安纳步
44.90% 35.70% 44.7 20.1 6.7 96.7 行者
洛杉矶快船47.40% 35.20% 43 24.6 8.6 107.9
洛杉矶湖人45.00% 38.10% 41 24.5 7.5 103
孟菲斯灰熊46.40% 35.30% 42.4 21.9 7.7 96.1
迈阿密热火50.10% 36.40% 36.9 22.5 8.9 102.2
密尔沃基雄
43.80% 35.30% 41.1 21.5 6.6 95.5 鹿
明尼苏达森
44.40% 34.10% 44.7 24 8.8 106.9 林狼
新奥尔良鹈
45.90% 37.30% 41.7 21.3 7.9 99.7 鹕
纽约尼克斯44.90% 37.20% 40.3 20 7.7 98.6
俄克拉荷马
47.10% 36.10% 44.7 21.9 8.3 106.2 雷霆
奥兰多魔术44.50% 35.30% 42 21 7.7 96.5
费城76人43.50% 31.20% 42.7 21.8 9.3 99.5
菲尼克斯太
46.30% 37.20% 43 19.1 8.4 105.2 阳
波特兰开拓
45.00% 37.20% 46.5 23.2 5.6 106.7 者
萨克拉门托44.70% 33.30% 44.5 18.9 7.2 100.5
国王
圣安东尼奥
48.60% 39.70% 43.3 25.2 7.4 105.4
马刺
多伦多猛龙44.50% 37.20% 42.5 21.2 7 101.3
犹他爵士44.40% 34.40% 41.2 20.3 7 95
华盛顿奇才45.90% 37.90% 42.2 23.3 8.1 100.7
3.2聚类分析过程
采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:
表2
初始聚类中心
聚类
1 2 3
投篮45.000% 50.100% 43.200% 三分37.200% 36.400% 34.800% 篮板47 37 44 助攻23.2 22.5 22.7 抢断 5.6 8.9 7.2 得分107 102 94
表3
迭代历史记录a
迭代聚类中心内的更改
1 2 3
1 3.521 4.233 4.414
2 .33
3 .667 .000
3 .000 .682 .382
4 .000 .000 .000
a. 由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为 .000。

当前迭代为4。

初始中心间的最小距离为 12.265。

表4
聚类成员
案例号球队聚类距离
1 亚特兰大老鹰
2 2.764
2 布鲁克林篮网 2 2.985
3 波士顿凯尔特人 3 1.953
4 夏洛特山猫 3 1.78
5 芝加哥公牛 3 4.239
6 克里夫兰骑士 3 1.955
7 达拉斯小牛 1 4.13
8 丹佛掘金 1 2.836
9 底特律活塞 3 4.877
10 金州勇士 1 2.396
11 休斯顿火箭 1 2.855
12 印第安纳步行者 3 2.522
13 洛杉矶快船 1 3.481
14 洛杉矶湖人 2 3.977
15 孟菲斯灰熊 3 2.927
16 迈阿密热火 2 5.121
17 密尔沃基雄鹿 3 3.201
18 明尼苏达森林狼 1 3.794
19 新奥尔良鹈鹕 2 2.479
20 纽约尼克斯 2 3.411
21 俄克拉荷马雷霆 1 1.515
22 奥兰多魔术 3 1.908
23 费城76人 3 4.38
24 菲尼克斯太阳 1 4.094
25 波特兰开拓者 1 3.644
26 萨克拉门托国王 3 4.198
27 圣安东尼奥马刺 1 4.499
表5
每个聚类中的案例数
聚类1 10.000
2 6.000
3 11.000
有效27.000 缺失.000
表6
最终聚类中心
聚类
1 2 3
投篮46.430% 46.267% 44.282% 三分36.740% 37.033% 34.273% 篮板44 40 43 助攻22.9 22.3 21.2 抢断7.9 8.2 7.4 得分106 101 97
表7
最终聚类中心间的距离
聚类 1 2 3
1 7.128 9.421
2 7.128 6.062
3 9.421 6.062
表8
ANOVA
聚类误差 F Sig.
均方df 均方df
投篮14.245 2 1.823 24 7.814 .002 三分21.810 2 2.162 24 10.086 .001 篮板40.757 2 2.447 24 16.658 .000 助攻8.042 2 2.418 24 3.326 .053 抢断 1.316 2 .722 24 1.823 .183 得分195.984 2 3.455 24 56.730 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

3.3 聚类结果分析
表9
聚类成员
案例号球队聚类距离
7 达拉斯小牛 1 4.13
8 丹佛掘金 1 2.836
10 金州勇士 1 2.396
11 休斯顿火箭 1 2.855
13 洛杉矶快船 1 3.481
18 明尼苏达森林狼 1 3.794
21 俄克拉荷马雷霆 1 1.515
24 菲尼克斯太阳 1 4.094
25 波特兰开拓者 1 3.644
27 圣安东尼奥马刺 1 4.499
1 亚特兰大老鹰
2 2.764
2 布鲁克林篮网 2 2.985
14 洛杉矶湖人 2 3.977
16 迈阿密热火 2 5.121
19 新奥尔良鹈鹕 2 2.479
20 纽约尼克斯 2 3.411
3 波士顿凯尔特人 3 1.953
4 夏洛特山猫 3 1.78
5 芝加哥公牛 3 4.239
6 克里夫兰骑士 3 1.955
9 底特律活塞 3 4.877
12 印第安纳步行者 3 2.522
15 孟菲斯灰熊 3 2.927
17 密尔沃基雄鹿 3 3.201
22 奥兰多魔术 3 1.908
23 费城76人 3 4.38
26 萨克拉门托国王 3 4.198
案例号27圣安东尼奥马刺队分在了第一类,实际上13-14赛季马刺队获得了NBA总冠军,案例号21俄克拉荷马雷霆也分在了第一类,该队球员凯文·杜兰特荣获14年MVP。

4、判别分析
4.1 判别分析过程
一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependent variable):分组变量——定性数据(个体、产品/品牌、特征,定类变量)。

自变量(independent variable):判别变量——定量数据(属性的评价得分,数量型变量)。

a、打开“Analyze”主菜单中的“Classify”,选择“Discriminant Analysis”选项,进入主对话框。

b、在“Grouping V ariable”中输入变量名“类别”。

变量名后的小括号内输入1和3作为分组标量取值的上下界。

c、在“Independents”中输入工业、建筑业、运输业、批发零售业、住宿餐饮业、金融业、
房地产业、其他服务业。

d、选择“Enter independens together”方法进行分析。

e、“Statistics”按钮中选择选择所有的复选框。

f、“Classify” 按钮中选择所有的复选框。

各项确认后,点击运行。

(1)统计量
表10
组统计量
案例的类别号均值标准差有效的 N(列表状态)
未加权的已加权的
1 投篮46.43000 1.368738 10 10.000 三分36.74000 1.674780 10 10.000 篮板44.21000 1.640765 10 10.000 助攻22.87000 1.765754 10 10.000 抢断7.86000 .941866 10 10.000 得分105.95000 1.320984 10 10.000
2 投篮46.26667 1.93149
3 6 6.000 三分37.03333 .662319 6 6.000 篮板39.66667 1.81842
4 6 6.000 助攻22.35000 1.993740 6 6.000 抢断8.15000 .543139 6 6.000 得分100.50000 1.878297 6 6.000
3 投篮44.28182 .90754
4 11 11.000 三分34.27273 1.564027 11 11.000 篮板43.30000 1.340149 11 11.000 助攻21.1545
5 1.004354 11 11.000 抢断7.37273 .886669 11 11.000 得分97.34545 2.226371 11 11.000
合计投篮45.51852 1.666880 27 27.000 三分35.80000 1.916728 27 27.000 篮板42.82963 2.322435 27 27.000 助攻22.05556 1.688270 27 27.000 抢断7.72593 .876002 27 27.000 得分101.23333 4.273712 27 27.000
表11
组均值的均等性的检验
Wilks 的 Lambda F df1 df2 Sig.
投篮.606 7.814 2 24 .002
三分.543 10.086 2 24 .001 篮板.419 16.658 2 24 .000 助攻.783 3.326 2 24 .053 抢断.868 1.823 2 24 .183 得分.175 56.730 2 24 .000
(2)协方差矩阵的均等性的箱式检验
表12
对数行列式
案例的类别号秩对数行列式
1 6 .407
2 .a.b
3 6 -.213
汇聚的组内 6 2.288
打印的行列式的秩和自然对数是组协方差矩
阵的秩和自然对数。

a. 秩 < 6
b. 案例太少无法形成非奇异矩阵
(3)典型判别式函数摘要
表13
特征值
函数特征值方差的 % 累积 % 正则相关性
1 11.514a87.7 87.7 .959
2 1.612a12.
3 100.0 .786
a. 分析中使用了前 2 个典型判别式函数。

该表中各项为前两个判别函数的特征值、占总方差的百分数、累加百分数和正规相关系数。

从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的87.7%,第二判别函数解释了12.3%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。

表14
Wilks 的 Lambda
函数检验Wilks 的 Lambda 卡方df Sig.
1 到
2 .031 74.968 12 .000
2 .38
3 20.642 5 .001
该表中各项为Wilk值、卡方值、自由度和显著性概率。

当显著性概率小于0.05时,拒绝原假设,认为组间均值不相等。

表中卡方值对应的p<0.001,表示整个判别模型有意义。

表15
非标准化典型判别方程为:
6
5432126543211073.0035.0.0640718.0215.0342.0382.32654.0614.0.0240-046.0838.0326.0630.83X X X X X X Z X X X X X X Z --+--+-=++-+--=表16
组质心处的函数
案例的类别号
函数
1
2
1 3.575 .804
2 .709 -2.224 3
-3.637
.482
在组均值处评估的非标准化典型判别式函数
(4)分类统计量
图1
标准化的典型判别式函数系数
函数
1
2 投篮 -.440 .461 三分 1.232 -.316 篮板 -.072 1.124 助攻 -.038 .100 抢断 .522 -.029 得分
1.216
-.136
典型判别式函数系数
函数 1
2 投篮 -.326 .342 三分 .838 -.215 篮板 -.046 .718 助攻 -.024 .064 抢断 .614 -.035 得分 .654 -.07
3 (常量)
-83.630
-32.382
非标准化系数
从图中可以看到三个组中心也就是实力水平,以及围绕着组中心的样本,但是不太集中,这是因为篮球比赛具有很大的偶然性,明星球员的伤痛不能出场对球队的实力有很大的影响,但是总体来说大部分球队聚类还是可以的,说明直观上分组判别式可以接受。

表17
分类结果a,c
案例的类别号预测组成员合计
1 2 3
初始计数
1 10 0 0 10
2 0 6 0 6
3 0 0 11 11 %
1 100.0 .0 .0 100.0
2 .0 100.0 .0 100.0
3 .0 .0 100.0 100.0
交叉验证b计数1 10 0 0 10
2 1 5 0 6
3 0 0 11 11
% 1 100.0 .0 .0 100.0
2 16.7 83.
3 .0 100.0
3 .0 .0 100.0 100.0
a. 已对初始分组案例中的 100.0% 个进行了正确分类。

b. 仅对分析中的案例进行交叉验证。

在交叉验证中,每个案例都是按照从该案例以外的
所有其他案例派生的函数来分类的。

c. 已对交叉验证分组案例中的 96.3% 个进行了正确分类。

表18
组的先验概率
案例的类别号先验用于分析的案例
未加权的已加权的
1 .333 10 10.000
2 .33
3 6 6.000
3 .333 11 11.000 合计 1.000 27 27.000
表19
分类函数系数
案例的类别号
1 2 3
投篮 2.291 2.189 4.528 三分74.124 72.373 68.152 篮板33.537 31.494 33.638 助攻 2.260 2.135 2.415 抢断77.097 75.441 72.677 得分44.144 42.490 39.449 (常量) -4824.597 -4482.888 -4211.053 Fisher 的线性判别式函数
Fisher线性判别函数,我们主要用来构建判别方程,理论上说:如果我们知道某支球队6项水平值,我们就可以估计出该球队应该是哪种类型的。

4.2判别检验
判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后三个个体就可作为检验样本,也成待判样本。

由结果得到Fisher 的线性判别式函数为
⎪⎩⎪
⎨⎧++++++-=++++++-=++++++-=6543213
65432126543211449.39677.72415.2638.33152.68528.4035.4211490.42441.75135.2494.31373.72189.2888.4482144.44097.77260.2537.33124.74291.2597.4824X
X X X X X Y X X X X X X Y X X X X X X Y 判别规则:
2*2*j j 1(y,G )min (y,G )j k
d d ≤≤=, 则l x G ∈
判别结果:
球队 Y1 Y2 Y3 多伦多猛龙 1688.697323 1807.133204 1761.089861 犹他爵士 1362.88026 1448.510528 1510.47382 华盛顿奇才
1742.253465
1858.89906
1814.153518
可以看到多伦多猛龙、华盛顿奇才的Y2 Fisher 函数值最大,故判别他们在第二组,犹他爵士队的Y3 Fisher 函数值最大,故判别他在第三组。

聚类成员
案例号 球队
聚类 距离 1 亚特兰大老鹰 2 2.786 2 布鲁克林篮网 2 3.463 3 波士顿凯尔特人 3
1.777 4 夏洛特山猫 3 1.685 5 芝加哥公牛 3 4.141 6 克里夫兰骑士 3
2.117 7 达拉斯小牛 1 4.13 8 丹佛掘金 1 2.836 9 底特律活塞 3 5.107 10 金州勇士 1 2.396 11 休斯顿火箭 1 2.855 12 印第安纳步行者 3
2.537 13 洛杉矶快船 1
3.481 14 洛杉矶湖人 2 3.597 15 孟菲斯灰熊 3 2.811 16 迈阿密热火 2 5.703 17 密尔沃基雄鹿 3 2.97 18 明尼苏达森林狼 1
3.794 19 新奥尔良鹈鹕 2 1.95 20 纽约尼克斯 2 3.288 21 俄克拉荷马雷霆 1
1.515 22
奥兰多魔术
3
1.703
23 费城76人 3 4.493
24 菲尼克斯太阳 1 4.094
25 波特兰开拓者 1 3.644
26 萨克拉门托国王 3 4.363
27 圣安东尼奥马刺 1 4.499
28 多伦多猛龙 2 3.106
29 犹他爵士 3 3.014
30 华盛顿奇才 2 2.234
这与将30支球队一起进行分类所得结果一致。

故判别验证成功。

5、结论
从本文所建立的模型对NBA联盟27支球队2013-2014常规赛赛季实力进行了聚类分析,并运用判别分析对其余3支球队进行了验证分析,验证模型的有效性。

从相关结果及分析可以得到一些直观的结论。

2013-2014赛季常规赛实际排名是(1)圣安东尼奥马刺(2)俄克拉荷马雷霆(3)洛杉矶快船等,都是分类1组,证明本次分析还是非常可观的,结果和现实很一致。

参考文献
[1]孙海燕、周梦、李卫国、冯伟.《应用数理统计》.北京: 北京航空航天大学出版社, 2014
[2]银海洁、刘耳.《社会统计软件SPSS 15.0for windows简明教程》.北京:社会科学文献出版社, 2008
[3]张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出版社,2002.
致谢
本论文是在我的数理统计任课教师冯老师的指导下完成的,从论文的选题到研究方向的把握,无不凝聚着老师辛勤的付出和汗水。

冯老师学识渊博,才思敏捷,严谨的教学态度,风趣的教学方法,无不让我等钦佩。

在此,首先向冯老师表示衷心的感谢。

相关文档
最新文档