第三讲 集群或聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多變量分析
林震岩 著
ISBN 957-729-569-X
最小變異數和法(華得法)
其基本思想是同一群內觀察值的變異數和應該較小, 不同群之間觀察值的變異數和應該較大。 要求觀察值之間的距離必須採用歐氏距離。 最小變異數和法和平均連結法一樣,是分群效果較 好,在社會科學領域應用較廣泛的集群方法。
D pq n p x p x
2
nq x p x
2
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
表10-1 各方法之塊頭集群結果
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
非層次集群法
層次集群法在集群過程中需要儲存距離矩陣,並且在每一 步的併群過程中都需要作很多計算。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
二、集群分析的主要步驟(1/2)
集群分析至少都應該包括以下四個步驟: 第一步:根據研究的目的選擇合適的分群變數 第二步:計算相似性衡量 第三步:選定集群方法進行集群 第四步:對結果進行解釋和驗證
分群變數應該具有以下特點: 1. 和集群分析的目標密切相關 2. 反映了要分群對象的特徵 3. 在不同研究對象上的數值具有明顯差異 4. 變數之間不應該有高度相關
非層次集群法克服了層次集群法的這兩個缺點,適用於大 樣本的集群分析,分為以下四步驟:
1. 指定要形成的集群數。
2. 調整分群:計算每個觀察值到各群重心的距離,把每個觀察 值歸入距重心最近的那一群。
3. 重新計算每一群的重心。
4. 重複步驟(2)~(3),直到沒有觀察值可以再調整為止。
不同的初始分群用於同一資料往往也會得出不同的結果。 通常將每一群的重心作為初始集群中心。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
集群分析的主要步驟(2/2)
選擇分群變數時要注意克服「加入盡可能多的變 數」這種錯誤觀念。 此外所選擇的變數之間不應該高度相關。 選定了分群變數,下一步就是計算研究對象間的 相似性。相似性反映了研究對象間的親疏程度。 計算出相似性矩陣之後,下一步就是要對研究對 象進行分群。這時主要涉及到兩個問題:一是選 定集群方法;二是確定形成的分群數。 得到集群結果後,最後一步還應對結果進行驗證 和解釋。
D pq D( x p , x q ) x p x q
2
與重心法相似的方法為中位數法。 中位數法把兩群之間的距離定義為兩群中位數之間的 距離。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
圖10-5 以身高與體重進行 重心法集群所得到的樹狀圖
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
第十章 集群分析
第一節 集群分析原理
第二節 SPSS的分層集群分析法
第三節 SPSS的K-Means集群分析法 第四節 SPSS的TwoStep集群分析法
第五節 集群分析範例
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
集群分析原理
集群分析(Cluster Analysis)是將資料檔中的觀測值或變數 加以歸類在各個集群內,也就是把沒有分群的個體按相似 程度歸於同一群。集群分析可以作資料簡化。 集群分析分群的方法有兩大形式,分層法(Hierarchical) 與非分層法(Non-hierarchical),結合兩種方法的集群分 析則稱為兩階段法(Two Step)。 分層法以個體間某項量測的距離或相似性將個體連結,但 是事前並不知道分群的個數,通常可表示成樹型圖。
認識SPSS的各種因素分析應用實例。
瞭解集群程序的集群結果如何進行各種後續分析。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
第一節 集群分析原理
一、集群分析的基本概念
二、集群分析的主要步驟
三、相似衡量 四、集群方法
五、集群結果的解釋和驗證
六、SPSS的Cluster分析程序
(Euclidean distance) 2 Distance(X, Y) X i Yi
i
5. 柴比雪夫(Chebychev)距離
Distance(X, Y) MAXi X i Yi
2. 歐基里得直線距離平方
(Squared Euclidean distance)
Distance(X Y) X i Yi ,
D pq
d
i p jq
ij
ห้องสมุดไป่ตู้
n
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
重心法(Centroid Clustering)與 中位數法(Median Clustering)
每一群的重心是該群中所有觀察值在各個變數上的均 值所代表的點。 每合併一次群,都需要重新計算新群的重心。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
分群數的確定
根據樹狀結構圖來分群的準則如下: 準則1:任何群都必須在鄰近各群中是突出的,即各群的重 心間距離必須很大。 準則2:各群所包含的觀察值數都不要過多,以便各群內的 相似性提高。
準則3:分群的數目應該符合使用的目的。
準則4:若採用數種不同的集群方法,則在各自的集群圖上 應發現相同的群。 集群分析時最好不要有某個群的觀察值很多,或某個群的觀察 值特別少的現象。 集群數最好在二至四群間,因為當超過五群時,就很難對每個 集群加以解釋其特徵與命名了。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
分解法和聚集法的過程相反,每一步增加一群,直到每個 觀察值都自成一群為止。
目前SPSS採用凝聚法,故層次聚集法是集群分析中應用最 廣泛的集群方法。 層次集群法的集群過程可以用一個樹狀圖(Dendogram)表 示出來。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
一、集群分析的基本概念
集群分析使在同一集群內的事物具有高度的同質性 (homogeneity),而不同集群的事物具有高度的異質 性(heterogeneity)。 亦即將樣本分成幾群互相沒有交集的群組。 因 素 分 析 是 將 同 質 性 高 的 變 數 ( variables ) 集 成 一 群;而集群分析則是將變數相似性高的觀察值 (cases)集成一群。 集群分析的大部分應用都屬於探索性研究,最終結果 是產生研究對象的分群。
智勝文化事業有限公司製作
Distance(X多變量分析i , Y) X i Y
i
2
林震岩 著
ISBN 957-729-569-X
三、相似衡量(Measure)
很多種相似的衡量方法,都從不同的角度衡量了研究對象的相似 性,其主要分為以下二類:1.距離衡量;2.關聯衡量。 距離衡量-計量資料: 1. 歐基里得直線距離
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
兩階段集群法
現在的趨勢是把兩種方法結合起來使用,取長補短。 首先使用層次集群法確定分群數,檢查是否有偏離 值,去除偏離值後,對剩下的觀察值重新進行分群, 用層次集群法得到的各個類的重心,作為非層次集群 法的初始分群中心。 除了層次集群法與分層次集群法外,兩階段法也相當 常見,結合分層法與非分層法二種方式。
3. 二進位資料(Binary):
Case1 Case2
有 a
沒有 b

沒有
c
d
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
四、集群方法:層次集群法
層次集群法又可分為兩種層次集群法:凝聚法 (Agglomerative Method,或稱聚集法)和分離法 (Divisive Method,或稱分解法)。 凝聚法首先是把每個觀察值各自看成一群,先把距離最近 的兩群合併。直到合併成一大群為止。
p p Distance(X, Y) X i Yi i
1
4. Pearson相關:
Similarity( X , Y ) ( Z Xi Z Yi ) N 1
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
關聯衡量-計質資料
1. 卡方值測距(Chi-square measure):
i 2
6. 區塊(block)距離:
Distance(X, Y) X i Yi
i
7. 明可夫斯基(Minkowski)距離 8. 自訂式(Customized)距離
p r Distance(X, Y) X i Yi i
1
3. 餘弦(Cosine):
Similarity( x, y ) X i Yi X i2 Yi 2
學習目標
認識集群分析的基本概念與目的。 瞭解集群分析的演算步驟。 探討相似性的衡量方法與公式。 理解層次集群法中的群與群間距離計算的各種方法。 認識集群結果的解釋、命名、驗證和後續分析。
認識SPSS的層次集群法程序、介面操作與結果分析。
認識SPSS的K-Means集群法程序、介面操作與結果分析。 認識SPSS的TwoStep集群法程序、介面操作與結果分析。
最 遠 距 離 法 (Furthest Neighbor) 或 稱 完 全 連 結 法 (Complete Linkage):和最短距離法相反。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
平均連結法(Average Linkage)
把兩群間的距離定義為兩群中所有觀察值之間距離的 平均值,不再依賴於特殊點之間的距離。 平均連結法為集群效果較好、應用較廣泛的一種集群 方法。
Dis tan ce( X , Y ) ( X i E ( X i )) 2 (Yi E (Yi )) 2 E( X i ) E (Yi )
2. Phi平方值測距(Phi-square measure):
Dis tan ce( X , Y ) ( X i E ( X i )) 2 (Yi E (Yi )) 2 E( X i ) E (Yi ) N
集群方法的選擇
以下四個因素會大大影響集群方法的使用效果: 1. 群的結構(主要指群的形狀、規模和個數)。 2. 偏離值(Outliers,或稱異常點)的存在。 3. 群與群之間重疊的程度。
4. 相似衡量的選擇。
為了減輕偏離值的影響,研究者可能要反覆進行幾次 的集群分析。
與層次集群法相比,非層次集群法受偏離值、相似衡 量和不合適的分群變數的影響較小;其缺點是集群結 果對初始分群非常敏感。
圖10-2 群與群距離計算方法 比較的示意圖
智勝文化事業有限公司製作
D pq
x1G p , x j Gq
d ij min 多變量分析
林震岩 著
ISBN 957-729-569-X
圖10-3 以身高與體重進行 最短距離法集群所得到的樹狀圖
最短距離法(Nearest Neighbor)或稱單一連結法(Single Linkage):
D pq
x1G p , x j Gq
min
d ij
最短距離法主要的缺點為「鏈接聚合」缺陷,容易形成一個比較大的組。
大部分的觀察值皆被聚集在同一組,故最短距離法在研究上很少被使用。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
圖10-4 以身高與體重進行 最遠距離法集群所得到的樹狀圖
非分層法則是於事前依據其他研究或主觀認定,決定要將 群體分成幾群,其中以K平均值法(K-Means)為代表。
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
圖10-1 SPSS的Cluster程序
智勝文化事業有限公司製作
多變量分析
林震岩 著
ISBN 957-729-569-X
相关文档
最新文档