集群分析的基本概念与集群(ppt 53页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分層集群分析
• 分析>分類>階層集群分析法
分層集群分析
• 例:研究各種飲料在市場消費的分配規律, 共抽取了6個縣市消費的5種飲料有關的指 標資料,請確定各種飲料的消費類型。
• Cluster1
Case Cluster
選擇集群方法:
群間連結(between-group linkage) 距離測量採區間(Interval)的 Squared Euclidean Distance
• 2群
• I:3 5 4
– 3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN
• II:
• 4群
3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN
• 群 II:1, 4
• 群 III:6
• 群 I:3, 5
群數凝聚過程
組合集群
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
1
3
51272.000
0
0
4
2
1
41548.000
0
0
3
3
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
4
0
0
• 還有階段2和階段3還沒有檢視。 • 階段2中,集群1放1 ,集群2放4。先出現的集群都是0,表示1和4
度的統計量,以此為依據,採用某種集群方法 (cluster method),將所有樣本(或變數)分 別集群到不同的類中
• High internal (within-cluster) homogeneity • High external (between-cluster) heterogeneity 類內同質 類間異質
• 台北捷運公司依兩個站間的距離,將淡水 捷運線七大捷運站新店、景美、公館、古 亭、火車站、北投、淡水,作分類。
• cluster3
• 老師為評比學生之學科與術科,決定以學 科與術科成績為基準,欲將學生分為高、 中、低三個等級。
• Cluster4
• 因學科與術科之成績計算方法不同,應先 將資料標準化
第二階段,合併樣本1和4,形成G2, 因為下一階段是3,所在第3階 段中,G2和1號樣本形成複集群,且「先出現的階段集群」中, 集群1=2.、、、
係數隨著集群的進行逐漸增大,開始增加得慢,後面增加快, 表示集群開始時類間的差異小,結束時類間的差異大。
• 先出現的階段集群
• 第一次出現複集群的階段 • 集群1=集群2=0,表示兩個樣本合併 • 集群1或集群2中,有一個為0,表示樣本與類的
• Cluster2
各集群組員:
無:表示不印出集群個體,為內定選項。
單一集群:印出單一集群的成員。如果 研究者想了解劃分成三個集群時,集群 內的成員為那些觀察值,可以選取此項, 並在其後的空格中輸入3.
集群個數範圍:印出某個範圍內集群的 成員。如研究者想了解分成2個、3個集 群時,各集群內的個體為何,可以選取 此項,而在不同空格內輸入2、3.
樹狀圖:3群
• 由階層集群分析結果可知,葡萄生產量可 以區分為三個集群:
• I: 2、5、11、13 ( 11、13、2、5 ) • II:1、3、4、6、7、8(1、6、3、8、7、4) • III:9、10、12、14(10、14、9、12)
樹狀圖:4群
• 那麼,該分3群?還是4群呢?
• Interpretation!
• 分析>摘要>描述性統計量
• 再進行集群分析
• 變數:標準化後之指標變數 • 統計量選擇:單一集群:3
各集群組員
觀察值
3集群
1
1
2
2
3
2
4
2
5
1
6
1
7
1
8
2
9
3
10
1
11
2
12
3
• 根據集群分析結果,可將12名學生分為三 組:
• I:2、3、4、8、11 • II:1、5、6、7、10 • III:9、12
1
3
51272.000
0
0
4
2
1
41548.000
0
0
3
3
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
4
0
0
集群共分5階段。第一階段首先合併距離最近的樣本3和5,形成 G1;下一階段(最右一欄)為4,故接續看在第4階段中,G1和 樣本3形成複集群,因此在「先出現的階段集群」中,集群為3 和1。
• 距離與相似係數計算公式的選擇,與資料特徵、測量 尺度和集群方法有關。
集群分析的分類對象
• Q型集群
• 也叫樣本(case)集群,是針對樣本進行分類 處理。方法是根據樣本有關變數的特徵,將 特徵相似的樣本歸為一類,例如在股市模組 分析中,根據上市公司的每股收益、每股淨 資產、股東權益率、淨資產收益率、淨利潤 等五個指標,將股票分為不同的類型,如指 標股、一般股等。
分層集群分析
• 可用於樣本集群,也可用於變數集群 • 分析步驟
• 選擇分析變數 • 資料標準化 • 選擇距離或相似係數的計算公式,計算所有樣本或變數兩兩間
的距離或相似係數,產生距離矩陣或相似矩陣。 • 選擇集群方法,將距離最近的兩個樣本合併為一類。常用集群
方法有:最短距離法、最長距離法、重心法、類平均法、離差 平方合法等。 • 分類個數大於1,則繼續前兩個步驟,直到所有樣本歸為一類為止 • 輸出集群結果和系統集群圖,包括樹型圖和冰柱圖。 • 根據研究對象的背景知識,按某種分類標準或分類原則,得出 最終的分類結果。
• 排名好又好登(便宜又大碗)
• Immediacy index vs. articles
• 熱門又好登
• Impact factor vs. immediacy index
• I: 3 4 1 2
• 3: MIS QUART • 4: J AM MED INFORM ASSN • 1: ANNU REV INFORM SCI • 2: INFORM SYST RES
量化研究與統計分析
集群分析 Cluster analysis
謝寶煖 2006年5月27日
15位學生的身高和體重
80
70
60
50
體 40
重 150
160
170
180
身高
集群分析的基本概念
• 將性質相近的現象歸為一類,以便在大量複雜 的特徵歸類後,找出其所存在的規律性,如經 濟現象
• 是定量研究分類問題的一種多元統計方法 • 找出同一類中的個體有較大的相似性之間相似
4
0
0
• 下一階段是3。 • 階段3中,集群1放1 ,集群2放2。先出現的集群1是2,表示1和2
要放在同一群中。而集群2的先出現集群是0;結束。 • 群 II:1, 4, 2 • 群 III:6 • 群 I:3, 5
• 由組間平均距離連接法,可知6個樣本明 顯地分為三類
• I:3、5 • II:1、2、4 • III:6
身高 vs. 體重(標準化)
JCR
• Information Science & Library Science之 54種期刊是否可以依其index加以分類
• Impact factor vs. immediacy index
• 排名好又熱門(叫好又叫座的期刊)
• Impact factor vs. articles
• II: 5~54
• Impact factor vs. articles • Immediacy index vs. articles
• I: 42 43
• 42: LIBR J • 43: SCIENTIST
• II: 1~41 44~45
• Impact factor, Immediacy index, articles, cites
值為2 ,最大值不超過樣本個數 • 按照集群種子的距離最小原則,將各觀察
值分到所在類中,形成第一次替代的K類。 反覆。 • 輸出集群結果 • 根據研究對象的背景知識,按某個分類標 準或分類原則,得出最終的分類結果。
集群分析
• 分析>分類>階層集群分析法
• 澳洲某農莊14年來葡萄生產量,是否可以 加以區分為有意義的集群?(可用產量的 差距來衡量年度之間的距離)
合併 • 集群1和集群2,都不為0,表示類與類的合併
群數凝聚過程
組合集群
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
1
3
51272.000
0
0
4
2
1
41548.000
0
0
3
3
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
4
0
0
• 集群1放3、集群2放5,但因集群1和集群2的先出現的階段集 群都是0,表示集群1和集群2應合併為一類,所以群I是3和5。
• R型集群
• 也叫變數(variable)集群,是以變數為單位 進行集群。
分層集群分析
• Hierarchical Cluster Analysis
• 也叫系統集群分析,是集群分析中應用最廣 泛的一種方法。
• 集群過程:把參與集群的樣本(或變數)各 視為一類,然後根據兩類之間的距離或相似 度逐步合併,直到所有樣本(或變數)合併 為一個大類為止。
冰柱圖
樹狀圖
快速基因資料集群分析
• 也稱為逐步集群或動態群集 • 開始按照一定方法選取一批凝聚點,其次
讓樣本項最近的凝聚點凝聚,形成起始分 類,然後按最近距離原則修改不合理的分 類,直到合理為止。 • 適合於大基因資料檔案的Q型集群分析
分析步驟
• 選擇分析變數 • 指定集群數目,即要將樣本聚為幾類 • 選擇K個樣本作為集群的種子,K的最小
• 群 I:3, 5
• 下一階段是4,所以看階段4。集群1放1,集群2放3,且先出現集 群都不為0,表示1要放在一個集群,3要和在另一個集群;但是 先出現的階段集群,集群1已經有3了,所以3是集群1(根據階段 1集群1現有3和5),集群2要放1。
• 群 II:1
• 群 I:3, 5
群數凝聚過程
組合集群
選擇輸出統計量: 集群凝聚過程 相似性矩陣 各集群組員:由3到6
選擇輸出集群圖: 樹狀圖 冰柱圖方向:垂直
集群1=集群2=0,表示兩個
群數凝聚過程
樣本合併為一類/組
組合集群
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
1
3
51272.000
0
0
4
2
1
41548.000
0
0
3
3
距離和相似係數
• 研究變數間親疏程度的指標有兩個
• 距離
• 指兩個事物距離多遠的測量,通常將每一個樣本看成m維 (變數的個數)空間中的一個點,在這m維空間定義點與點 之間距離,距離較近的點歸為同一類,距離較遠的點歸入不 同的類。
• 相似係數
• 指兩個事物距離多近的測量,性質越近的樣本,它們之間的 相似係數越接近於1(或-1),而彼此無關的樣本,它們之 間的相似係數越接近於零。在進行集群處理時,將比較相似 的樣本歸為一類,不怎麼相似的樣本歸為不同的類。
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
4
0
0
集群1或集群2中,有一個為0,表示 樣本與類的合併
1和4合併為一類,6獨立為一類
集群的順序
集群1和集群2,都不為0,表示類與 類的合併。
集群1是1、集群2是3
群數凝聚過程
組合集群
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
要放在同一群中。 • 群 II:1, 4 • 群 III:6 • 群 I:3, 5
群數凝聚過程
組合集群
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
1
3
51272.000
0
0
4
2
1
41548.000
0
0
3
3
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
先出現的階段集群
階段集群1 集群2 係數 集群1 集群2下一階段
1
3
51
41548.000
0
0
3
3
1
2 132.000
2
0
4
4
1
32633.667
3
1
5
5
1
64322.200
4
0
0
• 下一階段是5,所以看階段5。集群1放1,集群2放6,且先出現集 群1為4,表示1要和4放在一個集群;集群2的先出現集群為0,表 示集群2的6要自己歸在一個集群中。集群1(根據階段4集群1現 有3和5),集群2要放1。
相关文档
最新文档