【决策管理】决策树分析及SPSS实现

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在遊戲中,第一個問題的答案決定了下一 個問題。如果謹慎選擇問題,只要短短幾次詢 問就可以將後來的資料正確分類。
4
決策樹基本觀念
以『二十個問題』的方法顯示樂器的分類。
5
決策樹基本觀念
一筆資料從根部的節點進入決策樹。在 根部,應用一項測驗來決定這筆資料該進入 下一層的哪一個子節點(child node)。選擇 一開始的測驗有不同的演算法,但目的都是 一樣的:這個過程一再重複,直到資料到達 葉部節點(leaf node)。
21
numbers
分類與迴歸樹(CART)
22
分類與迴歸樹(CART)
找出起始的分隔 : 在過程中的一開始,我們有一個預先分類
好的訓練和資料。預先分類意味輸出變數,或 稱依變數,具備一個己知的類別。CART藉著 一個單一輸入變數函數,在每一個節點分隔資 料,以建構一個二分式決策樹。因此,第一的 任務是決定哪一個自變數可以成最好的分隔變 數。最好分隔的定義是能夠將資料最完善的分 配到一個單一類別支配的群體。
在本章中,我們先介紹決策樹運作的方式 及其如何應用在分類和預測問題。隨後我們進 一步介紹如何以CART、C4.5和CHAID演算法 建構決策樹。
3
決策樹基本觀念
決策樹如何運作:
『二十個問題』(Twenty Questions)這個 遊戲,一定可以輕易了解決策樹將資料分類的 方式。在遊戲中,一個玩家先想好所有參加者 都有知道的一個特定地點,人物或事物,其他 玩家藉著提出一堆『是或不是』的問題,來找 出答案。一個決策樹代表一系列這類問題。
第九章
決策樹分析
Decision Tree Analysis
1
決策樹分析
簡介 決策樹基本觀念 三種研究方法 其他決策樹的變化 決策樹的優、缺點
2
簡介
決策樹是功能強大且相當受歡迎的分類和 預測工具。這項以樹狀圖為基礎的方法,其吸 引人之處在於決策樹具有規則,和類神經網路 不同。規則可以用文字來表達,讓人類了解, 或是轉化為SQL之類的資料庫語言,讓落在特 定類別的資料紀錄可以被搜尋。
下表顯示這個節點共有11筆資料被歸類其下, 其中九個是正確的(女性),還有兩個男性被 誤分到這裡。換言之,這項規則的錯誤率為 0.182
9
決策樹基本觀念
10
決策樹基本觀念
year place movie last like sex pred.
59
4
23
1
F
F
43
2
1
12
F
F
43
2
1
30
F
F
45
1
從根部到每一個葉部都有一套獨特的路 徑,這個路徑就是用來分類資料規則的一種 表達方式。
6
決策樹基本觀念
決策樹的多種形式:
7
決策樹基本觀念
某些規則比其他規則好: 我們將一個決策樹應用在一個前所未有
的資料集合上,並觀察其分類正確的比率, 來衡量這個決策樹的有效程度。
對決策樹的每一個節點,我們可以如此 衡量:
23
分類與迴歸樹(CART)
找出起始的分隔 : 用來評估一個分隔數的衡量標準是分散度
(diversity)。對於一組資料的『分散度指標』 (index of diversity)有多種計算方式。不論哪 一種,分散度指標很高,表示這個組合中包含 平均分配到多個類別,而分散度指標很低則表 示一個單一類別的成員居優勢。
每一個直條的高度顯示落在對應箱中的資料數 目。這類直條圖可以使用直條的頻色或形狀來 顯示對應規則的錯誤率。 ●單一資料可以根據輸出變數的數值,用有色的 球形或點狀來代表。這樣可以立即顯示這套分 類系統的表現。
14
決策樹基本觀念
15
決策樹基本觀念
表現多維度: 當我們將資料丟進格子中,它們落到特定的
層內並以此分類。一個層形圖讓我們一目了然的 見到數層資料的細節。在下圖,我們可以一眼看 出左下的格子清一色都是男性。仔細的看,我們 可以發現某些層在分類上表現很好,或是聚集了 大量資料。這和線性,邏輯性或二次差分等傳統 的統計分類方法試圖在資料空間中劃上一條直線 或弧線將資料分層的方式大不相同。
16
18
決策樹基本觀念
19
分類與迴歸樹(CART)
分類與迴歸樹(Classification And Regression Tree, CART)CART演算法是建構決策樹時最常用的 演算法之一。自從1984年布里曼(L. Brieman)與其同僚發表這種方法以來,就一直 機械學習實驗的要素。
20
分類與迴歸樹(CART)
25
63
M
F
45
1
25
2
F
F
45
1
25
26
F
F
46
1
26
2
F
F
45
2
32
111 F
F
49
3
1
Βιβλιοθήκη Baidu
63
M
F
45
1
25
63
F
F
45
2
32
17
F
F
11
決策樹基本觀念
決策樹創造資料箱: 雖然樹狀圖和『二十個問題』類推法有助於
呈現決策樹方法的某些特質,但作者發現,在某 些情況下,基於不同表現方式的箱形圖(box diagram)更加清楚明白。
●進入這個節點的資料數目。 ●如果是一個葉部節點,可觀察資料分類的方式。 ●這個節點將資料正確分類的比率。
8
決策樹基本觀念
藉由將資料分到正確類別的情況,我們可以 驗證出建構決策樹的最佳演算法。第四章中的 電影迷資料庫。受測者被要求回答他們的年齡, 性別,最常看的電影,以及最近看過的電影片 名。然後我們使用決策樹程式來創造規則,以 受測者在問卷中其他問題的答案來找出該名受 測者的性別。
決策樹基本觀念
17
決策樹基本觀念
這是一種基本上的差異:當一筆資料有多種非常不 同的方法使其成為目標類別的一部份時,使用單一線 條來找出類別間界線的統計方法效力會很弱。例如, 在信用卡產業,很多種持卡人都讓發卡根行有利可圖。 某些持卡人每次繳款的金額不高,但他們欠繳金額很 高時,卻又不會超過額度;還有一種持卡人每月都繳 清帳款,但他們交易金額很高,因此發卡銀行還是可 以賺到錢。這兩種非常不同的持卡人可能為發卡銀行 帶來同樣多的收益。在下圖中,我們將顥示在這種分 類問題上,決策樹超越純粹統計方法的優點。
一個決策樹創造一系列盒子或箱子,我們可 以將資料丟進去。任何樹狀圖的葉部節點形成一 個一維式箱形圖。和決策樹根部節點有關的測試 將下層分成兩個或更多部分。
12
決策樹基本觀念
13
決策樹基本觀念
決策樹的根部擴大成資料箱: ●資料箱的寬度可以有變化,以顯示一筆資料落
在特定箱中的相對可能性。 ●這個圖形可以換成一個直條圖(histogram),
相关文档
最新文档