DataMining资料探勘-联合大学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IF 性別=Female AND 年齡≧35 THEN 購買RV房車=是
建立模型
IF 性別=Male AND 婚姻=未婚 THEN 購買RV房車=否
未婚 已婚 IF 性別 =Male AND 婚姻=已婚 THEN 購買RV房車=是 訓練樣本 (training samples) 否 是
測試樣本(testing samples)

第一步,建立一個模型,描述預定資料類集和概 念集

假定每個元組屬於一個預定義的類,由一個類標號屬 性確定 基本概念


訓練資料集︰由為建立模型而被分析的資料元組形成 訓練樣本︰訓練資料集中的單個樣本(元組)

學習模型可以用分類規則、決策樹或數學公式的形式 提供
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
資料庫 分類標記 Female 年齡 <35 否 ≧35 是 性別 Male 婚姻 未婚 否 已婚 是
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
2.非監督式(unsupervised learning)的機器學習法-----
集群分析法(Cluster Analysis)
國立聯合大學 資訊管理學系
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
最佳分類屬性

ID3演算法的核心問題是選取樹中的每個節點所要 測試的屬性。 我們希望選擇的是最有助於分類Instance的屬性, 那麼好的評定標準是什麼?


資訊獲利 (Information Gain)

ID3在建構決策樹過程中,以資訊獲利為準則,並 選擇最大的資訊獲利值作為分類屬性。
評估模型
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
Example
資料
2. 模型評估
1.建立模型
婚姻 未婚 訓 練 樣 本
測 試 樣 本
已婚
家庭 所得
年齡
<35
≧35
低 小康 高
否 否 是


X
3.使用模型
錯誤率為 66.67% 修改模型
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
分類的目的


速度︰產生和使用模型的計算花銷
健壯性︰給定噪音資料或有空缺值的資料,模型正確 預測的能力


可伸縮性︰對大量資料,有效的構建模型的能力
可解釋性︰學習模型提供的理解和洞察的層次
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
用決策樹歸納分類

什麼是決策樹?



類似於流程圖的樹架構 每個內部節點表示在一個屬性測試 每個分枝代表一個測試輸出 每個樹葉節點代表類別或類別分佈 決策樹構建
1.
2.
3.
4.
樹以代表訓練樣本的單個節點開始 如果樣本都在同一個類別,則該節點成為樹葉, 並用該類別標記 否則,算法使用基於熵的度量: 資訊獲利作為指 導訊息,選擇能夠最好的將樣本分類的屬性;該 屬性成為節點的“測試”或“判定”屬性。(使 用分類屬性) 對測試屬性每個已知的值,創建一個分支,並以 此劃分樣本
no no yes yes yes no
31…40
<=30 <=30 >40
low
medium low medium
yes
no yes yes
excellent
fair fair fair
yes
no yes yes
<=30
31…40 31…40 >40
medium
medium high medium
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
5.
6.
7.
8.
9.
算法使用同樣的過程,遞迴的形成每個劃分上的 樣本決策樹。一旦一個屬性出現下一個節點上, 就不在該節點的任何子節點上出現 遞迴劃分步驟停止的條件 給定節點的所有樣本屬於同一類 沒有剩餘屬性可以用來進一步劃分樣本: 使用多 數表決 沒有剩餘的樣本
yes
no yes no
excellent
excellent fair excellent
yes
yes yes no
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
概念“buys_computer”的決策樹
age? <=30 student? no no yes yes overcast 30..40 yes >40 credit rating? excellent no fair yes
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
用熵 (Entropy)來衡量範例的一致性

熵,可當作資訊量的凌亂程度 (不確定性) 指標,當熵值愈大,則代表 資訊的凌亂程度愈高。(又可稱為期望資訊量)
【說明範例】丟銅板


若銅板是公平的,則丟出正面與反面的機率是一樣的

若銅板是動過手腳的,則丟出正面與反面的機率不會是樣的
第一步: 建立模型
分類演算法 訓練資料 集
NAME RANK M ike M ary B ill Jim D ave Anne A ssistan t P ro f A ssistan t P ro f P ro fesso r A sso ciate P ro f A ssistan t P ro f A sso ciate P ro f

3. 4.
該群資料中,每一筆資料都已經歸類在同一類別下
該群資料中,已經沒有辦法再找到新的屬性來進行節點分割 該群資料中,已經沒有任何尚未處理的資料
採用自頂端向下的貪婪搜索遍歷可能的決策樹空間 ID3是這種演算法的代表
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
決策樹歸納策略
新資料使用訓練資料集中得到的規則進行分類


無指導的學習(用於聚類)

每個訓練樣本的類別編號是未知的,要學習的類別集 合或數量也可能是事先未知的 透過一系列的度量、觀察來建立資料中的類別編號或 進行聚類

國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
1.監督式(supervised learning)的機器學習法-----決策樹(Decision Tree)
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
基本的決策樹學習演算法
基本的演算法概念:
1.
2.
將原始資料分成兩組,一部分為訓練資料,一部分為測試資料
使用訓練資料來建立決策樹,而在每一個內部節點,則依據資訊 理論(Information Theory)來評估選擇哪個屬性繼續做分支的依據, 又稱節點分割 (Splitting Node) 使用測試資料來進行決策樹修剪 將以上1~3步驟不斷遞迴進行,直到所有的新內部節點都是樹葉節 點為止,且:
age
<=30 <=30 31…40 >40 >40 >40
income
high high high medium low low
student
no no no no yes yes
credit_rating
fair excellent fair fair fair excellent
buys_computer

1.尋找影響某一重要變項的因素。 2.了解某一族群的特徵。
3.建立分類規則。

例如: 行銷策略(市場區隔) 銀行(核卡額度) 醫療診斷(肝癌,SARS)
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
有指導的學習 VS. 無指導的學習

有指導的學習(用於分類)

模型的學習在被告知每個訓練樣本屬於哪個類別的 “指導”下進行

第二步,使用模型,對將來的或未知的對象進行 分類

首先評估模型的預測準確率

對每個測試樣本,將已知的類標號和該樣本的學習模型類預 測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本 的百分比


測試集要獨立於訓練樣本集,否則會出現“過分適應資料” 的情況
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
資料探勘課程 (陳士杰)
決策樹(Decision Tree)之介紹 根部節點(root node) 中間節點(non-leaf node)
(代表測試的屬性)
分支(branches)
(代表測試的結果)
葉節點(leaf node)
(代表分類後所獲得的分類標記)
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)

預測︰

建立連續函數值模型,比如預測空缺值

典型應用


信譽證實
目標市場 醫療診斷
性能預測
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
分類(Classification)

分類的徵
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
資料分類: 一個兩步過程
Tenured?
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
1.模型建立(Model Building) 2.模型評估(Model Evaluation) 分類規則 性別 3.使用模型(Use Model) IF 性別=Female AND 年齡<35 THEN 購買RV房車=否
資料庫 Female 年齡 <35 否 ≧35 是 Male 婚姻
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
分類規則
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
第二步: 用模型進行分類
分類規則
測試集
資料探勘課程 (陳士杰)
準備分類和預測的資料

透過對資料進行預處理,可以提升分類和預測過 程的準確性、有效性和可伸縮性

資料清理

消除或減少噪音,處理空缺值,從而減少學習時的混亂

相關性分析

資料中的有些屬性可能與當前任務不相關;也有些屬性可能 是冗餘的;刪除這些屬性可以加快學習步驟,使學習結果更 精確


決策樹的生成由兩個階段組成

開始時,所有的訓練樣本都在根節點 遞迴的透過選定的屬性,來劃分樣本 (必須是離散值) 許多分枝反映的是訓練資料中的噪音和孤立點,樹剪枝試圖檢測和 剪去這種分枝

樹剪枝


決策樹的使用︰對未知樣本進行分類

透過將樣本的屬性值與決策樹相比較
國立聯合大學 資訊管理學系
未知資料 (Jeff, Professor, 4)
NAME Tom M erlisa G eorge Joseph
RANK Y E A R S TE N U R E D A ssistant P rof 2 no A ssociate P rof 7 no P rofessor 5 yes A ssistant P rof 7 yes

國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)

更一般地,如果目標屬性具有c個不同的值,那麼 S相對於c個狀態的分類的熵定義為 Entropy(S)=
p log
i 1 i
c
2
pi
其中pi 為每個狀態出現的機率
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
用資訊獲利 (Information Gain) 衡量期望的熵降低

資料變換

可以將資料概化到較高層概念,或將資料進行規範化
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
比較分類方法

使用下列標準比較分類和預測方法

預測的準確率︰模型正確預測新資料的類編號的能力

訓練測試法(training-and-testing) 交互驗證法(cross-validation)

我們利用資訊獲利來定義某個屬性A用以分類訓練資料的 能力。 【說明範例】天氣評估


假設有一套天氣評估系統S,它有一些評估屬性 (如: 風力、濕 度、…)。 以風力 (Wind)為例,它在所有的訓練資料中所會出現的值為: weak, strong 若目前有14個範例資料,其中有9個正例與5個反例(記為[9+, 5-]) 這14個範例資料中,關於風力的資料:

給定包含關於此範例的範例集S,那麼S相對這個布林分類的熵為 Entropy(S)=-p+log2p+ - p-log2p-

若丟了14次銅板,出現了9個正面與5個反面(記為[9+, 5-]),則對於這個 範例的熵為:
Entropy([9+, 5-])= -(9/14)log2 (9/14) – (5/14) log2 (5/14) = 0.94 若銅板丟出正面與反面的數量是一樣,則熵為1 若銅板是動過手腳的,不論怎麼丟都只會出現正面 (或反面),則熵為0
Course 4
分類與預測
Classification and Prediction
Data Mining 資料探勘
國立聯合大學 資訊管理學系 陳士杰老師
國立聯合大學 資訊管理學系
資料探勘課程 (陳士杰)
分類 VS. 預測

分類︰


預測分類標號(或離散值)
根據訓練資料集和類標號屬性,構建模型來分類現有資料,並用 來分類新資料
相关文档
最新文档