《资料探勘》课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

資料的壓縮
– 採用編碼的方式,將原來的資料轉換為一個較小的資 料集合
– 此資料集合也可以透過解壓縮的程序,還原為原來的 資料 • 解壓縮還原後的資料與原來資料完全相同時,為無 失真壓縮 • 如無法完全還原為原來的資料,為失真壓縮技術
– 離散小波轉換是資料壓縮經常被使用的技術 • 失真型壓縮 • 可刪除部分離散小波相關係數,但對整體資料不會 有太大影響。 • 透過所設定的離散小波相關係數,利用逆轉換方式 來解壓縮資料
問: 平滑規則為中值平滑?
平滑規則為邊界平滑?
異常資料之處理
– 叢聚方法
• 叢聚分析可將相似的資料叢聚在一起 • 其餘異常的資料自然的就會分布在叢聚之外 • 也就可以被認定為離群值或是雜質 • 最後再清除或更正這些資料
– 人工處理與電腦處理結合的方法
• 利用電腦的技術幫助找出資料中異常的資料 • 電腦處理之後透過人工的方式對於這些異常進行再一次的檢
例:假設“氣溫”屬性就是目標屬性,它的取值區間 為[-100,100],在此區間上的屬性值及記錄數如下 表
所示,採用熵導向的離散化技術生成“氣溫”屬性
的概念階層樹。
首先,劃分區間[-100,100]
E([-100,100])
= -
6 100
log2
6 100
9 100
log2
9 100
36 100
資料的減量
• 運用資料的減量來處理大量或高維度的資料
– 三個主要的減量標的 • 特性的減量 • 資料的減量 • 資料屬性值的減量
– 資料減量,可能會帶來以下的好處: • 運算的時間 • 預測結果準確度 • 呈現探勘的結果
資料的減量
– 資料減量演算法應具備的特性 • 品質可以衡量 • 品質可以得知 • 單調性 (可重複使用且效果不變) • 穩定性 (不論時間長度與資料品質,結果品質固定。) • 隨運行次數增加,資料變動減少。 • 可中斷性 (可隨時終止) • 可支配性 (可隨時暫停或重新開始)
– 上面的式子中 代表一個數學上的參數,可以描述為
1) 數值型的資料
– 最常用來進行相似度衡量的就是歐幾里德距離,下面是利用歐幾 里德距離來計算的公式。
– 在上式中的代表的是維度的數目,和代表的是用來對於第個維度 進行正規化的最大和最小值。
資料特性的選擇
2) 非數值型的資料 漢明距離來進行相似度的橫樑,其公式如下:
(1) 給定關係表r及其連續屬性A,計算在A的 取值區間V上的記錄集合S的熵。
E(S) -
c S log2
c S
(2) 對A在V上取的每個v,用v劃分V為
v1( v),v2( v) ,劃分S為s1、s2,
計算在此 劃分下, S的熵。
E(S,v) s1 Es1 s2 E(s2)
S
S
(3) 對在V上的每個劃分 v1( v),v2( v,) 計算
• 自動的離群值偵測技術 ✓統計的方法 ✓以距離為基礎的方法 ✓以偏差為基礎的方法
異常資料之處理
– Binning方法
• 分配的方法有等高式和等寬式,如圖所示
• 等高式資料分配方式,指的是每一個箱子中的資料數目皆相等 • 等寬式的分配方法則是每個箱子中的值之間距 (箱子中最大值和最小
值差距) 相等,一般而言寬度愈大,平滑效果愈明顯 • 分配好每個箱子中的資料後,隨即可以進行資料的平滑化
特性的減量
– 特性減量之後,資料的優點
• 資料量減少 • 高度的資料探勘處理正確率 • 資料探勘後的結果較為簡單 • 不用浪費太多時間在蒐集不相關或不需要的資料
– 資料特性的選擇
• 對於特性排序的演算法 • 最小子集合的演算法
– 資料特性的合併
資料特性的選擇
– 特性評估方法的建立
相似度衡量
– 以下的公式為當特性是數值時,在兩個樣本下的 相似度衡量
在此劃分下,S的資訊增益(Information
ห้องสมุดไป่ตู้Gain)。
G(S,v) E(S)- E(S,v)
(4) 選擇使S的資訊增益最大的劃分作為最佳
劃分,記為 V1( T),V2( T) 。
(5) 遞迴地應用步驟(1)~(4)於V1、V2及S1、 S2上,直至滿足一定的限制條件,例如,
最大增益資訊增益小於某個閥值。
不完整的資料
– 處理的方法 • 通常由進行資料探勘的技術人員,邀集相關知識 領域的專家,以其專業的領域經驗,輸入合理、 可能或期望的資料。 • 利用較為簡單且自動化方法來填補資料,以解決 資料不完整的情形。 ✓利用一個已事先定義好的單一值來填補所有遺 漏的值 ✓利用平均值的方式,填補遺漏的資料 ✓利用分類後的子群組之平均值填補遺漏的資料 • 利用預測的技術,以求得遺漏的資料最可能的值 ✓迴歸分析、貝氏網路、決策樹或是叢聚方法。
類別型的資料
• 類別型的資料又稱為符號型或象徵型的資料 • 類別型資料僅具備相等或是不相等的關係,例如:黑色=黑色,白色
≠紅色 • 許多常見的資料屬性都屬於類別型資料,如:顏色、姓別、國籍 • 類別型的資料假如只有兩個值的話,例如:是 / 否,男性 / 女性,通
常可以0或1來轉換為數值型的資料 • 如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值
• 靜態資料 • 動態或是臨時性的資料
原始資料的類型
高維度的資料
• 在資料探勘領域中將資料具有很高維度的情形, 稱之為維度的災難
• 高維度的資料具有以下四個重要的特性: – 在同樣的資料密度下,資料受影響的數量將會 隨著維度的增加,而呈指數的倍數增加。 – 需要很大的半徑才能包含大維度空間內的所有 資料 – 幾乎每一個高維度空間的資料點與邊之間的距 離都比與其他點的距離近 – 在高維度的情況下,幾乎每一個點都是離群值
不一致的資料
不一致的資料所指的是相同的資料卻出現兩 種以上不一致的狀況
– 發生原因: 通常是因為命名規則出現問題(如同一個屬性在不同 表中的名稱不同)、資料格式的不 同,或是資料代 碼的不同。
不完整的資料
在原始資料中,空的資料值或是有所遺漏的 資料,都稱之為不完整的資料。
– 發生原因: • 資料屬性並非必須,在進行資料記錄時,易造成 時有時無的情形。 • 資料在當時被認為是不必要的。 • 誤解或記錄設備的問題,而使得相關的資料未被 記錄。 • 與其他紀錄的內容不一致而被刪除。 • 資料為歷史的紀錄,而且沒有經過修改與更新。
100
6
E-
資料預備的重要性
– 資料預處理主要目的在針對原始資料中的雜質 (異常)、不完整或不一致的資料進行處理。
– 資料減量目的為降低原始資料量或資料維度, 以減輕進行資料探勘負擔。
– 資料預備的主要目的在對於原始資料進行預處 理與資料減量,將資料以標準格式進行組織及 改善資料的質量,以便能夠得到最佳的資料探 勘結果。
變數去表示
原始資料的類型
以資料值的類型來進行分類
• 連續變數
– 區間比例 (零點的定義隨應用而定) – 比率比例 (具有絕對的零點)
• 離散變數
– 名義變數 (如郵遞區號, …) – 次序變數 (次序或等級的關係,如等第, …) – 週期變數 (距離的關係,如一週的天數, …)
根據的是資料與時間之間的變動特性關係來進行分類
資料探勘 第一單元 資料探勘的簡介
資料的預備
本周綱要
• 資料預備概念與重要性 • 資料預備的工作項目 • 原始資料的特性與資料預處理 • 資料的減量
資料預備概念
• 何謂資料預備?
– 資料庫中的原始資料,經常包含許多雜質、 不完整或是不一致的資料。
– 資料預備通常包括了資料的預處理與資料的 減量。
• 數值之間衝突的檢測和消除
原始資料的轉換
➢ 資料正規化
(1)以十為基數的正規化方法 (k是滿足max(v’) < 1的最小值)
(2)最小-最大正規化方法
(3)標準差正規化方法
2 (xi )2
N
問:請利用指定的正規化方法進行資料正規化: (1)以十為基數的正規化方法
-20, 50, 4, 117, -68, 5
查及清理資料中的雜質
– 迴歸方法
• 利用概似關係預測某變量值或幫助找出資料中異常的資料
原始資料的整合
原始資料的整合主要在解決綱要整合的問題、多 餘屬性的問題以及數值之間衝突的檢測和消除。
• 綱要整合 (Schema Integration) 的問題 • 多餘屬性的問題
– 相關分析

大時,A與B可以去除一個。
• 假設資料的剪斷點為 將資料集分成兩個子資料

,在這種條件下的熵值為
資料離散化
• 以上表為例,剪斷點為107 • 檢測剪斷點113 • 熵值較小的為較佳的剪斷點
連續屬性概念分層的自動生成連續屬性可以運用離 散化遞迴自動生成概念分層,相反概念分層也可以 離散化連續屬性。在此,介紹一種熵(Entropy)的 離散化技術。這種技術的步驟如下:
log2
36 100
28 100
log2
28 100
21 100
log2
21 100
= - (-0.2435-0.3127-0.5306-0.5142-
0.4728) = 2.0378
E- 100,100,-3 0 E- 100,-3 100 E- 3,100 2.0378
。E-
100,100,6
(2)最小-最大正規化方法 50, 100, 70, 160, 340, 290
(3)標準差正規化方法 8, 12, 25, 4, 10, 28
原始資料的轉換
➢資料平滑化 (ex. 具小數點數值 整數數值) ➢資料差異化和比例化
➢資料一般化(以抽象或更高層概念的屬性來取代) ➢資料合計 ➢新屬性的創造
資料特性的選擇
熵(Entropy)衡量
用來比較在特性移除前與移除後所得的值 此公式衡量後所得的值可以用來進行特性的排序
上頁公式衡量後所得的值可以用來進行特性的排序, 其演算法如下所示:
資料特性的合併
資料的取樣
利用一小部分的資料或子集合來代表整個 資料的母體,而這些透過取樣之後所獲得 的資料,必須要具有代表性且能夠忠誠的 反應整個母體的資料特性 – 簡單隨機取樣 (放回式與不放回式) – 叢聚取樣 – 階層式取樣 – 系統取樣
異常的資料
所謂資料中的雜質、異常的資料指的就是資 料中存在錯誤或離群值(與大部分資料的分布 差距過大)。
– 發生原因 • 資料蒐集的設備出現問題。 • 在記錄資料的過程中,發生人為或是電腦方面 的錯誤。 • 資料在傳輸的過程中產生錯誤。
異常的資料
– 處理的方法 • 人工的離群值偵測方法 ✓在離群值的偵測技術中,假如資料的維度 在三以下時,最方便的偵測方法就是利用 視覺化的方法。
資料離散化
• 許多資料庫中的資料都是屬於數值型的資料 • 如要將這些數值型的資料轉換成類別型的資
料時,可採用所謂資料離散化(連續屬性概念分層)
資料離散化
• 資料離散化的方法 1. 相等的區間頻率和相等的區間寬度方法
資料離散化
2. 最小類別的熵方法
• 在資料集合 中的屬性A之熵值
可以定義為
• 以前頁上表為例
原始資料的特性
➢ 原始資料剛開始的資料量非常龐大 ➢ 原始資料都是非常雜亂的 ➢ 原始資料中,可能有不完整、扭曲、記錄錯誤和不充
分的資料 • 資料的不完整,可能在衡量、計算時發生錯誤 • 造成雜亂的原因為記錄的錯誤,特別是在大量的資 料中最容易產生這種情況 • 扭曲的資料
– 選擇錯誤的資料衡量方法 – 錯誤的資料探勘的工具 – 太過理想化的模式下
資料預備包含的工作項目
– 資料的預處理
• 資料清理 • 資料整合 • 資料轉換
– 資料的減量
• 資料的減量之目的就是縮小欲進行探勘資 料的數量或是維度,但是基本上以不影響 探勘之後的結果為主。
原始資料的類型
數值型的資料
• 包括實數變數以及整數變數
– 數值型資料的值是具有順序關係的,例如:3 > 6, 6 > 8 – 數值型資料的值是具有距離關係的,例如:2.5與5.7間的距離為3.2
– 平均值法資料平滑化技術 – 中值法資料平滑化技術 – 邊界法資料平滑化技術
例:假設某屬性的值為18,12,3,9,7,6,15,21, 16,採用分配技術平滑資料消除噪音。分佈規則為等 高,高度為3,平滑規則為平均值平滑。
首先,將屬性的值排序為3,6,7,9,12,15,16,18, 21 然後,分佈規則(等高,高度為3)將資料分佈為 箱1:3,6,7 箱2:9,12,15 箱3:16,18,21 最後,根據平滑規則為 箱1:5.3,5.3,5.3 箱2:12,12,12 箱3:18.3,18.3,18.3
相关文档
最新文档