资料探勘 (Data Mining)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(Support)
P(A, B)
請問 麵包 => 牛奶 之支持度為多少?
練習
交易編號 T1 T2 T3 T4 購買產品 (K, A, D, B) (D, A, C, E, B) (C, A, B, E) (B, A, D)
關聯規則 A=> D 之 可信度 為多少? 關聯規則 A=> D 之 支持度 為多少?
incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data noisy: containing errors or outliers inconsistent: containing discrepancies in codes or names
關聯規則 Association Rule
同一個交易中,一個item出現也會引起另 一個item的出現 Association rule例子
若顧客購買麵包,則他很可能也會購買牛奶 Association rule: 麵包 => 牛奶 P(牛奶|麵包) 的機率值高
關聯規則之 可信度
(confidence)
總計: 約3 petabytes (3000 terabytes)
網路世界...
在1999年有約 800 Million Web Page在網際網 路上
Faulker’s Cyberscape Digest 08/06/99
網路的交通流量是每 100 天成長二倍 – 估 計有 62 Million 美國人已經在使用網際網路 (US Commerce Dept 1998) 廣播節目花了 38 年才得到五千萬聽眾, 電視 節目花了 13 年, 而網際網路才花了 4 年...
練習
交易編號 T1 T2 T3 T4 購買產品 (K, A, D, B) (D, A, C, E, B) (C, A, B, E) (B, A, D)
支持度 >= 50%之關聯規則
請找出可信度 >= 60%
Interestingness of Association Rules
調查學生早餐: 打棒球: 60% 吃麥片: 75% 打棒球且吃麥片: 40%
Rule induction Machine learning ~1980 Knowledge Discovery for Databases (KDD) ~1990
Data Mining ~1995
Why Data Mining
Necessity is the Mother of Invention!
一般被包夾防守時,有一人空出來,可輕鬆投籃得分
Data Mining 應用例子(4)
搜尋網站
Data Mining 應用例子(5)
公司對客戶的市場分析,例如:
消費習慣、客戶分群、消費預測 例子:
超級市場、錄影帶出租店、信用卡…
Data Mining 應用例子(7)
大宇宙的預測:
天氣預測 地震預測 土石流預測 慧星撞地球 …
Input
Input
?
Nonlinear System
Input
Input
?
Chaotic System
Input
Introduction
What is data mining? Why data mining? How to do data mining?
Data Mining: On what kind of data? Data preprocessing Association rules Clustering Classification
Distribution Networking
Utilization Disposition
Inactive
Searching
Data Mining ?
DEFINITION
DATA MINING 就是從資料中裡,將隱含 的、潛在性有用的及不清楚的資料,挖 掘、淬取出來的過程。也就是說從資料 中挖掘以前不知道的知識。 相關名詞 : 知識淬取(knowledge extraction) 資料打撈(data dredging) 資料考古學(data archaeology)
Data Mining 應用例子(8)
小宇宙的預測
疾病預測 基因功能預測 結構預測 …
How to Do Data Mining?
First of all, you have to learn
How to put your data Database
Then, you have to do
data preprocessing
Integration of multiple databases, data cubes, or files
Data transformation
Normalization and aggregation
Data reduction
Obtains reduced representation in volume but produces the same or similar analytical results
Data Mining 為何興起?
商品條碼之廣泛使用 企業界之電腦化 數以百萬計之資料庫正在使用 多年來累積了大量企業交易資料
Data
Knowledge
Data Mining 之同義詞
Knowledge Discovery in Databases (KDD) Knowledge Extraction Data archaeology Data Patten Analysis
No quality data, no quality mining results!
Quality decisions must be based on quality data Data warehouse needs consistent integration of quality data
Key Issues
Creation
Active
Authoring Modifying Using Creating Organizing Indexing
Retention/ Mining Discard
Accessing Filtering
Storing Retrieval
Semi-Active
資訊生命週期(Information Life Cycle)
Creation
Active
Authoring Modifying Using Creating Organபைடு நூலகம்zing Indexing
Retention/ Mining Discard
Accessing Filtering
Storing Retrieval
Semi-Active
Distribution Networking
Utilization Disposition
Inactive
Searching
資訊產生的問題
資訊儲存
如何且在哪裡儲存資訊 ?
資訊擷取
如何從儲存的資料還原成資訊 如何找到所需要的資訊 如何和 存取(Accessing)/過濾(Filtering)的方 法連結
(Confidence)
可信度= P(B|A) = P(A,B)/P(A)
P(麵包 ,牛奶) P(牛奶|麵包) = P(麵包) = N(麵包) N(麵包 ,牛奶)
關聯規則之 支持度
關聯規則 A => B 支持度為: A與B同時出現之機率 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………)
主要功用
從資料庫中挖掘知識 了解使用者行為 幫助企業作決策 增進商機 Too much!!!
Data Mining 應用例子(1)
樂透
Data Mining 應用例子(2)
超級市場
牛奶與白麵包 啤酒與香菸 啤酒與尿布
Data Mining 應用例子(3)
NBA 美國職籃
1996, 紐約尼克隊 總教練 Pat Riley 運用Data Mining 發現: 出戰芝加哥公牛隊,尼克中鋒尤 恩被包夾時,得分率偏低
P(吃麥片|打棒球)=P(吃麥片∩打棒球) / P(打棒 球) = 40% / 60% = 0.66
Major Tasks in Data Preprocessing
Data cleaning
Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies
Data integration
關聯規則 A => B 可信度為: 在A出現之條件下出現B之機率 例子: 資料庫中的交易紀錄如下: t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………) 請問 麵包 => 牛奶 之可信度為多少?
關聯規則之 可信度
資料庫中的交易紀錄 t1: (…,麵包,…,牛奶,…) t2: (…,麵包,…………..) t3: (…,麵包,…,牛奶,…) t4: (……………………)
遠古至今即存在Data Mining
月暈 知風 礎潤 知雨 晚上起霧 第二天晴天 看到媽媽拿鞭子 落跑 這些在我們的傳統用法稱之為:
經驗法則
Data Mining 之演進過程
Statistics ~1800? Expert Systems ~1970 Pattern Recognition ~1970 Relational Databases, Triggers ~1980 MIS decision support ~1990
DATA?
“Data Structure”
Wisdom Knowledge Information Data
“Data Structure”
資料(Data) 未經處理的資訊 資訊(Information) 經某人組織,展現的資料 知識(Knowledge) 資訊經過讀,看,聽後理解而得到了知識 智慧(Wisdom) 知識經過精煉,整合後萃取出的精華
Finally, you should have some weapons :
Data mining techniques
Typical Data Mining System
Data Warehouse
Why Data Preprocessing?
Data in the real world is dirty
資料探勘 (Data Mining)
蔡懷寬 D7526010@csie.ntu.edu.tw
Please tell me
Why you are here? Make a definition of Data Mining
Input
?
Output
Input
道
Output
Input
?
Linear System
Data discretization
Part of data reduction but with particular importance, especially for numerical data
Data Mining 主要方法介紹
關聯規則 (Association rule) 屬性導向歸納法(Attribute Oriented Induction) 資料分類 (Classification) 資料分群 (Data Clustering) 模式導向相似性搜尋(Pattern-Based Similarity Search) 資料方塊法 (Data Cube) Sequence Pattern Mining
有哪些資料 ?
文字
書籍, 期刊, WWW, 備忘錄, … 刊載/參考
膠捲 照片, 其它影像 廣播, 電視 電話通訊 資料庫
資料量:以美國國會圖書館為例
國會圖書館藏書量 (1999)
書: 約 20 Terabytes(1012 bytes)
20M books 1 MB per book
其他資料
13M 影像照片, 1MB each = 13 TB 4M 地圖, say 200 TB 500K 檔案, 1GB each = 500 TB 3.5M 有聲資料, ~2000 TB