资料探勘DataMining(4)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

a
14
何謂資料探勘(1)
學者曾對資料探勘做過的定義
Frawley
資料庫中挖掘潛在、明確、而且非常有用資訊的過程
Grupe & Owrang
從已存在的資料庫當中挖掘出專家仍未知的新事實
Fayyad 定義知識發掘 (Knowledge Discovery) 為從大量資料
中選取合適的資料,進行資料處理、轉換等工作,再 進行資料探勘與結果評估的一系列過程
a
20
與決策支援系統的不同點
決策支援系統 (Decision Support System,DSS)
依決策模型或推論規則、提供建議
可以來自於領域專家(Domain Expert)的經驗法則 可運用知識工程(Knowledge Engineering)的技術自
專家腦中擷取 可以用資料探勘技術所分析歸納出來的隱藏規則
資料探勘系統
自動化的資料分析與預測
a
21
與線上分析的不同點
線上分析 (On-Line Analytical Processing,簡稱OLAP)
對制式化、關連性低的資料分析,統計數據供決策人員參考
讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響, 但無法了解顧客的購買行為模式
線上分析處理 多少人曾購買筆記型電腦? 上個月有多少顧客沒有進入網站瀏覽
資料探勘(Data Mining)
a
1
課程特色
理論與實務並重 深入淺出,減少繁雜的學理性探討,著
重觀念及實際應用 以SQL 2005及自行開發之DMAS 2.0作為
實務講解工具 提供教學資源網站
(http://rss.cis.nctu.edu.tw/data-mining)
a
2
內容概要
PART I:基本與進階之資料探勘技術 PART II:資料探勘之深入應用 PART III:軟體工具和專案實作 中英對照表
a
7
運用探勘技術從大量資料中挖掘出資料之 間的關連性以及隱藏的知識,要實現『神 機妙算客服系統』所提供的個人化服務, 並非遙不可及!
企業現階段急需運用資料探勘技術,輔助 決策者在對的時刻做對的決策!
學術界積極培養資料探勘技術應用人才為 當務之急!
a
8
第一章 資料探勘簡介
緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰
Oracle, Sybase, Informix, IBM, Microsoft
傳遞歷史性 的靜態資料
傳遞即時性 的單層次動 態資料
資料倉儲系統 (1990年代)
資料探勘系統 (現代)
“去年北部地區筆記 型電腦的總銷售量是 多少?其中台北市的 銷售量是多少?”
線上分析處理 (OLAP)、多 維度資料模
傳遞歷史性 的多層次動 態資料
Pilot, Lockheed, 傳遞預知
IBM, SGI
的、鑑往知
來的資訊
a
18
資料探勘的演進
專家系統 知識庫系統 決策支援系統
資料探勘 知識 管理決策者
資料倉儲
資訊
資料分析師
資料庫
資料
a
資料操作員
19
第一章 資料探勘簡介
緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰
高效能的多處理器電腦架構
平行處理架構,使大量資料處理能在可容忍的時 間內完成
資料探勘演算法的成熟
包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、 基因演算法( genetic algorithms ) …等等
包含資料的淨化、格式轉換、表格的連結等 前置作業
a
28
資料倉儲的建立
決策支援系統的基礎
含整合資料、詳細資料、總合性 (summarized)資料、歷史性資料、描述資料、 綱要資料
線上分析處理(On-Line Analytical Processing,OLAP) 統計、分析功能 可由關聯式資料庫建構
a
5
第一章 簡介
a
6
王人的5根 她動樓先資公人好備請年據有您大剩電錄對款都銀,不王生料司D因線您的激動我線能床的貨您K總您膝王這所,下話,奇 敝不已行i您適陳我今原先椅G您:電s為對 的 機到可可全烈的們,送和!。開共太關先先個c住而來是您您起因經六-家合奇 姓天價o生應我小想好您話根3那『以以方運效要最到一我不慢速已不 現 的太節v生關合的您的薦喔0生妳8…上可不喔太,刷萬為沒道電做我一e喔喔一送,該剛電 陳,住是9據3的喔…姐神摩自要試位動果先快,座立過一罰喔經的疼r,鍵您起金每房只空喔應把其!1們8…星以是!大要爆七您錯得,y話跑A們萬!! 台 給室沒好先在52g送,!…機椅己試 按 也 , 安 大 如視,服四啊刻,點單被休身醫 痛妳…因字太子購間?該按他1那91o趕,已日…賣期使剛可,請了千元的!這是步剛元請為我號我室我日內收問想跟2什民82o過用那妳妙開剛看摩能而排約果尺?己.請王,了開旅療的購很務千為搜太分買放.臥好…我還摩的37我請3g快…多用用買是我您,八兩你麼您經提2運好,什的碼想老禮內跑妳題買4您6生麼先4l來這信這能算車剛我椅達且司要您不寬好過庫先因!了車1紀毛e元我尋喔過這室物高。手椅夠禮55先5把…證少,…『喔了我的用現百張怎詳問2的動有現麼身是要跑婆物步今超款怎喔按64核路?6吧台台不客過好下們,到您機三等的告吧去房生為1,用3病錄們了。一台有邊送,物。3去7按…錢按!一您興怕臥現在三信細麼34號使做在妳?分訂當步機麼!摩,對8二!!車天過限按能服來新不全自送小不衣!載幫,您張車5,,訴已2卡張按五的過妳?是9領摩呢摩輛按室金還十用?知6用好為特只證購生機4不碼知椅您們一段載摩推系載推必身己貨時及櫃那好您要今超號提提額7經次雙摩坪現來們嗎我錢椅嗎?椅摩會付欠五卡,紀惠賣適道呢,您的下3按椅統出做運也路才,,有我了是連領款囉金吧快?4,』椅放您您?,五?行個號要』自
a
9
資料探勘的目的
「從大量資料中挖掘有價值的資訊,供管 理人員做為決策參考,開創新商業契機」
成功經驗
美國超級市場(Wal-Mart)
銷售資料分析發現,尿布和啤酒常會一起購買, 於是將商品放在一起促銷,得到意想不到的業績 成長
美國銀行 (Bank of America)
從客戶資料中,找出既有客戶申請貸款的時機, 規劃全新行銷方案;該方案推出後,接受率立即 成長兩倍以上
P.S. 書中標示*及**的章節表示選擇性授課單 元,如授課時數有限時,可略過。
a
3
授課計畫(1)
PART I 基本與進階之資料探勘技術
(38hr~40hr)
第一章 簡介(4hr) 第二章資料倉儲(6hr) 第三章 資料前置處理(3hr) 第四章 資料精簡(3hr) 第五章 資料分類法(6hr) 第六章 資料群集分析(6hr) 第七章 關連法則探勘(6hr) 第八章 時間序列分析(4hr~6hr)
a
22
與統計分析的不同點(1)
統計分析(Statistical Analysis)
以假設(Hypothesis)及驗證(Verification)為基礎
對較少資料,資料間的關連性或統計學上不同標的 分析
由具專業專家對統計結果加以檢測
資料探勘
以發現(Discovery)為基礎,著重「樣式辨認」
a
17
資料探勘歷史
演進步驟
目標企業問題
應用技術
系統供應商 系統特性
檔案系統 (1960年代)
資料庫系統 (1970年代)
“2002年12月筆記型 電腦的銷售明細為 何?”
“IBM X31筆記型電 腦目前的售價是多 少?”
電腦、磁帶、磁碟
IBM, CDC
階層式資料庫(hierarchical ] database)、網路式資料庫 (network database)、關聯式 資料庫(relational database)、 結構化查詢語言(SQL) 、開 放性資料庫連結協定(ODBC)
(multidimensional data model)、資料倉儲
(data warehouse)
“明年筆記型電腦的 預估銷售量為何? 為 什麼?”
進階演算法、多處理器電腦 系統、大量資料儲存技術、 人工智慧
Pilot, Comshare, Arbor, Cognos, Microstrategy, Microsoft
Berry & Linoff
使用自動或半自動的方法,對大量資料分析,找出有 意義的關係或法則。
a
15
何謂資料探勘(2)
資料探勘=資料庫之知識發掘(Knowledge
Discovery in Databases,簡稱KDD)
從大型資料庫裡頭所儲存的資料當中去萃取出 一些有趣的知識
「知識」指的就是一些規則 大型資料庫包括線上作業的資料庫 (On-line Database)
a
12
資料探勘的功能
預測未來的趨勢
股市行情預測 天氣預測 地震預測 消費行為預測 商品出貨量預測…等等
找出未知的樣式
找出會購買筆記型電腦的顧客特徵 依消費習性相近的顧客進行群組 推薦鑑別消費者可能會同時購買的商品組合…
等等
a
13
第一章 資料探勘簡介
緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰
a
24
第一章 資料探勘簡介
緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰
a
25
知識發現的過程
使用者
結果展示
樣式評估
知識庫
資料探勘
資料倉儲建立
多維度資料庫
供不具專業背景的使用者(高層決策人員)使用
a
23
與統計分析的不同點(2)
範例
統計分析
女性和男性消費者個別在本月的消費總額 不同網域的消費者在本月的消費總額 不同年齡層的消費者在本月的消費總額等
資料探勘
找出如下的規則: IF 住在台北 AND 性別是男性 AND 年齡介於 37到42歲之間 THEN 購買筆記型電腦的可能性是 85%
商品? 顧客的平均單月消費總金額是多少?
哪些顧客訂單超過三天未付款? 電子報的點閱率多少? 去年的銷售業績統計報表
資料探勘 哪些顧客可能會購買筆記型電腦? 哪些顧客較有可能在未來三個月內不
上站瀏覽商品?
哪些顧客下個月的消費有可能會超過 一萬元?
哪些顧客較有可能延遲付款? 電子報行銷方式對那些會員較有效? 明年預期之銷售業績額度。
a
4
授課計畫(2)
PART II 資料探勘之深入應用 (3hr~11hr)
第九章 網頁資料探勘(3hr) 第十章 網路入侵偵測系統(0hr~4hr) 第十一章 數位學習(0hr~4hr)
PART III軟體工具和專案實作 (4hr~7hr)
第十二章 工具介紹 (3hr~6hr) 第十三章 案例探討-圖書借閱 (1hr)
及資料倉儲 (Data Warehouse)…等等
知識範例
「如果顧客的年齡是在三十歲到四十歲之間,而且 年收入是在四十萬到六十萬之間,那麼此顧客很有 可能會購買筆記型電腦。」
a
16
第一章 資料探勘簡介
緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰
a
10
資料探勘的應用
以類似PC-Home之線上購物商店為例
可獲取之資料
顧客居住地區、年齡、性別、個人資料、交易 紀錄
可進行之資料探勘應用:
建立個人化行銷模式 找出潛在的客戶名單 了解顧客族群的屬性 預測目前哪些顧客可能流失
a
11
資料探勘的興起
歸功三項技術的成熟
大量資料的收集技術:
網路發達、關聯式資料庫(relational database)應用 廣泛、整合技術成熟
資料前置處理
資料庫
資料收集
資料庫
原始資料
a
26
資料收集
知識發現的第一個步驟 原始資料來源
資料庫系統 Excel表格 文字檔 網際網路 問卷調查…等等
a
27
資料前置處理
原因
真實的資料非常雜亂,且收集資料的工具 並沒有做精確的檢查,導致收集到的資料, 並不見得全都可用
資料探勘有80%来自百度文库間花費在前置作業
相关文档
最新文档