数据挖掘软件clementine中文教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基本功能—自動配置
基本功能—加入節點註解
▪ 加入註解,滑 鼠游標移過去 就可以看到註 解。
基本功能—超級節點
基本功能—超級節點
CRISP-DM 中的Clementine功能
Clementine中文版在商業理解(I)提供的
功能
▪ 把計畫、專業術語相關檔案直接存放在專案中, 任何使用 Clementine 7.2 中文版的人員都可以 隨時輕鬆查閱。
工作環境—用串流方式呈現
▪ 上使用者在工作區自由發揮,利用豐富的工具 ,設計出最符合實際需要的流程。彈性大、自 由度高。
工作環境— Windows 作業環境
▪ 配合基本的 windows功能如剪 貼、滑鼠拖曳、右 鍵功能表、鍵盤快 速鍵直接操作等, 讓熟悉windows的 使用者可以馬上上 手。
▪ 也可以從檔案、資料庫中存取資料 ▪ 資料倉儲提供的資料量更足夠 ▪ 從多種資料檔或資料庫中取出檔案可能遭遇格式不 ▪ 符不一致的問題,要多花時間在整合上,若有資料 ▪ 倉儲,可以省去不少麻煩。
資料採礦的定位
Business Value
Measurement
Prediction (future)
▪ 配合資料倉儲
CRISP-DM 標準流程
▪ Cross-Industry Standard Process for Data Mining ▪ SPSS 和 NCR 在 1996 年為克萊斯勒做資料採礦時
訂出的一套標準程序,並參加了專家意見修訂,目前 版本為1.0
1. 商業理解 (Business Understanding) 2. 資料理解 (Data Understanding) 3. 資料預備 (Data Preparation) 4. 塑模 (Modeling) 5. 評估 (Evaluation) 6. 部署(或佈署) (Deployment)
研討會內容
二 Clementine中文版功能說明
▪ Clementine的工作環境及其方便容易的操作能力
▪ 完全中文化的介面 ▪ 和CRISP-DM的結合 ▪ 協助整理串流跟輸出的管理員 ▪ 用串流方式做資料採礦 ▪ 超級節點
研討會內容
二 Clementine中文版功能說明
▪ 對應CRISP-DM,Clementine有哪些功能
(一) Clementine 在商業理解階段提供的功能 (二) Clementine 在資料理解階段提供的功能 (三) Clementine 在資料預備階段提供的功能 (四) Clementine 在塑模階段提供的功能 (五) Clementine 在評估階段提供的功能 (六) Clementine 在部署階段提供的功能
資料採礦的秘辛
Data Mining 是什麼?
▪ Data Mining是從資料中找出有用珍貴知識的一個過程
▪ 許多技術知識的融合(統計、人工智慧、未來的基因
演算法…等),並非一個演何謂算珍法貴就?可以解決何全謂過部程問?題

將沈睡的資料 中的資訊轉變增加銷售
為活的知識 ,交叉銷售
警察資找料出罪W犯 h y W h o
▪ 可將各種檔案及流程圖分門別類 整理在六個CRISP-DM步驟的資 料夾中,方便任何使用人員隨時 存取。
▪ 很清楚所做過的流程,有架構不 紊亂。即使非原始的建立者也可 以迅速進入狀況。
▪ 也可依自己需求增減資料夾
工作環境—管理員
▪ Clementine會自動將所有流程放在「串列」區 ,跑出的圖表放在「輸出」區,建立的模型則 放在「模型」區,隨時可以點選不用重跑一遍 。且這些結果都可儲存保留。
1. Business Understanding
▪ 了解企業方針及要解決的問題何在 ▪ 訂定 Data Mining 計畫
2. Data Understanding
▪ 收集初步資料 ▪ 簡單了解資料 ▪ 確認資料品質
3. Data Preparation
▪ 資料清理、整合 ▪ 格式設定,為下一步建立模型做準備
OLAP
▪ On-Line Analytical Process
▪ 對手邊資料的多維度 呈現,無法呈現隱藏 行為模式
▪ 對現有資料的分析
Data Mining ▪ 包括對手邊資料的呈
現,以及OLAP無法 呈現的隱藏行為模式 ▪ 除了分析過去資料, 也可以預測未來
Data Mining 和資料倉儲的關係
▪ 何謂資料倉儲 (Data Warehousing)?
▪ 將現有資料、歷史資料、外部資料等經過有系統的整合,把 資料選取、分類、轉換達到最佳化後,融入一個設計好的關 連式資料庫中,以利資料分析者存取,大量改進效率。
▪ Data Mining 及 OLAP 都是由資料倉儲中取出資料分析
▪ Data mining 為何要從資料倉儲開始?
(historical)
這些流失客
Real-time
我們流失了戶是位於哪
Personalization
多少客戶? 個地區? Data Mining
Query & Reporting
OLAP
我們應該即時 提供這位客戶 哪些是高風險 什麼服務? 客戶以及原因 是?
From SPSS White Paper
Time
Data Mining 的方法
▪ ▪ ▪ ▪ ▪
Classification Clustering Estimation Prediction Market Basket
A分na類ly跟相sCi相估相KK關迴等s&兩-o群非性把採關計關M等歸等技Rh推和為用再步To預和是既果銀給集監質顧用分目數信「卡購找超起決e技的等技術描增視樹估分連分推na驟督類客不測分預有行多類標)用偽的物出級購策en術所術述進覺等類續類估nLs式似資同類測資新少變為卡卡模籃哪市買樹有o對化的值判會相g,的料推推未料申額數類公」式分些場啤類方於呈(i不,斷貸關等sC未資分銷估來建請度(別司「析事發酒神t法資現5i同常為款技等c相.知料群手類,立信依的將非件現跟經0料,A迴在和會的術關Gp有加對法似將的用變狀既偽會男尿C的或歸r於分貸金R技&i幾以不,新模卡數況有卡一性布o認規IR目類款額r術i類區同不資型的、資」起客T識則標配客),隔群同料預客反料找發戶,、變合戶將體在帶測戶應分出生會圖決數後於入結要變為偽一形策,
撰寫的時間
資料預備(III)—列處理(選取)
資料預備(III)—列處—列處理(整合)
資料預備(III)—列處理(合併)
資料預備(III)—行處理(類型)
資料預備(III)—行處理(過濾器)
資料預備(III)—行處理(導出)
怎樣才能做好 Data Mining
▪ Process
▪ 符合 Data Mining 的程序,如 CRISP-DM
▪ Environment
▪ 企業組織內部要有共識 ▪ 從管理階層、資訊部門、行銷企劃單位、基層執行單
位等都要能分工合作
▪ Tools
▪ 好的 Data Mining 工 具才能讓Data Mining 發揮功效
資料預備(III)—行處理(填入器)
資料預備(III)—行處理(設成旗標)
資料預備(III)—自動產生複雜節點
資料預備(III)—其他功能
▪ 此外,資料預備階段還有提供以下功能:
▪ 合併- 將這個月與下個月記錄合併 ▪ 排序- 將資料根據某些欄位排序 ▪ 整體- 將某個變數的值(最大值、平均數等)設定
▪ 兩個連續變 數的分佈。
資料理解(II)—散佈圖
▪ 也可以用 散佈圖畫 類別變數
資料理解(II)—分佈圖
▪ 類別變數的分佈狀況
資料理解(II)—關聯網
▪ 類別變 數間的 關聯
CRISP-DM 中的Clementine功能
Clementine中文版在資料預備(III)提供
的功能
▪ 列處理功能 ▪ 行處理功能 ▪ 設定全域變數供其他節點使用 ▪ 透過圖形產生衍生變數,省去自己
商業理解(I)—外部檔案
▪ 把術語對照表、計畫專案 文件等放入專案中,任何 計畫參與者都可以隨時隨 地開啟這些檔案查詢閱覽 。
CRISP-DM 中的Clementine功能
Clementine中文版在資料理解(II)提供
的功能
▪ 各式各樣的前端資料輸入 ▪ 統計敘述、表格、標記、檢查遺漏狀況 ▪ 豐富的圖形種類 ▪ 圖形多變化,依照所需呈現資料
發現需求oltp記憶偏好databasedataminingclementinecrmclementinecrm了解客戶client操作型crmoperationalcrm分析型crmanalyticalcrm分析測量預測並最佳化客戶關係具有智慧型判斷能力了解客户datamining是crm的核心clementinecrmclementinecrm潛在客戶分析customeracquisition顧客區隔customersegmentation詐欺分析frauddetection風險評估riskanalysis顧客挽留customerretention瀏覽行為分析政府機構員工流失管理犯罪偵測零售業良率分析製程改善需求預測病人流失管理潛在新病人分析病人屬性區隔生命科學基因抗藥反應分析基因序列分析藥物區隔分析客戶流失管理目標客戶分析多通路行為管理信用卡冒用偵測維持顧客模型詐欺理賠分析crispdmclementinecrispdmcrispdmclementinecrispdmcrispdmcrossindustrystandardprocessdm專案目標檔資料理解exploringstreamspreparingstreamsmodelingstreams部署應用deployingstreamscrispdmcrispdm況協助了解專案目標crispdmcrispdmclementineiicrispdmcrispdmclementineiii產生衍生性變數並檢整合總結排序資料並修改欄名稱料以提供模型建置使用crispdmcrispdmclementineiv設計混合式模型提昇模型效果crispdmcrispdm利用評估圖衡量模型效益crispdmcrispdmclementinevi結合clementinesolutionpublisher發佈解決方案dataminingcrmdataminingcrm掌握目標客戶profitaccount提高荷包佔有率walletsharespssclementinespssclementinemay2003kdnuggetsdataminingtoolsyouregularlyuse?符合crispdm所訂定的標準化流程windows為使用者介面與具有中文處理能力?強大的資料整合能力?處理大量資料的執行效能?具有豐富可靠的modelingtechniques?建立混合式模型
,有需要時可以 往回
Clementine 中文版
功能介紹
現代淘金者 的最佳資料採礦工具
工作環境—完全中文化
工作環境—介面介紹
串流工作區:實際上用來建 構DM流程的所有的動作、
設定…的區域
節點調色版:不同的 node代表不同功能的工 具,不同的活頁代表 不同的DM 流程的工具 集合
操作管理區:管 理操作時期產生 的stream, 輸出, 模型
塑模(IV)—Kohonen
塑模(IV)—K-Means
塑模(IV)—類神經網路
塑模(IV)—C5.0
塑模(IV)—Logistic 迴歸
塑模(IV)—主成分/因子
塑模(IV)—混合式模型
CRISP-DM 中的Clementine功能
Clementine中文版在評估(V)提供的功
進而成為決策減少流失
的智慧
降低成本
醫國學稅資找局訊出找疾逃WW病稅 hhaetreWHhoewn
忠誠的客戶
知識
為什麼要做 Data Mining?
▪ 競爭日益劇烈,了解客戶需求才能佔有優勢 ▪ 過去及現在和客戶互動方式的改變
過去 互動單純 直接了解客戶 個人化需求
現在 互動複雜 難直接了解客 戶個人化需求 電子化
資料理解(II)—讀取資料
資料理解(II)—檢視資料
▪ 利用表格節點 ,可以隨時看 見資料在串流 中任何步驟的 狀況。
資料理解(II)—檢視資料
資料理解(II)—檢視資料
資料理解(II)—檢視資料
資料理解(II)—檢視資料
資料理解(II)—直方圖
▪ 連續變數的 分佈。
資料理解(II)—散佈圖
▪ Description
相關技術
等等
決策樹規則
各類圖表
等等
Data Mining 的其他特徵
▪ Interactive 互動性 ▪ Automation 電腦自動化 ▪ Continuing 連續性,是動態的 ▪ 團隊分工合作 ▪ 具有決策功能,使企業組織創新、再造 ▪ 目標:一對一個人化(Personalize)
4. Modeling
▪ 選定要建立的模型 ▪ 用上一步驟的資料建立模型並測試
5. Evaluation
▪ 評估模型及回顧整個過程 ▪ 決定是否進入下一階段
6. Deployment
▪ 計畫要怎麼部署 ▪ 監控部署過程 ▪ 產出報告並檢討
CRISP-DM 流程圖
▪ 以資料為中心 ▪ 不斷循環 ▪ 不是從頭做到尾
專案管理區: 以DM專案的角 度來管理stream, 輸出, 模型
工作環境—專案管理
▪ 一個專案可以包括多個串流 、圖表、各種外部檔案,全 部可以利用右下角的專案管 理員整理起來。
▪ 優點:不用每次都去找要用 的檔案跟相關串流,直接開 啟專案,所有相關物件都會 出現在專案管理員中。
工作環境—配合CRISP-DM流程
資料採礦在CRM的應用
SPSS Clementine 中文版
研討會內容
一 資料採礦的秘辛
▪ 資料採礦觀念
▪ 資料採礦到底是什麼?為什麼要做資料採礦? ▪ Data Mining 和統計及OLAP有什麼不同? ▪ Data Mining 和 Data Warehousing 的關係 ▪ Data Mining 的方法與特徵 ▪ 怎麼做好Data Mining? ▪ 何謂CRISP-DM及其重要性
Data Mining 和統計不同?
統計
▪ 先假設再檢定 ▪ 母體參數未知 ▪ 資料量不可太大
Data Mining
▪ 沒有事先假設 ▪ 多數狀況下母體參數已知 ▪ 資料量越大越好,小資料也
可以挖只是較不可靠 ▪ 融合各種知識,包括統計、
Machine Learning、人工智 慧、基因等
Data Mining 和 OLAP 不同?
為global變數。 ▪ 歷史- 用於時間序列資料 ▪ 等等
CRISP-DM 中的Clementine功能
Clementine中文版在塑模(IV)提供的功能
▪ 多種群集、分類、預測、關聯規則模型 ▪ 分類樹一覽無遺的瀏覽器 ▪ 詳盡的統計報表 ▪ 將預測結果隨心所欲呈現 ▪ 混合式模型一點也不難
塑模(IV)—關聯規則
相关文档
最新文档