数据挖掘ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Classification: predicting an item class Clustering: finding clusters in data Associations: e.g. A & B & C occur frequently
to facilitate human discovery
智能信息处理
32学时
费高雷 fgl@ 电子科技大学 通信与信息工程学院
教师信息
费高雷
电话:61830209 邮箱:fgl@
地址:科研楼B325
研究方向:
网络层析成像 反演理论与方法 复杂多维信息处理
提纲
引言 数据挖掘概念及必要性
DBMS capable of handling bigger DB
举例
Europe's Very Long Baseline Interferometry (VLBI) has 16 telescopes, each of which produces 1 Gigabit/second of astronomical data over a 25-day observation session
Data Mining Tasks: Clustering
salary
cluster
outlier
age
Linear Regression
y (salary) Example of linear regression
Y1
y=x+1
X1
x (age)
Major Data Mining Tasks
Data Mining Tasks: Classification
Learn a method for predicting the instance class from pre-labeled (classified) instances Many approaches: Statistics, Decision Trees, Neural Networks, ...
考试方式:
期中随堂开卷、期末开卷
实验成绩:
结果分析50%、报告50%
课堂讲述、课后完成
Content
1、引言
7、高级模式挖掘(自学)
2、认识数据
3、数据预处理
8、分类:基本概念(重点)
9、分类:高级方法(自学) 10、聚类分析:基本概念和 方法(重点) 11、高级聚类分析(自学)
Classification: Decision Trees
if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue
Y
3
2
5
X
Classification: Neural Nets
Can select more complex regions Can be more accurate Also can overfit the data – find patterns in random noise
7/16
Feature X (e.g., 1st packet size, …)
29
案列:IP网络流量分类(四)
互联网应用类型 BULK DATABASE INTERACTIVE 典型应用 ftp Postgres,sqlnet,oracle,ingress Ssh,klogin,rlogin,telnet
数据挖掘的主要任务
案列分析
Trends leading to Data Flood
More data is generated: Bank, telecom, other business transactions ... Scientific Data: astronomy, biology, etc Web, text, and ecommerce More data is captured: Storage technology faster and cheaper
Growth Trends
Moore’s law
Computer Speed doubles every 18 months
Storage law
total storage doubles every 9 months
very little data will ever be looked at by a human
标是利用计算机技术处理海量复杂信息,研究新
的、先进的理论技术
数据挖掘(Data Mining)智能信息处理
涉及的相关领域
Machine Learning
Visualization
Data Mining
Statistics
Databases
数据挖掘的重要性
Integration Interpretation & Evaluation Knowledge
Knowledge
Raw Data
__ __ __ __ __ __ __ __ __
Patterns and Rules
Understanding
DATA Ware house
Transformed Data Target Data
提纲
引言 数据挖掘概念及必要性
数据挖掘的主要任务
案列分析
数据挖掘的主要任务
案列分析
Teaching Material
数据挖掘:概念与技术(原书第3版)
[美]Jiawei Han ,等 著 范明 ,孟小峰 译 机械工业出版社 特点:大量的图解、实例和练习 参考:第2版
Reference Books
考核方式
成绩构成: 期末70%、期中5%、平时25% (平时 = 实验15% + 考勤10%)
4、数据仓库与联机分析处 理(自学)
5、数据立方体技术 (自学) 12、离群点检测
6、挖掘关联规则(重点)
13、智能信息处理技术前沿
数据挖掘技术不断进步、新方法不断涌现,本课程 注重基本概念和基本方法
开课必要性:工业界的角度
开课必要性:学术的角度
提纲
引言 数据挖掘概念及必要性
?
? ?
?
?
?
Bittorrent
HTTP
?
SMTP
案列:IP网络流量分类(二)
Features
Reacting on application development
案列:IP网络流量分类(三)
Training instances for class A Training instances for class B Testing instances to classify Feature Y
SERVICES WWW P2P ATTACK GAMES MULTIMEDIA
Imap,pop2/3,smtp
X11,dns,ident,ldap,ntp www KaZaA,BiteTorrent,GnuTella Internet worm and virus attacks Half-Life Windows Media Player, Real
storage and analysis a big problem
Walmart reported to have 24 Tera-byte DB
AT&T handles billions of calls per day
data cannot be stored -- analysis is done on the fly
Consequence
Knowledge Discovery is NEEDED to make sense and use of data.
智能信息处理
为适应信息时代信息处理的要求,当前信息处理
技术向智能化发展,广泛的模拟人的智能来处理 各种信息
智能信息处理是计算机科学中的交叉学科,其目
Any Questions?
Estimation: predicting a continuous value Deviation Detection: finding changes Link Analysis: finding relationships …
实验工具
Weka主页: http://www.cs.waikato. /ml/weka/
提纲
引言 数据挖掘概念及必要性
数据挖掘的主要任务
案列分析
案列:IP网络流量异常行为检测
OD OD flow flow I-b I-b
PCA normal signal anomalous
Fri
Sat
Sun
案列:IP网络流量分类(一)
Traffic classification (TC)