数据挖掘ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Classification: predicting an item class Clustering: finding clusters in data Associations: e.g. A & B & C occur frequently

to facilitate human discovery
智能信息处理
32学时
费高雷 fgl@ 电子科技大学 通信与信息工程学院
教师信息

费高雷

电话:61830209 邮箱:fgl@
地址:科研楼B325
研究方向:

网络层析成像 反演理论与方法 复杂多维信息处理
提纲

引言 数据挖掘概念及必要性

DBMS capable of handling bigger DB
举例

Europe's Very Long Baseline Interferometry (VLBI) has 16 telescopes, each of which produces 1 Gigabit/second of astronomical data over a 25-day observation session
Data Mining Tasks: Clustering
salary
cluster
outlier
age
Linear Regression
y (salary) Example of linear regression
Y1
y=x+1
X1
x (age)
Major Data Mining Tasks
Data Mining Tasks: Classification
Learn a method for predicting the instance class from pre-labeled (classified) instances Many approaches: Statistics, Decision Trees, Neural Networks, ...

考试方式:
期中随堂开卷、期末开卷

实验成绩:
结果分析50%、报告50%
课堂讲述、课后完成
Content

1、引言

7、高级模式挖掘(自学)


2、认识数据
3、数据预处理


8、分类:基本概念(重点)
9、分类:高级方法(自学) 10、聚类分析:基本概念和 方法(重点) 11、高级聚类分析(自学)
Classification: Decision Trees
if X > 5 then blue else if Y > 3 then blue else if X > 2 then green else blue
Y
3
2
5
X
Classification: Neural Nets



Can select more complex regions Can be more accurate Also can overfit the data – find patterns in random noise
7/16
Feature X (e.g., 1st packet size, …)
29
案列:IP网络流量分类(四)
互联网应用类型 BULK DATABASE INTERACTIVE 典型应用 ftp Postgres,sqlnet,oracle,ingress Ssh,klogin,rlogin,telnet


数据挖掘的主要任务
案列分析
Trends leading to Data Flood


More data is generated: Bank, telecom, other business transactions ... Scientific Data: astronomy, biology, etc Web, text, and ecommerce More data is captured: Storage technology faster and cheaper
Growth Trends

Moore’s law

Computer Speed doubles every 18 months

Storage law

total storage doubles every 9 months
very little data will ever be looked at by a human
标是利用计算机技术处理海量复杂信息,研究新
的、先进的理论技术
数据挖掘(Data Mining)智能信息处理
涉及的相关领域
Machine Learning
Visualization
Data Mining
Statistics
Databases
数据挖掘的重要性
Integration Interpretation & Evaluation Knowledge
Knowledge
Raw Data
__ __ __ __ __ __ __ __ __
Patterns and Rules
Understanding
DATA Ware house
Transformed Data Target Data
提纲

引言 数据挖掘概念及必要性


数据挖掘的主要任务
案列分析


数据挖掘的主要任务
案列分析
Teaching Material

数据挖掘:概念与技术(原书第3版)

[美]Jiawei Han ,等 著 范明 ,孟小峰 译 机械工业出版社 特点:大量的图解、实例和练习 参考:第2版
Reference Books
考核方式

成绩构成: 期末70%、期中5%、平时25% (平时 = 实验15% + 考勤10%)
4、数据仓库与联机分析处 理(自学)


5、数据立方体技术 (自学) 12、离群点检测

6、挖掘关联规则(重点)

13、智能信息处理技术前沿
数据挖掘技术不断进步、新方法不断涌现,本课程 注重基本概念和基本方法
开课必要性:工业界的角度
开课必要性:学术的角度
提纲

引言 数据挖掘概念及必要性
?
? ?
?
?
?
Bittorrent
HTTP
?
SMTP
案列:IP网络流量分类(二)

Features

Reacting on application development
案列:IP网络流量分类(三)
Training instances for class A Training instances for class B Testing instances to classify Feature Y
MAIL
SERVICES WWW P2P ATTACK GAMES MULTIMEDIA
Imap,pop2/3,smtp
X11,dns,ident,ldap,ntp www KaZaA,BiteTorrent,GnuTella Internet worm and virus attacks Half-Life Windows Media Player, Real

storage and analysis a big problem

Walmart reported to have 24 Tera-byte DB

AT&T handles billions of calls per day

data cannot be stored -- analysis is done on the fly

Consequence


Knowledge Discovery is NEEDED to make sense and use of data.
智能信息处理

为适应信息时代信息处理的要求,当前信息处理
技术向智能化发展,广泛的模拟人的智能来处理 各种信息

智能信息处理是计算机科学中的交叉学科,其目
Any Questions?
Estimation: predicting a continuous value Deviation Detection: finding changes Link Analysis: finding relationships …
实验工具

Weka主页: http://www.cs.waikato. /ml/weka/
提纲

引言 数据挖掘概念及必要性


数据挖掘的主要任务
案列分析
案列:IP网络流量异常行为检测
OD OD flow flow I-b I-b
PCA normal signal anomalous
Fri
Sat
Sun
案列:IP网络流量分类(一)

Traffic classification (TC)
相关文档
最新文档