Data Mining Concepts and Techniques second edition 数据挖掘概念与技术 第二版 韩家炜 第八章03.PPT
数据挖掘课件汇总
发现知识的使用
有些人将数据挖掘视为数据库中知识发现的一 个基本步骤,如图
Data
mining: 知识 发现过程的核心过 程.
Task-relevant Data Data Warehouse
Pattern Evaluation
Data Mining
Selection
Data Cleaning Data Integration Databases
天文学
类星体
Web应用
通过分析web访问日志,发现客户的偏好和行为模式,
分析网上市场的效果,改进网站的组织。
Data Mining: Concepts and Techniques
一些具体例子
Data Mining: Concepts and Techniques
一些具体例子
例1:医生给一个病人看病(模式识别的完 整过程)。 测量病人的体温和血压,化验血沉,询问 临床表现; 通过综合分析,抓住主要病症; 医生运用自己的知识,根据主要病症,作 出正确的诊断。
Data Mining: Concepts and Techniques
典型数据挖掘系统的结构
Graphical user interface
Pattern evaluation Data mining engine
Database or data warehouse server
Data cleaning & data integration
发现有用特征, 维和变量约简.转化成适合挖掘的形式 摘要, 分类, regression(回归), 关联, 聚类.
数据挖掘功能选择
数据预处理 数据与统计
4
Chapter 3: Data Preprocessing
Data Preprocessing: An Overview Data Quality Major Tasks in Data Preprocessing
e.g., Occupation=“ ” (missing data)
noisy: containing noise, errors, or outliers
e.g., Salary=“−10” (an error)
inconsistent: containing discrepancies in codes or names, e.g.,
Data migration and integration Data migration tools: allow transformations to be specified ETL (Extraction/Transformation/Loading) tools: allow users to specify transformations through a graphical user interface
9
How to Handle Noisy Data?
Binning first sort data and partition into (equal-frequency) bins then one can smooth by bin means, smooth by bin median, smooth by bin boundaries, etc.
数据采集和营销工具(英文版)
Motivations for DM
Abundance of business and industry data
Competitive focus - Ke, powerful computing engines
Strong theoretical/mathematical foundations
1. Decision Trees and Fraud Detection
2. Association Rules and Market Basket Analysis 3. Clustering and Customer Segmentation
3. Trends in technology
1. Knowledge Discovery Support Environment 2. Tools, Languages and Systems
Provide a systematization to the many many concepts around this area, according the following lines
the process the methods applied to paradigmatic cases the support environment the research challenges
1970s:
Relational data model, relational DBMS implementation.
1980s:
RDBMS, advanced data models (extended-relational, OO, deductive, etc.) and application-oriented DBMS (spatial, scientific, engineering, etc.).
数据挖掘概念与技术_课后题答案
数据挖掘概念与技术_课后题答案数据挖掘⼀⼀概念概念与技术Data MiningConcepts andTechniques习题答案第1章引⾔1.1什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给岀每种数据挖掘功能的例⼦。
解答:特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提岀,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA: Grade point aversge)的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA的学⽣的⼀般特性可被⽤来与具有低GPA的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:major(X, Computi ng scie nee” S own s(X, personalcomputer ” [support=12%, confid en ce=98%]其中,X是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12% (⽀持度)主修计算机科学并且拥有⼀台个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98% (置信度,或确定度)。
分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或功能),⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
数据挖掘概念与技术原书第3版课后练习题含答案
数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。
本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。
答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。
对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。
如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。
韩家炜数据挖掘讲座PPT03
2
Chapter 3: Data Warehousing and OLAP Technology: An Overview
What is a data warehouse?
A multi-dimensional data model
Data warehouse architecture
Data warehouse implementation From data warehousing to data mining
and stored in warehouses for direct query and analysis
July 31, 2013 Data Mining: Concepts and Techniques 9
Data Warehouse vs. Operational DBMS
OLTP (on-line transaction processing)
the organization’s operational database Support information processing by providing a solid platform of
consolidated, historical data for analysis.
“A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s
decision-making process.”—W. H. Inmon
Data Mining:Concepts and Techniques
Types of Outliers (I)
Three kinds: global, contextual and collective outliers Global Outlier Global outlier (or point anomaly) Object is Og if it significantly deviates from the rest of the data set Ex. Intrusion detection in computer networks Issue: Find an appropriate measurement of deviation Contextual outlier (or conditional outlier) Object is Oc if it deviates significantly based on a selected context o Ex. 80 F in Urbana: outlier? (depending on summer or winter?) Attributes of data objects should be divided into two groups Contextual attributes: defines the context, e.g., time & location Behavioral attributes: characteristics of the object, used in outlier evaluation, e.g., temperature Can be viewed as a generalization of local outliers—whose density significantly deviates from its local area Issue: How to define or formulate meaningful context?
第二十一章 形式化建模与验证
1
21.1 净室策略
净室方法使用第2章所介绍的增量过程模型的专 业版。一个“软件增量的流水线”[Lin94b]由若干小 的、独立的软件团队开发。每当一个软件增量通过认 证,它就被集成到整体系统中。因此,系统的功能随 时间增加。
增量1 RG
BSS
FD
CV
TP
CG
CI
SUT
C
增量2 SE RG BSS FD CV TP BSS FD CV TP 净室过程模型
清晰盒包含了对状态盒的过程设计。
2014年12月11日星期四
Data Mining: Concepts and Techniques
6
CB1.1.1.1 BB1.1.1 SB1.1.1 CB1.1.1.2
BB1.1 BB1
BB1.2
BB1.1.2 BB1.1.3
CB1.1.1.3
BB1.n
盒结构求精
2014年12月11日星期四 Data Mining: Concepts and Techniques 14
Cont:[y2≤x]
y=y+1
21.4 净室测试
传统的测试方法导出一组测试用例,以发现设计和编码
错误;净室测试的目的是通过证明用例的统计样本的成 功运行来确认软件需求。
2014年12月11日星期四
得多,这种严格需要更多的工作量,单从一致性和完整性 的提高方面得到的好处在很多类型的应用中得到证明。
2014年12月11日星期四
Data Mining: Concepts and Techniques
24
21.7
形式化规格说明语言
形式化规格说明语言通常由3个主要成分构成:
大数据与交通管理有关的参考文献
大数据与交通管理有关的参考文献以下是一些与大数据和交通管理相关的参考文献:1.Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Morgan Kaufmann.-这本书介绍了数据挖掘的基本概念和技术,包括与大数据相关的内容,可用于理解和应用于交通管理中的数据挖掘技术。
2.Chen, C., & Zhang, C. (2014). Data-intensive computing: architectures, algorithms, and applications. CRC Press.-该书介绍了数据密集型计算的架构、算法和应用,包括大数据处理和分析等相关内容,可用于了解大数据在交通管理中的应用。
3.Zheng, Y., & Zhou, X. (2015). Big data for transportation: towarda future transportation ecosystem. Springer.-本书探讨了大数据在交通领域的应用和发展趋势,包括交通流量预测、交通拥堵管理、智能交通等方面的研究和案例。
4.Silva, C., Moura, F., & Ferreira, J. (2017). Big data analytics for traffic and transportation management. Springer.-这本书详细介绍了大数据分析在交通和运输管理中的应用,包括交通流量预测、交通拥堵管理、智能交通系统等方面的研究和实践。
5.Abdi, H. (2016). Big data in transportation research: opportunities, challenges, and realities. Transportation Research Part C: Emerging Technologies, 68, 285-299.-这篇论文提出了大数据在交通研究中的机遇、挑战和现实问题,并讨论了数据采集、处理和分析等方面的关键问题。
数据关联方法的新应用
数据关联方法的新应用在信息时代,数据扮演着重要的角色,它们通常以分散的形式存在于各个系统中。
为了理解这些数据之间的关系,我们需要一种有效的数据关联方法。
数据关联方法是指通过将不同数据源中的相关数据联系起来,从而揭示数据之间潜在的关联和模式的技术。
过去,数据关联方法主要用于数据挖掘、商业智能和市场分析等领域。
然而,随着技术的发展和创新的推动,数据关联方法的应用正在不断扩展和深化。
在本文中,我们将探讨数据关联方法的新应用,并展示其在不同领域的广泛应用。
1. 数据科学领域在数据科学领域,数据关联方法被广泛用于预测建模和模式识别。
通过分析和关联不同数据集中的特征和变量,我们可以构建准确的预测模型和识别隐藏模式的算法。
在金融领域,数据关联方法被用于预测股票价格和市场趋势。
而在医疗领域,数据关联方法被用于预测疾病的发展和评估患者的风险。
2. 智能交通领域随着城市交通的日益复杂化,数据关联方法在智能交通领域有着重要的应用。
通过关联车辆传感器、交通摄像头和交通信号系统等数据源,我们可以实现实时交通监测、拥堵预测和优化交通流量的目标。
这些应用可以提高交通效率,减少能源消耗,并改善城市生活质量。
3. 社交媒体分析社交媒体是一个巨大的数据源,其中包含着大量用户的行为和观点数据。
通过数据关联方法,我们可以分析用户之间的关系和社交网络的结构,从而揭示人们的兴趣、情感和行为模式。
这些分析可以帮助企业进行精准的市场定位和产品推广,也可以帮助政府监测公众舆论和社会趋势。
4. 自然语言处理在自然语言处理领域,数据关联方法可以用于构建文本关联和语义理解的模型。
通过关联不同文本数据集中的词汇、语法和语义信息,我们可以识别文本之间的关联性和情感倾向。
这些模型可以应用于文本分类、信息检索和机器翻译等任务,从而提高文本处理的准确性和效率。
总结回顾:数据关联方法是一种用于揭示数据之间关系和模式的技术。
在数据科学领域,它被广泛用于预测建模和模式识别。
有关异常值处理的书
有关异常值处理的书异常值处理是数据分析和统计学中的重要内容,涉及到检测和处理数据中的异常或离群值。
以下是一些与异常值处理相关的书籍,它们可以帮助你深入了解异常值的概念、检测方法和处理技术:1. "统计学习方法"(Pattern Recognition and Machine Learning)作者:Christopher M. Bishop这本书是机器学习领域的经典教材,其中涉及异常值检测和处理在机器学习中的应用。
2. "数据挖掘:概念与技术"(Data Mining: Concepts and Techniques)作者:Jiawei Han,Micheline Kamber,Jian Pei这本书介绍了数据挖掘的基本概念和技术,其中包括异常值检测和处理的方法。
3. "数据分析导论"(Introduction to Data Mining)作者:Pang-Ning Tan,Michael Steinbach,Vipin Kumar这是一本数据挖掘和数据分析的入门教材,涵盖了异常值检测和处理的内容。
4. "Applied Multivariate Statistical Analysis"作者:Richard A. Johnson,Dean W. Wichern这本书着重介绍多元统计分析的方法,其中包括处理多元数据中的异常值问题。
5. "R语言实战"(R in Action: Data Analysis and Graphics with R)作者:Robert I. Kabacoff这是一本关于使用R语言进行数据分析和可视化的实战教材,其中包括异常值处理的内容。
6. "Outliers in Statistical Data"作者:Vic Barnett,Terry Lewis这本书是关于统计数据中异常值的经典著作,深入讨论了异常值检测和处理的方法和理论。
聚类分析
8
高维性(high dimensionality)
许多聚类算法擅长处理低维的数据, 可能只涉及两到三维 数据库或者数据仓库可能包含若干维或者属性, 数据可能非常稀 疏, 而且高度偏斜 现实世界的应用可能需要在各种约束条件下进行聚类 要找到既满足特定的约束, 又具有良好聚类特性的数据分组是一 项具有挑战性的任务 用户希望聚类结果是可解释的, 可理解的, 和可用的 聚类可能需要和特定的语义解释和应用相联系
Data Mining: Concepts and Techniques 5
2017/3/10
什么是好的聚类方法?
一个好的聚类方法应当产生高质量的聚类
类内相似性高 类间相似性低
聚类结果的质量依赖于方法所使用的相似性度量和它的 实现. 聚类方法的质量也用它发现某些或全部隐藏的模式的能 力来度量
经济学(特别指市场研究) WWW Document classification
对web日志数据进行聚类以发现相似访问模式组
Data Mining: Concepts and Techniques 4
2017/3/10
应用举例
在商务上:帮助市场分析人员从客户基本库中发现 不同的客户群,并且用购买模式来刻画不同的客户 群的特征 土地使用:在一个地球观测数据库中识别相似土地 使用的地区 在保险业上:汽车保险单持有者的分组 城市规划:房子的类型,价值和地理分布来识别房 子组 生物学上:用于推导植物和动物的分类,对基因进 行分类
2017/3/10
Data Mining: Concepts and Techniques
6
数据挖掘对聚类的要求
数据挖掘数据预处理 Data Preprocessing
Data dispersion characteristics
Numerical dimensions correspond to sorted intervals
2013年8月14日星期三
Data Mining: Concepts and Techniques
10
Measuring the Central Tendency
Mean (algebraic measure) (sample vs. population):
Weighted arithmetic mean:
13
Measuring the Dispersion of Data
Quartiles, outliers and boxplots
Quartiles: Q1 (25th percentile), Q3 (75th percentile)
Inter-quartile range: IQR = Q3 – Q1 Five number summary: min, Q1, M, Q3, max Boxplot: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually Outlier: usually, a value higher/lower than 1.5 x IQR
数据挖掘概念与技术
数据挖掘概念与技术英文原书名: Data Mining:Concepts and Techniques作者: (加)Jiawei Han Micheline Kamber译者: 范明孟小峰等译书号: 7-111-09048-9出版社: 机械工业出版社出版日期: 2001-8-1页码: 374定价: ¥39.00"数据挖掘"(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是由于企业数据库的广泛使用,存在大量的数据,并且迫切需要从这些数据中获取有用的信息的知识。
获取的信息和知识有广泛的应用,例如:商务管理、生产管理、市场控制、市场分析、工程设计和科学探索等。
越来越多的IT企业看到了这一诱人的市场,纷纷加入到数据挖掘工具的开发中来,并获得丰厚的回报。
例如微软公司在它的最新的关系数据库系统SQL Server 2000加入了先进的数据挖掘功能,在基于NT的数据库软件市场中打败了Oracle公司,成为销售额最大的产品。
又如IBM公司发布了一项新型的基于标准的数据挖掘技术--IBMDB2智能挖掘器积分服务(IBM DB2 Intelligent Miner Scoring Service),它可以帮助企业轻松地为自己的客户和供应商开发出个性化的解决方案。
从种种迹象表明,数据挖掘这一研究领域的发展充满了机遇和挑战。
《数据挖掘:概念与技术》一书从数据库专业人员的角度,全面深入地介绍了数据挖掘原理和在大型企业数据库中知识发现的方法。
该书首先用浅显的语言介绍了数据挖掘的概念、数据挖掘系统的基本结构、数据挖掘系统的分类等,逐渐地把读者领入该领域,这一点做得非常好。
作者接着便全面而详细的介绍了数据挖掘技术,其中还包括了当前的最新进展。
data mining
?
Parsing
Choose most likely parse tree…
Probabilistic CFG
S NP VP NP Det BNP NP BNP NP NP PP BNP N VP V VP Aux V NP VP VP PP PP P NP
6
(Taken from ChengXiang Zhai, CS 397cxz – Fall 2003) 3/15/2015 Data Mining: Principles and Algorithms
General NLP—Too Difficult!
Word-level ambiguity “design” can be a noun or a verb (Ambiguous POS) “root” has multiple meanings (Ambiguous sense) Syntactic ambiguity “natural language processing” (Modification) “A man saw a boy with a telescope.” (PP Attachment) Anaphora resolution “John persuaded Bill to buy a TV for himself.” (himself = John or Bill?) Presupposition “He has quit smoking.” implies that he smoked before.
(HMM) (Adapted from ChengXiang Zhai, CS 397cxz Fall 2003) 3/15/2015 Data–Mining: Principles and Algorithms
DataMiningConceptsandTechniques
November 4, 2019
3
Introduction
Motivation: Why data mining? What is data mining? Data Mining: On what kind of data? Data mining functionality Are all the patterns interesting? Classification of data mining systems Major issues in data mining
1970s:
Relational data model, relational DBMS implementation
1980s:
RDBMS, advanced data models (extended-relational, OO, deductive, etc.) and application-oriented DBMS (spatial, scientific, engineering, etc.)
Identifying customer requirements
identify best products for different customers, predict factors to attract new customers
November 4, 2019
9
Other Applications
November 4, 2019
10
Data Mining: A KDD Process
Pattern Evaluation
Data mining: the core of
knowledge discovery
数据挖掘第一章
CS512 Coverage (Chapters 11, 12, 13 + More Advanced Topics)
Cluster Analysis: Advanced Methods (Chapter 11) Outlier Analysis (Chapter 12) Mining data streams, time-series, and sequence data Mining graph data Mining social and information networks Mining object, spatial, multimedia, text and Web data Mining complex data objects Spatial and spatiotemporal data mining Multimedia data mining Text and Web mining Additional (often current) themes if time permits
Database Systems:
Text information systems
Bioinformatics
Yahoo!-DAIS seminar (CS591DAIS—Fall and Spring. 1 credit unit)
2
CS412 Coverage (Chapters 1-10, 3rd Ed.)
Summary
7
Why Data Mining?
Tfrom terabytes to petabytes
数据库系统概论参考文献
数据库系统概论参考文献数据库系统概论是计算机科学与技术专业的一门重要课程,本文将介绍一些经典的参考文献,以帮助读者更好地理解数据库系统的基本概念、原理和技术。
1. 《数据库系统概念》(Fundamentals of Database Systems)该书是数据库系统领域的经典教材,由Ramez Elmasri和Shamkant B. Navathe等人编著。
本书系统地介绍了数据库系统的基本概念、数据库模型、数据模型的设计和应用、数据库语言和接口等内容。
本书内容详实,适合作为课程教材使用,也适合作为数据库系统的入门参考书阅读。
2. 《数据库系统概论》(An Introduction to Database Systems)该书由C.J. Date编写。
本书详细介绍了关系数据库的基本原理和技术,包括关系数据模型、关系代数与关系演算、关系规范化理论、事务与并发控制、数据完整性与一致性等内容。
本书深入浅出地阐述了关系数据库的基本概念和操作原理,是数据库系统的经典入门教材。
3. 《数据库系统概论》(Database System Concepts)该书由Silberschatz,Korth和Sudarshan编写。
本书是数据库课程的标准教材之一,旨在让读者全面了解数据库系统的核心概念和技术。
该书包括数据库设计、关系代数与关系演算、SQL语言、查询处理与优化、事务与并发控制、数据库安全与完整性等内容,并通过实际案例和练习来帮助读者深入理解数据库系统。
4. 《数据库原理与应用》(Database Principles and Applications)该书由Tushar K. Hazra编著。
本书介绍了数据库技术的基本原理和应用,并包含了数据库设计、数据模型、关系数据库、SQL语言、数据库管理系统、数据安全与完整性、数据挖掘等内容。
该书理论和实践相结合,适合初学者理解数据库系统的基本概念和应用。
5. 《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)该书由Jiawei Han、Micheline Kamber和Jian Pei合著。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Sup 3 5 4 3 3 2 1 1
Data Mining: Concepts and Techniques
10
GSP: Generating Length-2 Candidates
51 length-2 Candidates
<a> <b> <c> <d> <e> <f>
<a> <aa> <ba> <ca> <da> <ea> <fa>
©2006 Jiawei Han and Micheline Kamber. All rights reserved.
November 28, 2010 Data Mining: Concepts and Techniques
1
November 28, 2010
Data Mining: Concepts and Techniques
November 28, 2010 Data Mining: Concepts and Techniques
7
The Apriori Property of Sequential Patterns
A basic property: Apriori (Agrawal & Sirkant’94) If a sequence S is not frequent Then none of the super-sequences of S is frequent E.g, <hb> is infrequent
A
sequence : < (ef) (ab)
(df) c b >
A sequence database
SID 10 20 30 40 sequence <a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> <eg(af)cbc>
An element may contain a set of items. Items within an element are unordered and we list them alphabetically.
<a(bc)dc> is a subsequence of <a(abc)(ac)d(cf)>
Given support threshold min_sup =2, <(ab)c> is a
sequential pattern
November 28, 2010 Data Mining: Concepts and Techniques
<b> <ab> <bb> <cb> <db> <eb> <fb>
<c> <ac> <bc> <cc> <dc> <ec> <fc>
<d> <ad> <bd> <cd> <dd> <ed> <fd>
<e> <ae> <be> <ce> <de> <ee> <fe>
<f> <af> <bf> <cf> <df> <ef> <ff>
November 28, 2010 Data Mining: Concepts and Techniques
9
Finding Length-1 Sequential Patterns
Examine GSP using an example Initial candidates: all singleton sequences <a>, <b>, <c>, <d>, <e>, <f>, <g>, <h> Scan database once, count support for candidates min_sup =2
5
Challenges on Sequential Pattern Mining
A huge number of possible sequential patterns are hidden in databases A mining algorithm should find the complete set of patterns, when possible, satisfying the minimum support (frequency) threshold be highly efficient, scalable, involving only a small number of database scans be able to incorporate various kinds of user-specific constraints
November 28, 2010 Data Mining: Concepts and Techniques
4
What Is Sequential Pattern Mining?
Given a set of sequences, find the complete set of frequent subsequences
November 28, 2010
Data Mining: Concepts and Techniques
6
Sequential Pattern Mining Algorithms
Concept introduction and an initial Apriori-like algorithm Agrawal & Srikant. Mining sequential patterns, ICDE’95 Apriori-based method: GSP (Generalized Sequential Patterns: Srikant & Agrawal @ EDBT’96) Pattern-growth methods: FreeSpan & PrefixSpan (Han et al.@KDD’00; Pei, et al.@ICDE’01) Vertical format-based mining: SPADE (Zaki@Machine Leanining’00) Constraint-based sequential pattern mining (SPIRIT: Garofalakis, Rastogi, Shim@VLDB’99; Pei, Han, Wang @ CIKM’02) Mining closed sequential patterns: CloSpan (Yan, Han & Afshar @SDM’03)
<a> <a> <b> <c> <d> <e> <f>
<b> <(ab)>
<c> <(ac)> <(bc)>
<d> <(ad)> <(bd)> <(cd)>
<e> <(ae)> <(be)> <(ce)> <(de)>
<f> <(af)> <(bf)> <(cf)> <(df)> <(ef)>
Without Apriori property, 8*8+8*7/2=92 candidates
Seq. ID 10 20 30 40 50
November 28, 2010
Sequence <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)>
Cand <a> <b> <c> <d> <e> <f> <g> <h>
November 28, 2010
Apriori prunes 44.57% candidates Data Mining: Concepts and Techniques
11
The GSP Mining Process
Cand. cannot pass sup. threshold
5th scan: 1 cand. 1 length-5 seq. pat.
Seq. ID 10 20 30 40 50 Sequence <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)>
8
so do <hab> and <(ah)b>
Given support threshold min_sup =2
Data Mining:
Concepts and Techniques
— Chapter 8 —
8.3 Mining sequence patterns in transactional databases Jiawei Han and Micheline Kamber Department of Computer Science University of Illinois at Urbana-Champaignning: Concepts and Techniques