数据挖掘建模实例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如CUMCM2003中的A题(SARS的传 播),在考虑SARS病毒与环境因素的关系 时,建立了如下的主成分分析模型:
其中PC(I),PC(2) ,…,PC(p)分别叫做 第1主成分,第2主成分,…,以及第p主成 分,利用统计具SPSS12求得其主成分如 下表
由于后几个特征值均为0,所以,前两 个主成分基本上能够反映所有的信息。我 们用前两个主成分来定环境因素对SARS传 播的影响权重。
1。多元回归分析
回归分析就是一种统计分析的方法, 它的 主要用处是寻找两个或两个以上的变量之 间的相互变化的关系。
如CUMCM2004中的B题(电力市场的输 电阻塞管理)中,可建立如下的多元线性回 归模型:
其中 为回归系数, 为随机误差,影响 的其他因素均包含其中,大致服从正态分 布。
将CUMCM2004中B题表1中的0—32个方 案一共33组数据代入模型,直接利用 Matlab统计工具箱中的regress命令求解 回归系数。得出的结果为:
④数据转换:找到数据的特征表示,用维变 换或转换方法减少有效变量的数目或找到 数据的不变式。 ⑤选定数据挖掘功能:决定数据挖掘的目的。 ⑥选定数据挖掘算法:用KDD过 程中的准则, 选择某个特定数据挖掘 算法(如汇总、分类、 回归、聚类等)用于搜索数据中的模式 。
wk.baidu.com
⑦数据挖掘:搜索或产生一个特定的感兴趣 的模式或一个特定的数据集。 ⑧发现知识:把这些知识结合到运 行系统中, 获得这些知识的作用或证明 这些知识。用 预先、可信的知识检查和解决知识中可能 的矛盾。
3 知识发现
知识发现(KDD)是从数据中发现有用 知识的整个过程;数据开采(DM)是KDD过 程中的一个特定步骤,它用专门算法从数 据中抽取模式。该模式是新的、可能有用 的和最终可理解的。
知识发现过程是多个步骤相互连接、 反复进行人机交互的过程。具体包括: ①学习某个应用领域:包括应用中的预先知 识和目标。 ②建立目标数据集:选择一个数据集或在多 数据集的子集上聚焦。 ③数据预处理:除噪声或无关数据,去除空 白数据域,考虑时间顺序和数据变化等。
OVER
数据挖掘案例
梁永顺 南京理工大学理学院应用数学系 2010年8月12日
数学建模竞赛中的问题大都来自实际 的科研课题,往往需要处理大量的数据。 如CUMCM2004中的A题(奥运会临时超市 网点设计) ,其附录中的ACCESS数据库中 共有1000多条纪录。 CUMCM2004中的B题(电力市场的输 电阻塞管理),共提供了6个数据表,每个 表中都有很多数据。而在这两个题的第一 问首先都要求从这些数据中找出规律来。
4 人工神经网络
人工神经网络是一种常被用于预测和 分类的计算方法。神经网络由节点组成, 它们通过刺激和抑制连接而相互连接。它 是一种黑箱方法。建模时,不必考虑各个 因素 之间的相互作用及各个因素对输出结 果的影响机制。这恰好弥补了我们对各个 因素及对输出 果的机制不清楚的缺陷。
数据挖掘中还有时间序列分析、因子 分析、 判别分析、聚类分析、典型相关分 析、决策树、遗传算法等,它们在数学建 模培训与竞赛中都是常用的非常有效的建 模方法。
回归模型一般要进行检验,对上述多 元线性回归模型,直接利用Matlab的统 计工具箱中的函数解出检验统计量得(如 下表)
参照上表,我们可以看到 均在0。999以 上,F值远远超过F检验的临界值,P远小 于a,因而这个模型的解释是非常可靠的。
2。主要成分分析 主成分分析之主要目的是希望用较少 的变量去解释原始资料中的大部份变异, 期望能将我们手中的许多相关性很高的变 量转化成彼此互相独立的变量,能由其中 选取较原始变量个数少,能解释大部份资 料中的变异中的几个新变量,也就是所谓 的主成分,而这几个主成分也就成为我们 用来解释资料的综合指针。
而当前,无论在学术界还是产业界, 数据挖掘(Data mining)都是一个相当时 髦和红火的专题。直观上,Data Mining 就是要挖掘出隐藏在大量原始数据中的规 律和模式,为管理和研究提供资讯,以期 得到更多的收益。因此,在数学建模竞赛 中使用数据挖掘的方法将会变得越来越普 遍。
常用数据挖掘方法和工具