基于关联分析的数据挖掘方法及其实证研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 )一 l ) ( i( 叫 ( ) 一 (t — ‘ — )。 l t)— xi — — — —k 。 ( — x i — —- ’ t 1 ‘
— — —
应用 [. 为数 据 挖 掘 技 术 的一 个 重 要 内容 —— 2作 ]
关联 分析 不仅 在 理 论 上 日臻 完 善 , 且 在 实 际应 而
用方 面 也涌现 出不 少 成 功 的 案 例 , 以美 国 沃 尔 如
玛连 锁超 市为 研 究 背 景 的“啤 酒 和 尿 布 ” 问题 就 是其 中一个典 型 例子 [ . 3 ] 数据 挖掘 意 义下 的关 联分 析通 常 是指关 联 规 则挖 掘 , 它是一 种无 向数 据 挖 掘方法 , 大量 数据 从 项 中寻找 有意 义 的关联 关 系. 般来 说 , 一 完整 的 观
设 数据 样本
X £ ()一 ( (1 , ( , , £) ( ) i ) ) … z ( ) 1
及
个利 用各 种从 分析 方法 和 工具 在海 量数 据 中提
取 有用 信息 、 析 并 发 现模 型及 数 据 间潜 在 关 系 分 的过 程[ . 1 数据 挖 掘技 术所 包含 的 内容 十分 广泛 , ]
一
应 用 ( ) ( ) ( ) ( O , 分 别 求 得 y与 5、6 、9 和 1)可
( “)一 ( 1 ) ( 1 )一 f ) ( 五 ( 一 zi ) ) (卜1
f
z , 2z X , 。的线性关 联度 和 相对 速 率 关联 度 , 体 具 数 值 如表 2所示.
’
—
—
() 3
-
(k t)一
(件1 )一 (t t)
矛
’
() 4
如果 分母 X (t 一 (t 1 一 0或 (k 一 x f t) t ) — t) j ( 1 = 0 则 用 X (t1 一 五 ( 2 0或 一 ) , it ) — 一 )一 (一) 。 一 ( : =O来 替换 , 一 ) …直 到分母 不 为零 .
形成 三个指 标 : 学生学 习动力 指数 、 生所学 专业 学
z( 1 一 f f ) ( )一 口 ( 一 f 1]一 [f ) ( ) … 一 口 五(2 一 f£) , 卜 [ £) (1] X (蚪 ) j£ 1 一 ( )一 口 ( 一 ( ) [ ) £1]=
第2 5卷 第 2期 2 1 年 3月 01
甘 肃 联 合 大 学学 报 ( 自然科 学 版 )
J u n Io n u L a h /e st Nau a ce c s o r a fGa s in eUnv r i y( t rlS in e )
Vo . 5 No 2 I2 .
R 一
() 6
关 于这 个 定义 的合理 性 , 可做 如下证 明 :
设 R =1 则 必有 ( 一1 即对任 意 k - , , ) . -2
3 …, , 一1 立 成
(kt t )一 z ( ) + i zft) zf ) (t 一 (卜1
一
2 实 例 分 析
表 2 关 联 度 计 算 结 果
( 一 2, , , 一 1 , 3… )
故 有 R —1 d . 1 相对 速率 关联 分析 . 2
:
线 性 关联 度
相 对 速 率 关联 度
R 。
0 6 .9
O 9 .1
R 。 z
06 一 .7
O 8 .1
。 a
o 一
( )一
1
不妨 认 为 , ( 与 ( 越 接 近 , (k 与 ) ) x t) ( 在 t 刻的线性关联程度越高. ) 时 因此 , 对
数 据样本 () ()定 义 X 与 ( 在 时 1和 2 , ( ) ) 刻 的线性 关 联系数 和线 性关 联度 分别 为
第 2期
钱 圣华等 ; 于关联 分析 的数据挖掘方 法及其 实证研 究 基
技 , 0 0 9 5 : 83 . 2 1 ,( )3 —9
2 5
的学 习动力 大 小与三 个 相关 因素 的关 联程 度依 次 为: 专业 与工 作 相符 ( ) 度 、 生满 意度 及考 试 近 程 学
摘Байду номын сангаас
要: 数据挖掘是对 大量数 据进行分析 和理解 , 并提示其 内部 所蕴藏 的丰 富知 识的技术. 文章研究数 据挖掘
技术 中关联分 析方法的某些算法 , 并据此对嘉兴 电大教务 系统 中的成绩 数据和一些实测数据进行挖掘研究 , 从
而得 出了学生 学习动力和有关 因素的关 联性分析的一些初步结果.
M a. 0 1 r 2 1
文章编号 :1 7 —9 X( O 1 O—0 30 6 26 1 2 l )20 2—3
基 于 关联 分析 的数 据 挖 掘 方 法及 其 实证研 究
钱 圣 华 许 , 谦 陈 兰 ,
(. 1浙江广播 电视 大学桐乡学院 , 浙江 桐乡 34 0 ;. 1 5 0 2 嘉兴广播 电视大学 , 浙江 嘉兴 34 0 ) 10 0
究.
2 4
甘 肃联合大学学报( 自然科 学版)
第 2 卷 5
O < ( <1时 , () t 时 刻呈 减速 递增 ) Xi 在 k 或 减速递 减状 态 . ( <o时 , () t ) X 在 ^时刻 呈 极 大 或 极 小
状 态.
同样认 为 ( 和 ( 越接 近 , £ 与 XJ ) ) X () () t 在 时刻 的 关 联程 度 越 高. 因此 , 义 X 定 () 与 X 在 t () 时刻 的相对 速率关 联 系数 和相 对速 率关 联度 分别 为
表 1 有 关原 始 数 据 ( ) %
垂
这 说 明点 列
二墨! 一 墨 垒 垒 二翌 !
z (2 l £)一 i£) (1 ‘
z ( )一 z (卜1 i i£ )
{置(1 , (1 ) ( t) 乃(2 ) … , ( £) t) ,五(z , t) ,
( , J ) ) z ( z ( ) ) () 7
Xi£ ()一 ( (1 , ( ) … , ( ) ( ) ) t , ) 2 2
是通 过 相等 的 时间 间隔采集 得 到 的 , t 。 t= 即 k + t
常数 ( - 1 2 … , 一1 . k ,, 扎 )
I 线性 关联 分析 . I
对 于数 据 样 本 ( ) ( ) 假 定 墨 ( ≠ 蜀 1 和 2, t) (2 , j t) 』 t) 定义 数 据 组 ( ) ( ) t t) X (1 ≠z (2 . 1和 2在 I 时刻 的线 性 变化率 为
X0
在一 条直 线上 , 墨 () 即 £ 与 () 性关 联. £线 反之 , X () 若 与 () 性关 联 , 对任 意 忌 t线 则
= 1 2 3 … , 均有 : ,, , , = l
)一 仳 i )+ b ( , f(
3 . 3 3 6
z 4 . 1 0 5
或保 存不 符合 相 关 要 求 , 进 行 严 格 意 义 下 的关 则 联规则 挖 掘就会 遇到 困难 [. 这种 情况 下 , |在 ] 对数
刻呈 线性 水平 状态 . ( 一1时 , () t ) X £在 t时刻 呈 线性 递 增 或 线性 递减 状 态. (k > 1 , () t 时 刻 呈加 速 递 增 或 t) 时 xI£在 t
由此 可知 :
f
测信息和利用有关软 件 ( S S 进行计算机处 如 A )
理是 进行 关联 规 则 挖 掘 的 基本 前 提 和 必要 手 段 . 但 如果在 某些 场 合 下 , 始 观 测 数 据 采 集 不 完整 原
( 1 一 it) it 1 时 , t在 t 时 + ) ( 一z ( — ) X () t k k
0 7 .6
对 于数据 样本 ( ) () 假定 它们 都取 正值 . 1和 2 ,
定 义数据 组 X ) t ( 在 时刻 的相对 速率 为
(一 t 蔫赡 . ㈣ 度 , 是从 相对 速率关 联角度 来看 , 兴 电大 学生 D 还 嘉
以上计 算 分析 结 果 表 明 : 无论 从 线 性关 联 角
关键词 : 数据挖掘 ; 关联 ; 关联 度
中 田分 类 号 : 7 8 8 G 2 . 文献 标 识 码 : A
0 引 言 ’
数 据挖 掘又 被 称 为 数 据 库 中 的 知识 发 现 , 是
一
例进行了 相应的应用研究’ 得出了 一些结论・
1 关 联 分 析 的简 单 算 法
s 2. 7 8 6 41 0 . 0
s 3 . 7 8 3
1 z2
7.8 23 6.3 2 2
7.1 8 4 6.9 7 1
6 .3 1 3 7 .8 4 0
7.8 5 1 66 3 .1
6.4 8 7 7.7 0 5
于是
( 1 )一 x. j ) (
三
三 习 ’
() 5
R=
理 性.
∑
.
() 1 o
采 用上 述类 似 的方 法 同理可 以证 明这个 定义 的合 相对速 率关联 分 析 比线 性关 联分 析更注重 数 据 的变化 , 强 调数 据 之 间具 有 较 紧 密 的依 赖 变 更
化 关 系才具 有较 高 的关 联度 .
( 1 )一 ( ) ( ) (卜1 。 一 )
近年来 , 了研 究 有关 因素 对 电大学 生 学 习 为
动力 的相关 影 响程 度 , 兴 电 大通 过 抽样 调查 获 嘉
( 为 a≠ 0 设 )
于 是
得 了大量原 始数据 . 整理 和计算 , 经 可将 有关 数据
关联分析 、 统计分析 、 聚类分析 、 决策树法 、 遗传 算 法 、 经 网络 算 法 、 叶斯 网 络 、 糊集 及 粗 糙 神 贝 模
集理 论 等都是 其 常用 的分 析方 法 和处 理手段 .
目前 , 数据 挖 掘方 法 已涉及 各行 各业 , 它在 管 理决 策 、 发展预 测 、 因果 分 析 等方面 得 到了广 泛 的
加速 递减 状 态.
‘
据进行一些较为简单而又不失为有效的基本关联 分析应 该 是有 意义 并且 可 行 的. 于这样 的认 识 , 基
作者 探讨 了两 种 关 联 分 析 的 简 单 算法 , 结 合实 并
收 稿 日期 :0 01-5 2 1-11 .
基金项 目: 浙江广播电视大学立项课题 ( KT 0 G2 ) X -9 5 资助. 作者简介 : 钱圣华( 9 3)男 , 16 一 。 浙江桐乡人 , 浙江广播 电视 大学桐 乡学 院副 院长 , 师 , 讲 主要从事数 学建模及应 用研
( )一
1
( ) i li 1 一z( ( 1一z( I z ) ) J 抖 ) ’ ‘I { ( 1 ) z ( ( l k ( £ 一 f —t ) 抖 ) )f
I
() 9
‘l ’
i
( 一 z(卜 ) z ( 一 ,t 1 ) i£ 1 f ) (-)1 k
… 一 a-f i£) z (1] k - (2 一 J£) , -= -
故
与工作 相符 ( ) , 生对学 校 的综 合 满意 度 . 近 率 学 引 在此 , 作者 以近期 连 续 五 个 学期 的上 述 指标 数 值 并 结合 同期 电大教 务 系统 中的 成绩 数 据 ( 1 为 表 ) 依据 , 利用 上述关 联 分 析 的 简单 算 法 来 分 析学 生 学 习动力指 数 z 分 别 与 学生 所 学 专 业 和工 作 相 。 符( ) 近 率 、 生 对 学 校 的综 合 满 意 度 z 学 。及 考 试 及 格率 z 的关 联度 . 。
— — —
应用 [. 为数 据 挖 掘 技 术 的一 个 重 要 内容 —— 2作 ]
关联 分析 不仅 在 理 论 上 日臻 完 善 , 且 在 实 际应 而
用方 面 也涌现 出不 少 成 功 的 案 例 , 以美 国 沃 尔 如
玛连 锁超 市为 研 究 背 景 的“啤 酒 和 尿 布 ” 问题 就 是其 中一个典 型 例子 [ . 3 ] 数据 挖掘 意 义下 的关 联分 析通 常 是指关 联 规 则挖 掘 , 它是一 种无 向数 据 挖 掘方法 , 大量 数据 从 项 中寻找 有意 义 的关联 关 系. 般来 说 , 一 完整 的 观
设 数据 样本
X £ ()一 ( (1 , ( , , £) ( ) i ) ) … z ( ) 1
及
个利 用各 种从 分析 方法 和 工具 在海 量数 据 中提
取 有用 信息 、 析 并 发 现模 型及 数 据 间潜 在 关 系 分 的过 程[ . 1 数据 挖 掘技 术所 包含 的 内容 十分 广泛 , ]
一
应 用 ( ) ( ) ( ) ( O , 分 别 求 得 y与 5、6 、9 和 1)可
( “)一 ( 1 ) ( 1 )一 f ) ( 五 ( 一 zi ) ) (卜1
f
z , 2z X , 。的线性关 联度 和 相对 速 率 关联 度 , 体 具 数 值 如表 2所示.
’
—
—
() 3
-
(k t)一
(件1 )一 (t t)
矛
’
() 4
如果 分母 X (t 一 (t 1 一 0或 (k 一 x f t) t ) — t) j ( 1 = 0 则 用 X (t1 一 五 ( 2 0或 一 ) , it ) — 一 )一 (一) 。 一 ( : =O来 替换 , 一 ) …直 到分母 不 为零 .
形成 三个指 标 : 学生学 习动力 指数 、 生所学 专业 学
z( 1 一 f f ) ( )一 口 ( 一 f 1]一 [f ) ( ) … 一 口 五(2 一 f£) , 卜 [ £) (1] X (蚪 ) j£ 1 一 ( )一 口 ( 一 ( ) [ ) £1]=
第2 5卷 第 2期 2 1 年 3月 01
甘 肃 联 合 大 学学 报 ( 自然科 学 版 )
J u n Io n u L a h /e st Nau a ce c s o r a fGa s in eUnv r i y( t rlS in e )
Vo . 5 No 2 I2 .
R 一
() 6
关 于这 个 定义 的合理 性 , 可做 如下证 明 :
设 R =1 则 必有 ( 一1 即对任 意 k - , , ) . -2
3 …, , 一1 立 成
(kt t )一 z ( ) + i zft) zf ) (t 一 (卜1
一
2 实 例 分 析
表 2 关 联 度 计 算 结 果
( 一 2, , , 一 1 , 3… )
故 有 R —1 d . 1 相对 速率 关联 分析 . 2
:
线 性 关联 度
相 对 速 率 关联 度
R 。
0 6 .9
O 9 .1
R 。 z
06 一 .7
O 8 .1
。 a
o 一
( )一
1
不妨 认 为 , ( 与 ( 越 接 近 , (k 与 ) ) x t) ( 在 t 刻的线性关联程度越高. ) 时 因此 , 对
数 据样本 () ()定 义 X 与 ( 在 时 1和 2 , ( ) ) 刻 的线性 关 联系数 和线 性关 联度 分别 为
第 2期
钱 圣华等 ; 于关联 分析 的数据挖掘方 法及其 实证研 究 基
技 , 0 0 9 5 : 83 . 2 1 ,( )3 —9
2 5
的学 习动力 大 小与三 个 相关 因素 的关 联程 度依 次 为: 专业 与工 作 相符 ( ) 度 、 生满 意度 及考 试 近 程 学
摘Байду номын сангаас
要: 数据挖掘是对 大量数 据进行分析 和理解 , 并提示其 内部 所蕴藏 的丰 富知 识的技术. 文章研究数 据挖掘
技术 中关联分 析方法的某些算法 , 并据此对嘉兴 电大教务 系统 中的成绩 数据和一些实测数据进行挖掘研究 , 从
而得 出了学生 学习动力和有关 因素的关 联性分析的一些初步结果.
M a. 0 1 r 2 1
文章编号 :1 7 —9 X( O 1 O—0 30 6 26 1 2 l )20 2—3
基 于 关联 分析 的数 据 挖 掘 方 法及 其 实证研 究
钱 圣 华 许 , 谦 陈 兰 ,
(. 1浙江广播 电视 大学桐乡学院 , 浙江 桐乡 34 0 ;. 1 5 0 2 嘉兴广播 电视大学 , 浙江 嘉兴 34 0 ) 10 0
究.
2 4
甘 肃联合大学学报( 自然科 学版)
第 2 卷 5
O < ( <1时 , () t 时 刻呈 减速 递增 ) Xi 在 k 或 减速递 减状 态 . ( <o时 , () t ) X 在 ^时刻 呈 极 大 或 极 小
状 态.
同样认 为 ( 和 ( 越接 近 , £ 与 XJ ) ) X () () t 在 时刻 的 关 联程 度 越 高. 因此 , 义 X 定 () 与 X 在 t () 时刻 的相对 速率关 联 系数 和相 对速 率关 联度 分别 为
表 1 有 关原 始 数 据 ( ) %
垂
这 说 明点 列
二墨! 一 墨 垒 垒 二翌 !
z (2 l £)一 i£) (1 ‘
z ( )一 z (卜1 i i£ )
{置(1 , (1 ) ( t) 乃(2 ) … , ( £) t) ,五(z , t) ,
( , J ) ) z ( z ( ) ) () 7
Xi£ ()一 ( (1 , ( ) … , ( ) ( ) ) t , ) 2 2
是通 过 相等 的 时间 间隔采集 得 到 的 , t 。 t= 即 k + t
常数 ( - 1 2 … , 一1 . k ,, 扎 )
I 线性 关联 分析 . I
对 于数 据 样 本 ( ) ( ) 假 定 墨 ( ≠ 蜀 1 和 2, t) (2 , j t) 』 t) 定义 数 据 组 ( ) ( ) t t) X (1 ≠z (2 . 1和 2在 I 时刻 的线 性 变化率 为
X0
在一 条直 线上 , 墨 () 即 £ 与 () 性关 联. £线 反之 , X () 若 与 () 性关 联 , 对任 意 忌 t线 则
= 1 2 3 … , 均有 : ,, , , = l
)一 仳 i )+ b ( , f(
3 . 3 3 6
z 4 . 1 0 5
或保 存不 符合 相 关 要 求 , 进 行 严 格 意 义 下 的关 则 联规则 挖 掘就会 遇到 困难 [. 这种 情况 下 , |在 ] 对数
刻呈 线性 水平 状态 . ( 一1时 , () t ) X £在 t时刻 呈 线性 递 增 或 线性 递减 状 态. (k > 1 , () t 时 刻 呈加 速 递 增 或 t) 时 xI£在 t
由此 可知 :
f
测信息和利用有关软 件 ( S S 进行计算机处 如 A )
理是 进行 关联 规 则 挖 掘 的 基本 前 提 和 必要 手 段 . 但 如果在 某些 场 合 下 , 始 观 测 数 据 采 集 不 完整 原
( 1 一 it) it 1 时 , t在 t 时 + ) ( 一z ( — ) X () t k k
0 7 .6
对 于数据 样本 ( ) () 假定 它们 都取 正值 . 1和 2 ,
定 义数据 组 X ) t ( 在 时刻 的相对 速率 为
(一 t 蔫赡 . ㈣ 度 , 是从 相对 速率关 联角度 来看 , 兴 电大 学生 D 还 嘉
以上计 算 分析 结 果 表 明 : 无论 从 线 性关 联 角
关键词 : 数据挖掘 ; 关联 ; 关联 度
中 田分 类 号 : 7 8 8 G 2 . 文献 标 识 码 : A
0 引 言 ’
数 据挖 掘又 被 称 为 数 据 库 中 的 知识 发 现 , 是
一
例进行了 相应的应用研究’ 得出了 一些结论・
1 关 联 分 析 的简 单 算 法
s 2. 7 8 6 41 0 . 0
s 3 . 7 8 3
1 z2
7.8 23 6.3 2 2
7.1 8 4 6.9 7 1
6 .3 1 3 7 .8 4 0
7.8 5 1 66 3 .1
6.4 8 7 7.7 0 5
于是
( 1 )一 x. j ) (
三
三 习 ’
() 5
R=
理 性.
∑
.
() 1 o
采 用上 述类 似 的方 法 同理可 以证 明这个 定义 的合 相对速 率关联 分 析 比线 性关 联分 析更注重 数 据 的变化 , 强 调数 据 之 间具 有 较 紧 密 的依 赖 变 更
化 关 系才具 有较 高 的关 联度 .
( 1 )一 ( ) ( ) (卜1 。 一 )
近年来 , 了研 究 有关 因素 对 电大学 生 学 习 为
动力 的相关 影 响程 度 , 兴 电 大通 过 抽样 调查 获 嘉
( 为 a≠ 0 设 )
于 是
得 了大量原 始数据 . 整理 和计算 , 经 可将 有关 数据
关联分析 、 统计分析 、 聚类分析 、 决策树法 、 遗传 算 法 、 经 网络 算 法 、 叶斯 网 络 、 糊集 及 粗 糙 神 贝 模
集理 论 等都是 其 常用 的分 析方 法 和处 理手段 .
目前 , 数据 挖 掘方 法 已涉及 各行 各业 , 它在 管 理决 策 、 发展预 测 、 因果 分 析 等方面 得 到了广 泛 的
加速 递减 状 态.
‘
据进行一些较为简单而又不失为有效的基本关联 分析应 该 是有 意义 并且 可 行 的. 于这样 的认 识 , 基
作者 探讨 了两 种 关 联 分 析 的 简 单 算法 , 结 合实 并
收 稿 日期 :0 01-5 2 1-11 .
基金项 目: 浙江广播电视大学立项课题 ( KT 0 G2 ) X -9 5 资助. 作者简介 : 钱圣华( 9 3)男 , 16 一 。 浙江桐乡人 , 浙江广播 电视 大学桐 乡学 院副 院长 , 师 , 讲 主要从事数 学建模及应 用研
( )一
1
( ) i li 1 一z( ( 1一z( I z ) ) J 抖 ) ’ ‘I { ( 1 ) z ( ( l k ( £ 一 f —t ) 抖 ) )f
I
() 9
‘l ’
i
( 一 z(卜 ) z ( 一 ,t 1 ) i£ 1 f ) (-)1 k
… 一 a-f i£) z (1] k - (2 一 J£) , -= -
故
与工作 相符 ( ) , 生对学 校 的综 合 满意 度 . 近 率 学 引 在此 , 作者 以近期 连 续 五 个 学期 的上 述 指标 数 值 并 结合 同期 电大教 务 系统 中的 成绩 数 据 ( 1 为 表 ) 依据 , 利用 上述关 联 分 析 的 简单 算 法 来 分 析学 生 学 习动力指 数 z 分 别 与 学生 所 学 专 业 和工 作 相 。 符( ) 近 率 、 生 对 学 校 的综 合 满 意 度 z 学 。及 考 试 及 格率 z 的关 联度 . 。