数据挖掘的常用分析方法与算法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
建的数据库连接
! 结束语
由于 2P!>CP>! 访问的随时 随 地 性 "%>F 管 理 信 息 系 统 所 面 临 的 安 全 性 风 险 要 高 于 传 统 的 8k) 管 理 信 息 系 统 ! 本文针对 %>F 管理信息系统中的数据安全性问题 " 给 出 了 一 种 基 于 83; 组 件 的 增 强 数 据 库 登 录 安 全 性 的策略 " 给出了具体的实现方法和源码 ! 本文所介绍的 方法已经应 用 在 笔 者 最 近 所 参 与 开 发 的 旅 游 企 业 管 理 信息系统中 " 取得了较好的效果 l[m !
序略去了详细的错误处理过程 !
0&1)234 567 89()) ’&:24 ;<,!"=-> ? @5 A BC<> *>C-D-!EFG> ? 7 A 4.!*>C-D-!EFG> &4H (!!CDF<!> 0’I4EJ> ? K+G-G./D$K (!!CDF<!> 0’I:G.FEG4EJ>)LE+> ? MEG-> (!!CDF<!> 0’I8C>E!EFG> ? BC<> (!!CDF<!> 0’I*C>N>+GEC>N2N ? MEG-> (!!CDF<!> 0’I&OL#->N ? BC<> *<FGD+ G#/DPI-!E!> (- ’##G>EP $ 指示数据库连接的 状态 "BC<> 表示已连接 "MEG-> 未连接 *<FGD+ +#PP>+!D#P (- (H3H’68#PP>+!D#P $ 保 存 创
$;9 数据挖掘相关分析方法
数据挖掘技术从功能上可将数据挖掘分析方法划 分 为 & 关 联 分 析 $@11*20670*)1 %! 序 列 模 式 分 析 $A-BC-)! 706, D677-4)1 %! 分 类 分 析 $E,6110F0-41%! 聚 类 分 析 $E,C17-4! 0)/ %" 关联分析是由 G6H-1I @J+6, 等人首先提出的 " 两 个或两个以 上 变 量 的 取 值 之 间 存 在 某 种 规 律 性 # 就 称 为关联 " 数据关联是数据库中存在的一类重要的 ! 可被 发现的知识 " 关 联 分 为 简 单 关 联 ! 时 序 关 联 和 因 果 关 联 " 关联规 则 中 一 般 用 支 持 度 和 可 信 度 两 个 阀 值 来 度 量关联规则的相 关 性 # 还 不 断 引 入 兴 趣 度 ! 相 关 性 等 参 数 # 使得所挖掘的规则更符合需求 " 关联规则挖掘的目 的就是挖掘出隐藏在数据间的相互关系 " 例如 #&KL 顾 客同时会在购买某种 @ 产品的同时购买 M 产品 # 这就 是一条关联规则 " 序列模式分析在于样式中每个项目的前后位置为 样式的识别 特 征 之 一 # 也 就 是 样 式 中 的 项 目 之 间 是 含 有顺序性的 # 因 此 在 寻 找 序 列 模 式 时 # 我 们 会 有 一 个 用 以决定项目先后次序的衡 量 方 式 = 如 时 间 > # 所 有 的 项 目 或项目集合 依 据 该 衡 量 方 式 在 一 维 的 方 向 上 呈 现 顺 序 排列 # 而寻 找 循 序 样 式 就 是 要 在 这 些 循 序 排 列 的 数 据 中找到有趣 的 规 则 ’ 以 在 销 售 记 录 中 进 行 顺 序 性 样 式 的搜索为例 # 数 据 库 中 的 交 易 与 交 易 之 间 可 以 依 发 生 时间的先后 加 以 顺 序 排 列 # 例 如 在 时 点 $ 顾 客 甲 购 买 了 @ 物品 # 在时点 < 甲购买了 M !E 二项物 品 # 在 时 点 9 甲又购买了 ’ 物品 # 经过排序与分析所有顾客 的 交 易 记录之后 # 也许我们会发现有许多人在购买了 @ 物 品 后 # 会再购买 ’ 物品 # 这就是一种序列模式的数据 搜 索 问题 " 分类分析给定一个记录集合和一组标记# 标记就 是一组具有 不 同 特 征 的 类 别 " 首 先 为 每 一 个 记 录 赋 予 一个标记 # 即按 照 标 记 将 记 录 分 类 # 然 后 分 类 分 析 检 查 这些标定的记录 # 描述记录的特征 " 利用这些特征可以 分类新的记 录 " 例 如 在 银 行 数 据 库 中 保 存 着 信 用 卡 用 户 记 录 #并 根 据 信 誉 程 度 将 持 卡 人 分 为 三 类 &良 好 !普 通 !差 #分 类 分 析 将 检 查 这 些 记 录 #然 后 给 出 一 个 对 信 誉 等 级 的 显 式 描 述 &( 信 誉 良 好 的 用 户 是 那 些 收 入 在 N 元以上 # 年龄在 @ 到 M 之间 # 居住在 E 地区附近的人 士) " 聚 类 是 把 一 组 个 体 按 照 相 似 性 归 成 若 干 类 别 #即 ( 物以类聚 )" 它 的 目 的 是 使 得 属 于 同 一 类 别 的 个 体 之 间的距离尽 可 能 的 小 # 而 不 同 类 别 上 的 个 体 间 的 距 离 尽可能的大 " 聚 类 方 法 包 括 统 计 方 法 ! 机 器 学 习 方 法 ! 神经网络方法和面向数据库的方法 " 在统计 方 法 中 # 聚 类 称 聚 类 分 析 # 它 是 多 元 数 据 分 析的三大方法之一 = 其它 两 种 是 回 归 分 析 和 判 别 分 析 > " 它主要研究基于 几 何 距 离 的 聚 类 # 如 欧 式 距 离 ! 明 考 斯 基距离等 " 传统的统计聚类分析方法包括系统聚类法 ! 分解法 ! 加入法 ! 动 态 聚 类 法 ! 有 序 样 品 聚 类 ! 有 重 叠 聚 类和模糊聚 类 等 " 这 种 聚 类 方 法 是 一 种 基 于 全 局 比 较 的聚类 # 它需要考察所有的个体才能决定类的划分 O 因 此它要求所 有 的 数 据 必 须 预 先 给 定 # 而 不 能 动 态 增 加 新的数据对 象 " 聚 类 分 析 方 法 不 具 有 线 性 的 计 算 复 杂 度 # 难以适用于数据库非常大的情况 " 实际应用的数据
ef M<P+!D#P TEd>+#PP>+!D#PRS HDT #FgIG./DPh +PP
Leabharlann Baidu
!
万方数据
录入 ! 查询 ! 统计 等 简 单 操 作 " 如 数 据 不 能 转 化 成 有 用 的知识 # 用户只能被数据的海洋所淹没 " 人们迫切需要 找出大量数据 背 后 隐 藏 的 规 则 和 模 式 # 从 而 预 测 未 来 的趋势 " 因 此 # 数 据 挖 掘 和 知 识 发 现 $!"#! % 技 术 应 运 而 生 #并 得 以 蓬 勃 发 展 #越 来 越 显 示 出 其 强 大 的 生 命 力 " $%&% 年 & 月 召 开 的 第 $$ 届 国 际 人 工 智 能 联 合 会 议 上 首 次 提 出 了 #’’ $()*+,-./- ’012*3-45 0) ’676861-1 # 数 据库中的知识发现 % 概念 # 而数据挖掘是核心 " 在 $%%$ ! $%%9 年 和 $%%: 年 国 际 人 工 智 能 联 合 会 议 都 举 行 #’’ 专题讨论会 # 来 自 各 领 域 的 研 究 人 员 和 应 用 开 发 者 集 中 讨 论 数 据 统 计 !海 量 数 据 分 析 算 法 !知 识 表 示 !知 识 运用等问题 "
数据挖掘的常用分析方法与算法研究
彭广川 " 李 颖 ! 韶关学院计算机系 " 广东 韶关 !"#$$$# 摘要 ! 本文分析了数据挖掘的概念介绍了数据挖掘的基本分析方法和数据挖掘各种分析方法的分类算法 " 归纳 了常用数据挖掘算法与新的数据挖掘算法的基本思路和特点 $ 关键词 ! 数据挖掘 % 数据分析 % 算法研究 中图分类号 !"#$%% 文献标识码 !& 近十几年来 " 人们利用信息技术生产和搜集数据的 能 力 大 幅 度 提 高 "无 数 个 数 据 库 被 用 于 商 业 管 理 &政 府 办 公 &科 学 研 究 和 工 程 开 发 等 "这 一 势 头 仍 将 持 续 发 展 下去 % 人们意识到 " 如此海量的数据中必定隐藏着许多 知识 % 例如超级市场的经理人员需要从过去几年的销售 记录中分析出顾客的消费习惯和行为 ) 金融业需要从银 行的交易数据中分析客户的信用等级 " 从而降低风险 & 增加收益 % 然而 " 多数数据库应用仍只能对数据库进行
创建数据库连接了 % 使用的方式也很简单 " 只需要对前 面的 TEd>+#PP>+!D#P 函数稍作修改即可 " 很容易实现 ! 下面给出了使用了登录组件的 TEd>+#PP>+!D#P 函数 #
参考文献 !
l5m 吴 国 普 h 李 志 易 6 基 于 ’C.X->Ck)>CU>C 模 式 的 管 理 信 息 系 统 的 开 发 lnm6 四 川 大 学 学 报 ’ 自 然 科 学 版 (h5___h 0.G6Z]R5So[Z"[‘6 lYm 黄 梯 云 6 管 理 信 息 系 统 l;m6 北 京 o 高 教 出 版 社 h Y77Y6 lZm 林子禹 h 邵红维 h 谭凯等 6 基 于 %>F 与 组 件 技 术 的 企业应用系统设计模型 lnm6 计算机工程与应用 hY777h0.G6 Z]R]So5\Y"5\[6 l[m 赵洁 6 基 于 8k) 和 ’k) 混 合 型 结 构 的 旅 游 企 业 信 息系统的 设 计 与 实 现 lnm6 微 型 电 脑 应 用 hY77[h0.G6Y7R57So YZ"Y]6 收稿日期 #Y77\@7p
*<FGD+ )<F 8GE--I2PD!DEGDQ>RS HDT -!C8#PP E- )!CDP/ -!C8#PP ? KLC#U"N>C?-V,.,>NF65W<->C "N?-EWLE--X.CN? 5YZ[\]W"$"!"E, +E!E,./?J^NFWNE!E -.<C+>?5_Y65]‘656577WK 3$ &CC.C 1>-<J> 4>O! +.$$>+!".$63L>$ 2a +.$$>!".$6&CC.C-68.<$! b 7 Bc>P G#/DPI-!E!> ? MEG-> )>! +#PP>+!D#P ? 4#!cDP/ &G-> 9#/DPI-!E!>? BC<> &PN 2a &PN )<F 创建了登录组件后 " 就可以在 ()* 程序中使用 它
! 数据挖掘的概念与分析方法
$;$ 数据挖掘基本概念 数 据 挖 掘 $’676 "0)0)/ % 就 是 从 大 量 的 ! 不 完 全 的 !
有噪声的 ! 模糊的 ! 随 机 的 数 据 中 # 提 取 隐 含 在 其 中 的 ! 人们事先不知 道 的 ! 但 又 是 潜 在 有 用 的 信 息 和 知 识 的 过程 " 数据挖掘是一种决策支持过程 # 它主要基于人工 智 能 !机 器 学 习 !统 计 学 等 技 术 #高 度 自 动 化 地 分 析 企 业原有的数据 # 作 出 归 纳 性 的 推 理 # 从 中 挖 掘 出 潜 在 的 模式 # 预测客户的 行 为 # 帮 助 企 业 的 决 策 者 调 整 市 场 策 略 # 减少风险 # 做出正确的决策 " 因此 # 数据挖掘是一门 广义的交叉学科 # 它 汇 聚 了 不 同 领 域 的 研 究 者 # 尤 其 是 数据库 ! 人工智能 ! 数 理 统 计 ! 可 视 化 ! 并 行 计 算 等 方 面 的学者和工程技术人员 " $;< 数据挖掘的过程 数据挖掘的分析过程可分为五个步骤 & =$> 确定业务对象 清晰 地 定 义 出 业 务 问 题 # 认 清 数 据 挖 掘 的 目 的 是 数据挖掘的重要一步 " 挖掘的最后结构是不可预测的 # 但要探索的问 题 应 是 有 预 见 的 # 为 了 数 据 挖 掘 而 数 据 挖掘则带有盲目性 # 是不会成功的 " =<> 数据准备 =6> 数据的选择 搜索所有与业务对象有关的内部和外部数据信 息 # 并从中选择出适用于数据挖掘应用的数据 " =8> 数据的预处理 研究数据的质量 # 为进一步的分析作准备 " 并确定 将要进行的挖掘操作的类型 " =2> 数据的转换 将数 据 转 换 成 一 个 分 析 模 型 " 这 个 分 析 模 型 是 针 对挖掘算法建 立 的 " 建 立 一 个 真 正 适 合 挖 掘 算 法 的 分 析模型是数据挖掘成功的关键 " =9> 数据挖掘 对所 得 到 的 经 过 转 换 的 数 据 进 行 挖 掘 " 除 了 完 善 从选择合适的 挖 掘 算 法 外 # 其 余 一 切 工 作 都 能 自 动 地 完成 " =:> 结果分析 解释 并 评 估 结 果 " 其 使 用 的 分 析 方 法 一 般 应 作 数 据挖掘操作而定 # 通常会用到可视化技术 " =?> 知识的同化 将分 析 所 得 到 的 知 识 集 成 到 业 务 信 息 系 统 的 组 织 结构中去 "
!"#$ 连接 ! 这样即使黑客侵入 %&’ 服务器 " 非法获取了 ()* 文 件 源 码 " 他 们 也 不 会 知 晓 数 据 库 服 务 器 的 登 陆
信息 " 从而可以增强数据的安全性 ! 下面的代码显示了 +,-,./"$ 的实现 #
3P &CC.C 1>-<T> 4>O! )>! N+PNF ? )>CU>C68C>E!>3Fg>+!RKEN.NF6+.PP>+!D.PKS )>! .FgIG./DP ? )>CU>C68C>E!>3Fg>+! RKG./DPI-UC6+G-G.! /DPKS 2a .FgIG./DP6G./DPI-!E!> ? BC<> Bc>P )>! +PP ? .FgIG./DP68.PP>+!D.P &G-> &CC.CRS &PN 2a )>! TEd>+.PP>+!D.P ? +PP &PN M<P+!D.P ib 以 上 源 程 序 在 %DPN.X- j* *C.a>--D.PEG &;D+C.-.a! 0D-<EG ’E-D+ ]67 和 22) 中 调 试 通 过 ! 限 于 篇 幅 " 以 上 程
相关文档
最新文档