数据挖掘与统计学的比较分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一
、
~
“
s at s cs: t ci n e o ol e ti , na y n , re e t i ti he s e c f c l c ng a l zi g p s nt
理 ,0 4, 20 5
ig n n ep e ig d t ”即 “ 计 :收集 、分析 、表 述和 n ,a d itrr tn aa 统
计 算机 光盘软 件 与应 用
21 0 0年第 6期 C m u e DS f w r n p lc to s o p t rC o t a ea dA p ia i n 信息技术应用研究
数据挖掘与统计学Leabharlann Baidu比较分析
孔 鹏 祥
( 莱芜钢铁集 团有限公司培训 中心 ,山东莱芜
2 10 7 14)
摘 要 :数据挖 掘 来源 于统计 分析 ,而 又不 同于统计 分析 。数 据挖掘 不是 为 了替代传 统 的统计 分析技 术 ,相反 ,数 据 挖掘 是 统计 分析 方法的 扩展和延 伸 。
关键 词 :数据挖 掘 ;统 计学 ;比较 中图分类号:T 3111 文献标识码 :A P1. 3
随着 科 学技术 的发展 ,利 用数 据库 技术来 存储 管理 数据 ,利
用 机器 学习 的方法 来分析 数据 ,从 而挖掘 出大 量 的隐藏在 数据 背
三 、数据 挖掘 与统计 学 的 比较
数据 挖掘 来源 于统计 分析 ,而 又不 同于 统计 分析 。数据 挖掘 后 的知识 。这 种思 想的 结合形 成 了现在深 受人 们 关注 的非常 热 门 不 是为 了替代 传统 的统计 分 析技术 ,相 反 ,数据 挖掘 是统计 分析 的研究领 域 : 数据库 中的知识 发现— —K D K o lde ic vr 方 法的扩 展和 延伸 。大 多数 的统计 分 析技术 都基 于完 善的数 学理 D (n w eg so ey D i aa ae ) n tb s s,其 中 ,数据 挖掘技 术便 是 KD中的一个 最为 关键 论和 高超 的技 巧 ,其预测 的准 确程 度还 是令 人满 意的 ,但对 于使 D D 的环节 。 用 者的知 识要 求 比较高 。而 随着计 算机 能力 的不 断发 展,数 据挖 数据挖 掘简 介 掘可 以利 用相对 简 单和 固定程 序完 成 同样 的功 能 。新 的计算 算法 数据 挖掘一 D D t iig M(a a n n )就是从 大量 的 、不 完全 的、有 的产 生如 神经 网络 、决策 树使 人们 不需 了解 到其 内部 复杂 的原理 M 噪声 的 、模糊 的 、随机 的数据 中 ,提取 隐含在 其 中的 、人 们 事先 也 可以通 过这 些方法 获得 良好 的分析 和预 测效果 。 不知 道 的、但 又是潜 在有 用 的信 息和 知识 的过 程 。数 据挖 掘 是一 由于 数据挖 掘和 统计 分析 根深 蒂 固的联系 ,通 常 的数据挖 掘 门交 叉学 科 ,它汇聚 了数 据库 、人 工智 能、统 计学 、可视 化 、并 工具 都能 够通 过可选 件或 自身 提供 统计 分析功 能 。这些 功能 对于 行计算 等不 同学科 和领 域 ,近 年 来受 到各界 的广泛 关注 。 数据挖 掘 的前 期数据 探索 和数据 挖掘 之后 对数 据进 行总 结和分 析 般 说来 ,数据 挖掘 是一个 利用 各种 分析方 法和 分析 工具在 都是十 分 必要 的。统 计分 析所 提供 的诸如 方差 分析 、假 设检验 、 大规模 海量 数据 中建立 模 型和发 现数 据间关 系 的过程 ,这 些模 型 相 关性 分析 、线 性预 测 、时间序 列 分析等 功 能都有助 于数 据挖 掘 和 关系 可 以用来做 出决策和 预测 。它 强调对 大量 观测 到 的数据库 前 期对 数据 进行探 索 ,发现 数据 挖掘 的题 目、找 出数据挖 掘 的 目 的处理 。它是涉 及数据 库管 理 、人工智 能 、机器 学 习、模 式识别 、 标 、确 定数 据挖 掘所 需涉 及 的变 量 、对数 据源 进行 抽样等 等 。所 及 数据 可视化 等学 科 的边 缘学 科 。 有 这些 前期 工作对 数据 挖掘 的效 果产 生重 大影 响 。而 数据 挖掘 的 作 为一 门处理 数据 的新 兴技 术 ,数 据挖 掘有 许多 的新特 征 。 结果也 需要 统计 分析 的描述 功 能 ( 大值 、最 小值 、平均 值 、方 最 首先 ,数 据挖 掘面 对 的是海量 的数 据 ,这 也是数 据挖 掘产生 的原 差 、 四分位 、个数 、概 率 分配 )进行 具体 描述 ,使数 据挖 掘 的结 因。其 次 ,数 据可 能是 不完全 的 、有 噪声 的、随 机的 ,有复 杂 的 果 能够 被用户 了解 。因此 ,统计 分析 和数据 挖掘 是相 辅相 成 的过 数 据结 构 ,维 数大 。最 后 ,数 据挖 掘所 采用 的技 术涉及 到 :数据 程 ,两 者 的合 理配 合是 数据挖 掘 成功 的重要 条件 。 库 、人工 智能 、统计 学 、可视化 、并 行计算 等不 同学 科和领 域 。 四 、小结 二 、统计 学的含 义 数据 挖掘 理论 与技 术 的产生 ,促进 了统 计学 发展 的 同时 ,也 统计 学最初 是 作为一 门实质 性科 学建 立起 来 的,它 从数 量上 提 出 了更 多 的挑战 。如何 更好 地使 用数 据挖 掘和 统计 为解决 社会 研 究某类 具体 的现象 ( 社会 经济发 展 )的规 律 ,但 是 ,随着 统 实 际问题 做 出贡献 ,是统 计学 家和 数据 挖掘 研究 者共 同关心 的话 如 计 学研究 范 围的不 断扩大 以及 统计方 法在 社会 领域和 自然领域 内 题 。数据 挖掘 和统 计学应 该相 互 学习和 渗透 ,各 自分 工,协 同工 的有 效应用 ,加 之统 计方法 体系 本身 的不 断发展 和完 善 ,使得 统 作 ,共 同为挖掘 隐藏 在复 杂现象 背后 的有 价值 的知识 贡献 力量 。 计学 的研 究对象 也发 生 了变化 。统计 学 已从实质 性科 学 中分离 出 参考 文献 : 来 ,转 而研 究统 计方法 ,成 为一 门方 法论 的科学 。即统计 学是研 fJ w iH rMi en a b. 据 挖 掘 — — 概 念 与 技 术 ( 印 1i e a, c l e K r r ]a t hi n 数 影 究如 何搜集 数据 、整理 数据 和分析 数据 的一 门方法 论科 学 。 版) . 『 北京 : M1 高等教 育 出版社 , 0 2 1 0 从本质 上看 ,统计 工作 的核心 就是 数据 ( 或者信 息 )的采集 、 【 韩 明. 挖掘及 其 对统计 学 的挑 战【_ 2 】 数据 l统计研 究, 0 , I 2 1 0 8 分 析 和 处 理 , 正 如 权 威 的 不 列 颠 百 科 全 书 将 统 计 定 义 为 [ 孙薇 斌 . 据挖 掘 中统 计 方法 的作 用 和 问题 点Ⅱ. 统计 与 管 3 1 数 ] 数理
【行 智 国. 学与 数据挖 掘 的 比较 分析 [. 计教 育, 0 , 4 1 统计 『统 】 2 2 0 6
解 释数据 ”
文章编号:10— 59 ( 00 0— 0 9 0 07 99 21 ) 6 0 2— 1
Co pa io fDa a M i i nd St tsia m rs n o t n nga a itc l Anay i lss
K n e g in o g P n xa g
(aw o & te Gru o Ld, rii e t ,a 2 1 , hn ) L i uI n S e l o pC , t . ann C nr L i r T g e wu 7 4C i 1 0 a
A b tac : t ii r m ttsia n lssb fe e o ttsia n l i. a ni sn ti e d dt e lc s r tDaam nngfo sa itc la ay i,ut di rntf m t saitc l ayssD t mi ngi o n e or pa e r he a a nt teta iina ttsi a nay i e h i u so ec nr r sait a naysso a ii gi n x a i na de tnso h dt r o lsaitc la lsstc n q e ,n t o tay,ttsi la l i fd t m n n a e p nso n x e in. h c a s Ke wor : t nn S ait a ayssCo p rs n y dsDa mi ig;t t i l a s c a l i; m a io n
、
~
“
s at s cs: t ci n e o ol e ti , na y n , re e t i ti he s e c f c l c ng a l zi g p s nt
理 ,0 4, 20 5
ig n n ep e ig d t ”即 “ 计 :收集 、分析 、表 述和 n ,a d itrr tn aa 统
计 算机 光盘软 件 与应 用
21 0 0年第 6期 C m u e DS f w r n p lc to s o p t rC o t a ea dA p ia i n 信息技术应用研究
数据挖掘与统计学Leabharlann Baidu比较分析
孔 鹏 祥
( 莱芜钢铁集 团有限公司培训 中心 ,山东莱芜
2 10 7 14)
摘 要 :数据挖 掘 来源 于统计 分析 ,而 又不 同于统计 分析 。数 据挖掘 不是 为 了替代传 统 的统计 分析技 术 ,相反 ,数 据 挖掘 是 统计 分析 方法的 扩展和延 伸 。
关键 词 :数据挖 掘 ;统 计学 ;比较 中图分类号:T 3111 文献标识码 :A P1. 3
随着 科 学技术 的发展 ,利 用数 据库 技术来 存储 管理 数据 ,利
用 机器 学习 的方法 来分析 数据 ,从 而挖掘 出大 量 的隐藏在 数据 背
三 、数据 挖掘 与统计 学 的 比较
数据 挖掘 来源 于统计 分析 ,而 又不 同于 统计 分析 。数据 挖掘 后 的知识 。这 种思 想的 结合形 成 了现在深 受人 们 关注 的非常 热 门 不 是为 了替代 传统 的统计 分 析技术 ,相 反 ,数据 挖掘 是统计 分析 的研究领 域 : 数据库 中的知识 发现— —K D K o lde ic vr 方 法的扩 展和 延伸 。大 多数 的统计 分 析技术 都基 于完 善的数 学理 D (n w eg so ey D i aa ae ) n tb s s,其 中 ,数据 挖掘技 术便 是 KD中的一个 最为 关键 论和 高超 的技 巧 ,其预测 的准 确程 度还 是令 人满 意的 ,但对 于使 D D 的环节 。 用 者的知 识要 求 比较高 。而 随着计 算机 能力 的不 断发 展,数 据挖 数据挖 掘简 介 掘可 以利 用相对 简 单和 固定程 序完 成 同样 的功 能 。新 的计算 算法 数据 挖掘一 D D t iig M(a a n n )就是从 大量 的 、不 完全 的、有 的产 生如 神经 网络 、决策 树使 人们 不需 了解 到其 内部 复杂 的原理 M 噪声 的 、模糊 的 、随机 的数据 中 ,提取 隐含在 其 中的 、人 们 事先 也 可以通 过这 些方法 获得 良好 的分析 和预 测效果 。 不知 道 的、但 又是潜 在有 用 的信 息和 知识 的过 程 。数 据挖 掘 是一 由于 数据挖 掘和 统计 分析 根深 蒂 固的联系 ,通 常 的数据挖 掘 门交 叉学 科 ,它汇聚 了数 据库 、人 工智 能、统 计学 、可视 化 、并 工具 都能 够通 过可选 件或 自身 提供 统计 分析功 能 。这些 功能 对于 行计算 等不 同学科 和领 域 ,近 年 来受 到各界 的广泛 关注 。 数据挖 掘 的前 期数据 探索 和数据 挖掘 之后 对数 据进 行总 结和分 析 般 说来 ,数据 挖掘 是一个 利用 各种 分析方 法和 分析 工具在 都是十 分 必要 的。统 计分 析所 提供 的诸如 方差 分析 、假 设检验 、 大规模 海量 数据 中建立 模 型和发 现数 据间关 系 的过程 ,这 些模 型 相 关性 分析 、线 性预 测 、时间序 列 分析等 功 能都有助 于数 据挖 掘 和 关系 可 以用来做 出决策和 预测 。它 强调对 大量 观测 到 的数据库 前 期对 数据 进行探 索 ,发现 数据 挖掘 的题 目、找 出数据挖 掘 的 目 的处理 。它是涉 及数据 库管 理 、人工智 能 、机器 学 习、模 式识别 、 标 、确 定数 据挖 掘所 需涉 及 的变 量 、对数 据源 进行 抽样等 等 。所 及 数据 可视化 等学 科 的边 缘学 科 。 有 这些 前期 工作对 数据 挖掘 的效 果产 生重 大影 响 。而 数据 挖掘 的 作 为一 门处理 数据 的新 兴技 术 ,数 据挖 掘有 许多 的新特 征 。 结果也 需要 统计 分析 的描述 功 能 ( 大值 、最 小值 、平均 值 、方 最 首先 ,数 据挖 掘面 对 的是海量 的数 据 ,这 也是数 据挖 掘产生 的原 差 、 四分位 、个数 、概 率 分配 )进行 具体 描述 ,使数 据挖 掘 的结 因。其 次 ,数 据可 能是 不完全 的 、有 噪声 的、随 机的 ,有复 杂 的 果 能够 被用户 了解 。因此 ,统计 分析 和数据 挖掘 是相 辅相 成 的过 数 据结 构 ,维 数大 。最 后 ,数 据挖 掘所 采用 的技 术涉及 到 :数据 程 ,两 者 的合 理配 合是 数据挖 掘 成功 的重要 条件 。 库 、人工 智能 、统计 学 、可视化 、并 行计算 等不 同学 科和领 域 。 四 、小结 二 、统计 学的含 义 数据 挖掘 理论 与技 术 的产生 ,促进 了统 计学 发展 的 同时 ,也 统计 学最初 是 作为一 门实质 性科 学建 立起 来 的,它 从数 量上 提 出 了更 多 的挑战 。如何 更好 地使 用数 据挖 掘和 统计 为解决 社会 研 究某类 具体 的现象 ( 社会 经济发 展 )的规 律 ,但 是 ,随着 统 实 际问题 做 出贡献 ,是统 计学 家和 数据 挖掘 研究 者共 同关心 的话 如 计 学研究 范 围的不 断扩大 以及 统计方 法在 社会 领域和 自然领域 内 题 。数据 挖掘 和统 计学应 该相 互 学习和 渗透 ,各 自分 工,协 同工 的有 效应用 ,加 之统 计方法 体系 本身 的不 断发展 和完 善 ,使得 统 作 ,共 同为挖掘 隐藏 在复 杂现象 背后 的有 价值 的知识 贡献 力量 。 计学 的研 究对象 也发 生 了变化 。统计 学 已从实质 性科 学 中分离 出 参考 文献 : 来 ,转 而研 究统 计方法 ,成 为一 门方 法论 的科学 。即统计 学是研 fJ w iH rMi en a b. 据 挖 掘 — — 概 念 与 技 术 ( 印 1i e a, c l e K r r ]a t hi n 数 影 究如 何搜集 数据 、整理 数据 和分析 数据 的一 门方法 论科 学 。 版) . 『 北京 : M1 高等教 育 出版社 , 0 2 1 0 从本质 上看 ,统计 工作 的核心 就是 数据 ( 或者信 息 )的采集 、 【 韩 明. 挖掘及 其 对统计 学 的挑 战【_ 2 】 数据 l统计研 究, 0 , I 2 1 0 8 分 析 和 处 理 , 正 如 权 威 的 不 列 颠 百 科 全 书 将 统 计 定 义 为 [ 孙薇 斌 . 据挖 掘 中统 计 方法 的作 用 和 问题 点Ⅱ. 统计 与 管 3 1 数 ] 数理
【行 智 国. 学与 数据挖 掘 的 比较 分析 [. 计教 育, 0 , 4 1 统计 『统 】 2 2 0 6
解 释数据 ”
文章编号:10— 59 ( 00 0— 0 9 0 07 99 21 ) 6 0 2— 1
Co pa io fDa a M i i nd St tsia m rs n o t n nga a itc l Anay i lss
K n e g in o g P n xa g
(aw o & te Gru o Ld, rii e t ,a 2 1 , hn ) L i uI n S e l o pC , t . ann C nr L i r T g e wu 7 4C i 1 0 a
A b tac : t ii r m ttsia n lssb fe e o ttsia n l i. a ni sn ti e d dt e lc s r tDaam nngfo sa itc la ay i,ut di rntf m t saitc l ayssD t mi ngi o n e or pa e r he a a nt teta iina ttsi a nay i e h i u so ec nr r sait a naysso a ii gi n x a i na de tnso h dt r o lsaitc la lsstc n q e ,n t o tay,ttsi la l i fd t m n n a e p nso n x e in. h c a s Ke wor : t nn S ait a ayssCo p rs n y dsDa mi ig;t t i l a s c a l i; m a io n