基于大数据的数据挖掘技术与应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

和调整 ,得到满足使 用要求的数据模 型;维护数据挖掘模型 ,随着数
数据的采集和预处理是数据挖掘技术实现的前提,数据的预 处 理内容主要包括数据 收集与录入、数据清洗 与净化 、用户识别 、会话
据量 的增加 ,需要对模型进 行调整和维护 ,一些关键信息的改变有 可 能严重模 型的精度 ,模 型维护是数据 挖掘的重要环 节 ,通过模型 维护可 以保持模型 的活力 ,不断完善模型 。
程 一个 完整的数据 库挖 掘系统主要包 括了 :数据库 、数据库服 务 器 、知识库 、数据库挖掘引擎 、模式评估模块 、可视 化用户界面 。
1.2数 据 挖 掘 方 法 和 步 骤
掘的结果参与到政府、企业、个人的决策 中,发挥数据挖掘的社会价 值 ,改变人们 的生活方式,最大化数据挖掘 的积极作用。以互联网行 业为例 ,探究数据 挖掘技术在社交网络 中的应用。
互联 网时代 的信息爆炸给互联 网用户 的使用需求带来 了一定 的不便 ,用户如何快速获取有用信息 ,网站如何快速定 位用 户需 求
数据库挖掘 的主要方法有基于遗传算法 ,粗集方法 ,决 策树 方 成为了研究课题 。以社交网络为例 ,社区中的视频 、音频 、图片 、文字
法和神经网络方法 。数据挖掘 的一般步骤为:分析问题 ,判定源数据 库 是否满足数据挖掘的标准 ;提取、清洗和校验数据 ,去除数据 中的 噪声 ,得到数据 完整、格式统一 的数据 ,创建和调试模型 ,将选用 的
行业 、天文学 、气象学 、生物技术 ,以及 医疗保健 、银行 、金融 、零售等
1.1数 据挖 掘概 念
行业 。通 过数据挖掘 技术将 大数据 融合在 各种 社会应用 中,数据 挖
数据挖掘是从大量的随机 、模糊并带有噪声的数据集合 中通过 采用一定的算法对信息进行提取 ,发现规律和有用的价值信息 的过
度 。检测短语和检测同义词 的方法类似 ,都是通过类来实现 ,检测短 语通过类PhrasesCache实现 ,检测 同义词通过 ̄SynonymousCache 实现 ,通过词汇和记号词 的匹配实现短语和 同义词 的识别 。构建单 词 向量 ,通过 单词 向量 来表 示一个项 目来自百度文库单词 向量 是通过文本单词
及其权重来构成 的,通过单词检索可以得到用户想要获得 的文档和
信 息 。
3结 语
本文主要分析了大数据的含义和特点 ,数据挖掘的概念和主要 功 能,着重探究 了数据挖掘 技术 的主 要应 用,并结合数据挖掘技术 在互联网社 交网络 中的应用进行 了实例分析 ,通过数据挖掘 技术更 好 的匹配用户想要得到 的信息 。
等信息各式各样 ,每个人的兴趣 、习惯 不同,要得 到的内容也不同 。 采用数据挖掘技术对社交网络数据分析 ,通过细分用户 ,挖掘不 同 用户 的需求 ,开 出出符合 不 同用 户个性特 征的服务 和产 品 ,满足
数据挖掘算法 应用 到数据中创建模型 ,通过数据来对模 型进行校验 WEB2.oN代对于 网络个 性化智能化的要求 。
1.3数 据 挖 掘 的 主 要 功 能 数据挖掘的功能主要可以分为五大类 :自动 预测趋 势和行 为 ,
识 别 、文 本 提 取 。数 据 收 集 与 预 处 理 的 系 统 结 构 图如 图1所 示 。采 集 的数据一般 会存放在 数据库 中,数据 库中的数 据具有组织性、结构
性 、易存取的特点 ,数据为了达到数据挖掘的要求还需要进行数据 清洗 、数据集成 、数据转换 和数 据简化。
别 出词汇 。去除停 用词是将文本 中常用的词汇去除 ,这些词汇在文
模式识别和数学分类方法的片面性 ,是一个更加先进 的聚类分析方 本数据 挖掘 中属于 无用词汇 ,去 除后 能够 减小数据处理 的复杂程
法 ;概念描述建立在聚类分析 的基础上 ,提取对象 的特征 ,形成对概 念 的描述 ;偏差检测 ,数据库 中的数据很可 能存在着 异常 记录或者 是数据 噪声 ,通过偏差检测提 出异常数据 。
提取能够代表和概括整个文本内容 的标签 。文本挖掘 的步骤包括识 别中文词 ,去 除停用词 ,检测短语 ,检查 同义词,创建单词 向量 。中文 中字、句 、段之 间都有 间隔,只有 词之 间没有 ,本文采用机械分词法 进行识别处理 ,通过 扫面句 中字符串,将其余词典词语进行匹配 ,识
隐藏 的关联 网;聚类分析通过数据挖掘定义具有共 同特征 的子集 , 增强人们对于客观事实的理解和认识 ,数据挖掘技术避免 了传统的
数据挖掘器的设计 目的是对文本数据的 内容进行分析与挖掘 ,
关联分析 ,聚类分析 ,概念描述 ,偏差检测 。采用数据挖掘技术在大 型 的数据库中寻找预测性信息,市场预测就是数据挖掘技术在 自动 预测趋势和行为方面 的典型应用 ;关联分析是采用数据挖掘技术研 究数据空中 自变量和 因变量之 间的某种规律,找出数据库 中存在的
杂性等基本 特征 。本 文在介 绍大数据 内涵,数据挖掘技 术及 方法的基础上,通 过实例分析探 究数据挖 掘技术 的成功应用,为 大数 据及数据挖 掘技术在 不
同领 域的 应用提 供 一定 的参 考作 用 。
关键 词:大数 据 数据挖 掘 互联 网
中图分类 号:TP311
文献 标识码 :A
__十I f p拉 术
应 用研 究
基于大数据的数据挖掘技术与应用
王 妤 姝 (四川学政 学院 四川 南充 610071)
摘 要:大数 据是 指 无法在 可承 受的 时 间 内使 用 常规 的软件 进行 处 理的 数据 集合 ,是 当前研 究的热 点,具有 容量 大 、多样性 、速度 快 、公 开性 、复
文章 编号 :1007—9416(2016)04-O1 15一O1
2O世纪8O年代 ,计算机和互联网技术 的发展使得数据量飞速增 2数据 挖 掘 技术 的应 用
长 ,大数据是互联 网技术发展到一定程度后必然 出现 的一种现象 。
数据挖掘技术已经应用在了各个行业 中,数据量 巨大 的互联网
1数据 挖 掘 的概 念 及功 能
相关文档
最新文档