大数据学习笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据学习笔记
来源:扣丁学堂
看到在扣丁学堂刚开始学习大数据的一位同学记录的大数据学习笔记,小编把这份大数据学习笔记整理出来分享给正在学习或者是正在犹豫要不要学习的同学们,希望这份大数据学习笔记能方便你日后的学习。
一、定义(Data Mining)
1、数据挖掘:一种通过数理模式来分析企业内存储的大量资料,以找出不同客户和市场划分,分析出消费者喜好和行为的方法。也就是从存放在数据库、数据仓库和其他信息库中的数据中获取有效的、有潜在价值的、最终可被理解的模式的非平凡过程。
如:像我在当当网买书时,当当网的系统会根据我近期所购买的书的记录进行分析,然后在我下次登录当当网时,该系统会自行向我推荐其他类似的书籍。这个过程我想应该是用到数据挖掘的理论和方法。
2、数据挖掘在人工智能领域(AI)习惯上被称为数据中的知识发现,因此有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
知识发现过程分为3个阶段:1、数据准备;2、数据挖掘;3、结果表达和解释。
3、数据挖掘的起源
数据挖掘来自这些领域的思想:1、来自统计学的抽样、估计和假设检验;2、人工智能、模式识别、机器学习的搜索算法、建模理论和学习理论;3、其他领域的思想:最优化、进化计算、信号处理、可视化和信息检索。
4、数据挖掘的用途:
(1)、分类
(2)、估值
(3)、预言
(4)、相关性分组或关联规则
(5)、聚集
(6)、描述和可视化
(7)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
5、数据挖掘的第一步是描述数据、计算统计变量(如均值、方差等),再用图表或图片的形式直观地演示出来,就可以看出一些变量之间的相关性。因此为了挖掘工作提供足够的证据,必须为历史数据建立一个预言模型,然后用另外一些数据对这个模型进行测试,最后验证这个模型。
以上就是刚开始学习大数据的同学整理的大数据学习笔记,也许不完善,但是很清晰,希望正在学习的你或者是准备学习的你能在在学习过程中这么用心。想要观看大数据视频教程的同学可以直接登陆扣丁学堂的官网,那里的大数据视频教程免费提供给学员观看。