从生活实例看大数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单来说,大数据挖掘即指从大 量数据中自动搜索隐藏于其中的有着 特殊关系性的信息的过程,其常用方 法有分类、聚类、回归分析、关联 规则、神经网络方法、Web数据挖 掘等。
分类 数据被喻为蕴藏能量的煤矿, 就像煤炭可以分为焦煤、无烟煤、肥 煤、贫煤等一样,每种数据也有自身 的特点,比如频率、量、速度、类型 和真实性等等,从而将数据分出来。 像好坏、高低、胖瘦……这些就是生 活中最简单的分类方法。 再比如,信用卡公司将持卡人信 誉分为良好、一般和较差三类,如果 建立“信誉良好的客户是那些收入在 5万元以上,年龄在40至50岁之间的 人士”这样一个模型,就可以根据这 个模型对新的记录进行分类,从而判 断一个新持卡人的信誉等级是什么。
已被广泛应用于金融行业企业中用以 预测客户的需求,各银行在自己的 ATM机上通过捆绑客户可能感兴趣 的信息供用户了解并获取相应信息来 改善自身的营销。
回归分析 回归分析反映了数据库中数据 属性值的特性,通过函数表达数据映 射的关系来发现属性值之间的依赖关 系。它可以应用到对数据序列的预测 及相关关系的研究中去。在市场营销 中,回归分析可以被应用到各个方 面。如通过对本季度销售的回归分 析,对下一季度的销售趋势作出预测 并做出针对性的营销改变。
关联规则 什么会促进蛋挞的销量?是飓 风,飓风天气下蛋挞更受欢迎;啤酒 与哪类产品摆放在一起会卖得更多? 是尿不湿,父亲们在购买尿不湿的时 候总是喜欢再买些啤酒……这些事物 彼此之间看似毫无关联,但里面却隐 藏着关联规则。 关联规则是隐藏在数据项之间 的关联或相互关系,即可根据一个数 据项的出现推出其他数据项。关联规 则的挖掘过程有两个阶段:第一阶段 是从海量原始数据中找出所有的高频 项目组;第二阶段是从这些高频项目 组产生关联规则。关联规则挖掘技术
聚类 聚类与分类相似,但目的不同。
聚类是针对数据的相似性和差异性将 一组数据分为几个类别。属于同一类 别的数据间相似性很大,但不同类别 之间数据的相似性很小,跨类的数据 关联性很低。
比如在商务上,聚类能帮助市 场分析人员从客户基本库中发现不同 的客户群,用购买模式刻画不同的客 户群的特征;在生物学上,聚类能用 于推导植物和动物的分类,对基因进 行分类,获得对种群中固有结构的认 识。聚类在汽车保险单持有者的分 组,及根据房子的类型、价值和地理 位置对一个城市中房屋的分组上也可 以发挥作用。
大 数 据 Big data
从生活实例看大数据挖掘
牛奶到底和谁摆放一起销量高?啤酒为什么与尿不湿摆放一起卖得更多?让大数 据挖掘来告诉你真相!
超市里,牛奶到底和哪种商品摆 放一起销量更高?啤酒为什么与尿不 湿摆放在一起会卖得更多?乍一看, 它们似乎毫无联系,而大数据挖掘却 能告诉你它们之间的关联。那么,大 数据挖掘是什么呢?又有哪些方法?
用户都是笼统的用户,并没有区分用 户的个体。目前Web数据挖掘面临着 一些问题,包括:用户的分类问题、 网站内容时效性问题,用户在页面停 留时间问题,页面的链入与链出数问 题等。(编辑/任伟)
31
30
Leabharlann Baidu
2018年 第5期
一般说来,网络中所含的神经元个数 越多,则它能记忆、识别的模式也就 越多。
Web数据挖掘 Web数据挖掘是一项综合性技 术,指Web从文档结构和使用的集合 C中发现隐含的模式P,如果将C看做
是输入,P看做是输出,那么Web挖 掘过程就可以看做是从输入到输出的 一个映射过程。当前越来越多的Web 数据都是以数据流的形式出现的,因 此对Web数据流挖掘就具有很重要的 意义。目前常用的Web数据挖掘算法 有:PageRank算法,HITS算法以及 LOGSOM算法。这三种算法提到的
神经网络方法 神经网络作为一种先进的人工智 能技术,因其自身自行处理、分布存 储和高度容错等特性非常适合处理非 线性的以及以模糊、不完整、不严密 的知识或数据为特征的处理问题。 人工神经网络首先要以一定的 学习准则进行学习,然后才能工作。 人工神经网络对手写“A”“B”两 个字母的识别,如果规定当“A”输 入网络时,输出“1”,而当输入为 “B”时,输出为“0”。通过多次 的学习模拟,来强化网络对上述规则 的记忆,因而减少犯错误的可能性。
分类 数据被喻为蕴藏能量的煤矿, 就像煤炭可以分为焦煤、无烟煤、肥 煤、贫煤等一样,每种数据也有自身 的特点,比如频率、量、速度、类型 和真实性等等,从而将数据分出来。 像好坏、高低、胖瘦……这些就是生 活中最简单的分类方法。 再比如,信用卡公司将持卡人信 誉分为良好、一般和较差三类,如果 建立“信誉良好的客户是那些收入在 5万元以上,年龄在40至50岁之间的 人士”这样一个模型,就可以根据这 个模型对新的记录进行分类,从而判 断一个新持卡人的信誉等级是什么。
已被广泛应用于金融行业企业中用以 预测客户的需求,各银行在自己的 ATM机上通过捆绑客户可能感兴趣 的信息供用户了解并获取相应信息来 改善自身的营销。
回归分析 回归分析反映了数据库中数据 属性值的特性,通过函数表达数据映 射的关系来发现属性值之间的依赖关 系。它可以应用到对数据序列的预测 及相关关系的研究中去。在市场营销 中,回归分析可以被应用到各个方 面。如通过对本季度销售的回归分 析,对下一季度的销售趋势作出预测 并做出针对性的营销改变。
关联规则 什么会促进蛋挞的销量?是飓 风,飓风天气下蛋挞更受欢迎;啤酒 与哪类产品摆放在一起会卖得更多? 是尿不湿,父亲们在购买尿不湿的时 候总是喜欢再买些啤酒……这些事物 彼此之间看似毫无关联,但里面却隐 藏着关联规则。 关联规则是隐藏在数据项之间 的关联或相互关系,即可根据一个数 据项的出现推出其他数据项。关联规 则的挖掘过程有两个阶段:第一阶段 是从海量原始数据中找出所有的高频 项目组;第二阶段是从这些高频项目 组产生关联规则。关联规则挖掘技术
聚类 聚类与分类相似,但目的不同。
聚类是针对数据的相似性和差异性将 一组数据分为几个类别。属于同一类 别的数据间相似性很大,但不同类别 之间数据的相似性很小,跨类的数据 关联性很低。
比如在商务上,聚类能帮助市 场分析人员从客户基本库中发现不同 的客户群,用购买模式刻画不同的客 户群的特征;在生物学上,聚类能用 于推导植物和动物的分类,对基因进 行分类,获得对种群中固有结构的认 识。聚类在汽车保险单持有者的分 组,及根据房子的类型、价值和地理 位置对一个城市中房屋的分组上也可 以发挥作用。
大 数 据 Big data
从生活实例看大数据挖掘
牛奶到底和谁摆放一起销量高?啤酒为什么与尿不湿摆放一起卖得更多?让大数 据挖掘来告诉你真相!
超市里,牛奶到底和哪种商品摆 放一起销量更高?啤酒为什么与尿不 湿摆放在一起会卖得更多?乍一看, 它们似乎毫无联系,而大数据挖掘却 能告诉你它们之间的关联。那么,大 数据挖掘是什么呢?又有哪些方法?
用户都是笼统的用户,并没有区分用 户的个体。目前Web数据挖掘面临着 一些问题,包括:用户的分类问题、 网站内容时效性问题,用户在页面停 留时间问题,页面的链入与链出数问 题等。(编辑/任伟)
31
30
Leabharlann Baidu
2018年 第5期
一般说来,网络中所含的神经元个数 越多,则它能记忆、识别的模式也就 越多。
Web数据挖掘 Web数据挖掘是一项综合性技 术,指Web从文档结构和使用的集合 C中发现隐含的模式P,如果将C看做
是输入,P看做是输出,那么Web挖 掘过程就可以看做是从输入到输出的 一个映射过程。当前越来越多的Web 数据都是以数据流的形式出现的,因 此对Web数据流挖掘就具有很重要的 意义。目前常用的Web数据挖掘算法 有:PageRank算法,HITS算法以及 LOGSOM算法。这三种算法提到的
神经网络方法 神经网络作为一种先进的人工智 能技术,因其自身自行处理、分布存 储和高度容错等特性非常适合处理非 线性的以及以模糊、不完整、不严密 的知识或数据为特征的处理问题。 人工神经网络首先要以一定的 学习准则进行学习,然后才能工作。 人工神经网络对手写“A”“B”两 个字母的识别,如果规定当“A”输 入网络时,输出“1”,而当输入为 “B”时,输出为“0”。通过多次 的学习模拟,来强化网络对上述规则 的记忆,因而减少犯错误的可能性。