大数据聚类算法研究(汽车类的)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据聚类算法研究(汽车类的)

摘要:本文分析了汽车行业基于不同思想的各类大数据聚类算法,用户应该根

据实际应用中的具体问题具体分析,选择恰当的聚类算法。聚类算法具有非常广

泛的应用,改进聚类算法或者开发新的聚类算法是一件非常有意义工作,相信在

不久的将来,聚类算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃

的发展。

关键词:汽车;大数据;聚类算法;划分

就精确系数不算太严格的情况而言,汽车行业内对各种大型数据集,通过对

比各种聚类算法,提出了一种部分优先聚类算法。然后在此基础之上分析研究聚

类成员的产生过程与聚类融合方式,通过设计共识函数并利用加权方式确定类中心,在部分优先聚类算法的基础上进行聚类融合,从而使算法的计算准度加以提升。通过不断的实验,我们可以感受到优化之后算法的显著优势,这不仅体现在

其可靠性,同时在其稳定性以及扩展性、鲁棒性等方面都得到了很好的展现。

一、汽车行业在大数据时代有三个鲜明的特征

1、数据全面数字化,第一人的行为数字化,包括所有驾驶操作、每天所有的行为习惯,甚至是座椅的习惯等等都将形成相应的数字化。以车为中心物理事件

的数字化,车况、维修保养、交通、地理、信息等等都会形成数字化,全面数字

化就会形成庞大的汽车产业链,汽车的大数据生态圈。这是第一个特点。

由于大数据拥有分析和总结的核心优势,越来越多的品牌厂商和广告营销机

构都在大力发展以数据为基础的网络营销模式,这些变化也在不断地向传统的汽

车营销领域发起进攻。从前品牌做营销仅能凭主观想法和经验去预估,而现在大

数据的出现则可以帮助客户进行精准的客户群定位。

2、第二个特点是数据互联资源化。有一个领导人讲过:未来大数据会成为石油一样的资源。这说明大数据可以创造巨大的价值,甚至可能成为石油之外,更

为强大的自然资源。

大数据首先改变了传统调研的方式。通过观察Cookie等方式,广告从业者可

以通过直观的数据了解客观的需求。之前的汽车市场调研抽样的样本有限,而且

在问题设计和角度选取过程中,人为因素总是或多或少地介入,这就可能会影响

到市场调研的客观性。大数据分析不只会分析互联网行为,也会关注人生活的更

多纬度。数据可以更加丰富,比如了解到消费者的习惯和周期、兴趣爱好、对人

的理解会更加深刻。这些因素综合在一起就会形成一笔无形且珍贵的数据资源。

有了大数据的支持,便可以实现曾经很多只能“纸上谈兵”的理论。

3、第三个特点则是产生虚拟的汽车,人和汽车可以对话,更具有智慧的新兴产业。这个就是未来在大数据时代,汽车行业会呈现的特点。

在这个情况下,我们以人、车、社会形成汽车产业大数据的生态圈,现实生

活中每个有车一族所产生的数据都对整个生态圈有积极的影响。车辆上传的每一

组数据都带有位置信息和时间,并且很容易形成海量数据。如果说大数据的特征

是完整和混杂,那么车联网与车有关的大数据特征则是完整和精准。如某些与车

辆本身有关的数据,都有明确的一个用户,根据不同用户可以关联到相应的车主

信息,并且这些信息都是极其精准的,这样形成的数据才是有价值的数据。

二、汽车行业大数据下聚类算法的含义

汽车行业大数据是指以多元形式,由许多来源搜集而组成的庞大数据组。电

子商务网站、社交网站以及网页浏览记录等都可以成为大数据的数据来源。同时,

大数据又是指在现有的技术条件下无法在规定的时间内对数据进行传输、存储、计算和应用等的数据集合。大数据的数据体量巨大,数据的类型繁多,价值密度较低,处理速度较快,其核心的价值在于对海量的数据进行存储和分析,具有成本低、效率高等优势。随着信息化技术的不断发展,大数据已经成为当代炙手可热的一个话题,各个行业都在对大数据下的聚类算法的应用进行研究。大数据是信息化社会的一个产物,像是一块蕴含着能量的煤矿,利用大数据的优势,可以为大量消费者提供汽车行业产品或服务,提供精准营销的技术,促进汽车行业企业的转型和升级。

采用聚类算法对汽车行业大数据进行处理解决抽样数据处理上的局限性,通过聚类,可以对大数据集进行随机分块,每一块又是原数据集的一个可以保证抽样能够独立进行的样本集合,在足够小的范围之内保证处理结果的可靠性。

在物联网技术的不断发展下,聚类作为数据挖掘的一个重要的手段,在无先验知识的前提下揭示汽车行业数据之间的内在联系,将某些具有共同属性的数据聚成一个簇,减小簇间的相似性,扩大簇内数据之间的相似性,是数据挖掘以及机器等学习领域的重要研究课题,属于无监督模式识别的一种。大数据环境的发展,使得在数据处理上的要求不断增加,面对每天所存在的几百维乃至上万维的数据,传统的聚类算法不能够很好地与这些任务要求进行匹配,导致处理效率低下、效果差等情况的出现,迫切需要定义新的聚类算法,提高算法的稳定性和保证聚类效果的准确性。

三、汽车行业大数据下的聚类算法划分

1、传统聚类算法

传统聚类算法包含以下几种算法[1]

(1)分段聚类算法。该类型的划分是基于点的相似性,在单个分区中根据彼此之间的分离距离来进行划分,但是由于其需要用户预先定义一个不具有确定性的参数K。现今具有代表性的分区算法主要有CLARANS,PAN和K-Means等。

(2)分层聚类算法。它就是指将数据按照不同的层次来进行划分,划分的依据是根据数据自底向上或自顶向下来进行的,划分后的每种结果就代表了一种层次分类树。现阶段的代表性算法有ROCK,CURE和BIRCH等。

(3)基于密度的聚类算法。这种聚类划分方法能够有效地过滤噪音,以一种任意的方式来发现不同密度的区域,以此来达到处理数据的目的。

2、基于抽样的聚类算法

基于抽样的聚类算法只需要在数据集的一个样本上应用聚类算法就能够推广到整个数据集,重点关注较小的数据,有效减少聚类的时间和节省空间,提高数据处理的经济效益。主要是根据以下的公式来推测其样本的大小。

(1)基于随机选择的聚类算法(Clustering Algorithm based on Randomized Search,CLARANS)。它是由CLARA演变过来的,继承了CLARA在处理规模数据上的优势,有效地节约运行的时间和降低算法的复杂性,其主要目的就是通过一个整体的图来挖掘出其局部的最优处理方式,在动态处理上具有明显的优势。

(2)利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies,BTRCH)。它可以利用其自身的数据结构,对所有存在的数据点进行筛选之后存放到内存中去,提高数据的处理效率。在这个算法中有两个重要的步骤,首先是它需要对数据点进行扫描并在内存中建立一棵树;其次就是运用聚类算法对所建立好的树的各个叶子节点进行处理。

(3)针对汽车行业大型数据库的高效的聚类算法(Clustering Using

相关文档
最新文档