214342425_基于改进K-均值聚类算法的汽车用户行为分析方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第47卷第3期
燕山大学学报
Vol.47No.3
2023年5月
Journal of Yanshan University
May 2023
㊀㊀文章编号:1007-791X (2023)03-0229-07
基于改进K -均值聚类算法的汽车用户行为
分析方法研究
王㊀健1,毋丽丽1,裴春琴1,郝耀军1,刘文远2,∗
(1.忻州师范学院计算机系,山西忻州034000;
2.燕山大学信息科学与工程学院,河北秦皇岛066004)
㊀㊀收稿日期:2022-11-13㊀㊀㊀责任编辑:温茂森
㊀㊀基金项目:山西省基础研究计划资助项目(202103021224330)
㊀㊀作者简介:王健(1982-),男,河北秦皇岛人,博士,高级工程师,主要研究方向为推荐算法与推荐攻击检测;∗通信作者:刘文远(1969-),男,河北秦皇岛人,博士,教授,博士生导师,主要研究方向为智能化控制,Email:wyliu@㊂
摘㊀要:汽车用户的驾驶行为和操作习惯等决定着驾驶是否存在风险,对于道路交通安全具有重要的意义,针对这种情况,提出一种用于预测汽车用户驾驶行为风险等级的模型㊂该模型为了提高模型的分类效率,在自组织映射神经网络算法中采用遗忘第二名的策略,然后结合自组织映射神经网络改进K -均值聚类分析方法,实现对于车辆驾驶人员的风险行为等级进行划分,通过聚类分析得到风险标签后,利用XGBoost 算法实现对于用户风险行为的辨识㊂实验结果表明,改进算法的聚类精确度和运行效率都得到了提高,预测准确率为98%,召回率为98%,F1值98%,kappa 系数高达0.97,远远超过其他集成辨识模型,表明本文模型在汽车用户行为的分辨准确率上得到有效提高㊂
关键词:汽车用户;驾驶行为;K -均值聚类算法;行为分析
中图分类号:TP311.13㊀㊀文献标识码:A㊀㊀DOI :10.3969/j.issn.1007-791X.2023.03.006
0㊀引言
互联网和大数据的出现,可以有效提高各类数据的获取能力[1]
㊂汽车作为现代家庭中必备的
第二生活空间,同样记录了大量的数据,通过对车联网数据的分析,可以总结出汽车用户的驾驶习惯㊁出行日常㊁线路选择等[2]㊂根据车辆数据反映出来的车辆状态和用户的操作状态,可以提前感知危险因素,及时对相关问题进行对症处理,保障用户生命财产安全[3]
㊂
汽车用户的行为和操作习惯等对于道路交通
安全具有重要的意义,大量的转弯㊁加速㊁变道等行为均会对车辆状态造成影响,也会使得车辆驾驶风险大大提高[4]㊂利用算法分析车联网数据,对于车辆驾驶行为的辨识具有重要研究意义,国内外研究人员在相关方面也做了大量的研究工作㊂Mohamad 等[5]对车辆异常驾驶行为等进行了
分析,利用GPS 数据构建异常行为检测系统,根据车辆的车速和位置状态的变化对异常驾驶行为进行辨识,取得了不错的效果,但是该方法对于驾驶人员的状态分析不够全面㊂Zoran 等[6]通过聚类分析的方法,对驾驶员风险倾向性进行了分类研究,采用主成分分析结合聚类研究的手段,对车辆的GPS 数据进行分析,利用模型对驾驶风险识别,该方法的主要问题在于模型的分类效率较低㊂朱冰等[7]同样通过聚类分析的研究方法,对车辆安全性展开研究,通过对不同逻辑场景的驾驶行为进行特征分析,对其安全性展开评价,并进行了实验验证㊂该方法以自动驾驶汽车作为研究对象,缺乏对于用户行为以及样本不平衡问题的考虑㊂
基于上述问题,本文对汽车用户的行为进行分析,利用聚类分析的方法,构建驾驶行为㊁数据和风险的关系理论,对用户行为的驾驶风险进行有效辨识㊂利用改进K -均值聚类算法实现驾驶风险的聚类分级,结合极端梯度提升(eXtreme
230㊀燕山大学学报2023
Gradient Boosting,XGBoost)算法快速实现对风险等级的辨识,然后通过与其他算法对比,证明本文算法的有效性和优越性㊂准确辨识用户驾驶风险等级,对于优化用户的驾驶行为,提高车辆行驶安全性,具有重要的意义㊂
1㊀行为数据分析
1.1㊀K-均值聚类算法
聚类分析方法是数据挖掘的一种方式,通过无监督的数据学习,将研究的内容和对象进行分类㊁分组统计,从而将具有相同特征的数据归为一类,形成多个聚类类型,进而根据数据行为进行划分,得到归类的结果[8]㊂最典型的聚类分析方法为K-均值聚类分析方法㊂
K-均值聚类算法主要步骤为:
1)假设整个样本集的数据量为n,随机选择数据初始聚类中心个数为K个;
2)对各个样本计算其与初始聚类中心之间的欧式距离;
3)计算误差平方和函数J c;
4)计算J c在两次迭代的距离是否小于设定阈值,若小于则算法结束,否则继续迭代,对聚类中心进行计算,得到新的K个聚类中心;
5)返回步骤(2),直至误差平方和函数J c为最小,或符合中止条件㊂
1.2㊀SOM神经网络
自组织映射(Self-organizing map,SOM)网络是一种神经网络算法,通过对输入到空间中数据的自学,将高维数据映射到低维空间,属于一种数据降维的算法[9]㊂SOM神经网络属于一种无监督的人工神经网络,主要包括输入层和竞争层,其竞
争层内的神经元存在侧向连接,通过不断的训练
和权值优化实现聚类分析,并通过近邻函数关系
来维持整个网络的拓扑结构[10]㊂该算法可以用于模式识别领域内数据样本的自动聚类,从而有效
识别事物的内部关联㊂
SOM神经网络竞争层的权重调整规则主要为胜者为王规则,具体步骤为:
1)归一化㊂对输入到网络中的样本数据经过数据筛选后进行归一化,同时对其权值向量构成的矩阵进行归一化㊂
2)判断获胜节点㊂当有样本输入到网络中时,将输入样本与竞争层节点的权值向量进行对比,选择相似性最大的权重向量为获胜方㊂3)权值调整和网络输出㊂获胜节点对权值进行优化,获胜方的神经元输出为1,表达式为
u j=
1㊀jɪN C
0㊀j∉N C
{㊂(1) 1.3㊀基于SOM神经网络改进的K-均值聚类
算法
㊀㊀考虑到SOM神经网络在迭代过程中会出现钟摆效应,需要对算法进行适当优化,通过遗忘第二名的规则,可以有效改善相关问题㊂
算法权值优化的过程为:
设算法输入向量为X,SOM神经网络竞争层
中存在有k个输出神经元,则其中第j个输出神经
元的权值向量可以表示为
w
j
=(w1j,w2j, ,w pj)T,(j=1,2, ,k),(2)输入向量的最佳匹配节点为与X具有最高相似度的竞争层节点,用w∗表示,则存在
S(X,w∗)⩾S(X,w j)㊀s.t.S(X,w j)=(x1-w1j)2+ +(x p-w pj)2,(3)式中,S表示欧氏距离,p为输入向量的维数㊂
引入遗忘第二名的调整规则,则系数μj可以
表示为
u j=1㊀㊀j=c
-1j=r
0其他
ì
î
í
ïï
ïï
,(4)
式中,c为代表最佳匹配的获胜节点,r为第二名匹配节点㊂
算法的处理需要引入样本密度d(x i),其定义式为
d x i()=ðk j=1d x i,x j()
ðn i=1d x i,x j()㊂(5)㊀㊀当算法的学习率a远大于遗忘率b时,神经网络在迭代过程中,权值可以通过下式对获胜节点c和匹配节点r进行处理:
第3期王㊀健等㊀基于改进K -均值聚类算法的汽车用户行为分析方法研究231
㊀d w ij d t =a ㊃d x i ()X i t ()-w ij t ()[]
j =c -b ㊃d x i ()X i t ()-w ij t ()[]j =r 0其他ìî
íïï
ïï㊂(6)㊀㊀通过遗忘第二名的处理方式,可以有效提高获胜神经元的竞争优势,有效降低SOM 神经网络算法的迭代钟摆效应,在汽车用户样本区别较小的情况下,能够有效进行差异化处理,充分反映样本的分布特征㊂
结合SOM 神经网络算法的改进K -均值聚类
算法的具体流程图如图1所示㊂
在图1表示的算法中,SOM 神经网络算法的时
间复杂度可表示为O (l ˑm ˑ(p ˑk +k 2+k ˑn )),其中p
为输入向量的维数,k 为竞争层的节点数,n 为输出向量的维数,m 为样本数,l 为迭代次数㊂K -均值聚类算法的时间复杂度可表示为O (t ˑm ˑn ),其中t 表示K -均值聚类算法的迭代次数㊂因此,图1中的算法复杂度可综合表示为O (l ˑm ˑk 2
)㊂
图1㊀改进K -均值聚类算法的流程图
Fig.1㊀Flow chart of improved K -means clustering algorithm
1.4㊀基于XGBoost 算法的驾驶行为风险辨识
模型
㊀㊀对于汽车用户来说,其驾驶行为各不相同,对于驾驶的操作习惯㊁激进程度等均存在较大的不平衡,XGBoost 算法[11]
能够对驾驶员在车
辆行驶过程中的驾驶行为和驾驶风险作出及时
判断㊂
设原始数据集为D ={(x i ,y i ):x i ཋR m ,y i ཋ
R },数据集中包含驾驶行程n 个,驾驶风险行为特征m 个,x i 为第i 个行程样本,对应的驾驶风险等级为y i ㊂
假设算法中集成的决策树为k 棵,则其预测
结果可以表示为
y ^
i =
ðK
k =1
f k x i (),(7)
式中,f k (x i )为对应第k 棵决策树和第i 个行程样本的预测分数,F 为集成分类器,f k ɪF ㊂则
232㊀燕山大学学报2023 XGBoost算法的损失函数可以表示为
L=ðn i=1s y i,y^i()+ðK k=1Z f k(),(8)
式中,s为算法的误差函数,Z为对应正则化项㊂
算法经过t次迭代之后,设对应第i个样本的
预测结果为y^i t,算法增量函数用f t来表示,则有
㊀L(t)=ðn i=1s(y i,y^i)(t-1)+f t(x i)+Z(f t),(9)
将式(9)通过二阶泰勒函数展开,忽略其中常数
项,进而优化损失函数,得到第j片叶子的最优权
重和目标函数的最优值:
w∗j=
G i
H i+λ
,(10)
L∗=-12ðT j=1G2i H i+2+λT
s.t.G j=ðiɪI j g i㊀H j=ðiɪI j h i㊂(11)㊀㊀利用网格搜索的方法实现模型的参数优化,有利于获得算法最优解,并通过采用十折交叉验证的方法来保证能够获得全局最优的参数组合,实现用户驾驶风险行为的辨识[12]㊂
在XGBoost算法中,假定t d表示树的最大深度,t n表示树的总个数, x 0表示特征列非缺失项数之和,m表示样本数,XGBoost算法的时间复杂度可表示为O(t nˑt dˑ x 0ˑlog m)㊂
2㊀实验结果
2.1㊀实验数据处理
实验所采用的数据为国外某公司的70名驾驶员的车联网数据,在每位测试人员的车辆上搭载了设备终端,用于检测车辆及驾驶员的数据和信息㊂监测时间共计1个月,获取到的数据信息600多万条㊂
收集到的信息包括车辆行驶状态信息㊁用户的驾驶习惯㊁车辆变加速行为等多方面的信息,考虑到本研究是关于用户驾驶安全行为的分析角度,对数据进行精简和清洗处理,最终选择的数据内容包括[13]:
1)行驶信息
相关的数据信息主要包括:车辆行驶里程㊁整车怠速时长㊁车辆夜间驾驶时长以及发动机高负荷比例等行驶状态信息㊂
2)车速信息
车速信息中关于驾驶安全行为的数据主要包括:车辆超速的平均速度㊁超速平均里程㊁最大超速速度和车速标准差等反映车速波动的数据信息㊂
3)行驶加速度
加速度中可以有效反映用户安全行为的信息主要包括:平均加速度及其标准差㊁平均负加速度及其标准差㊁急加速频率㊁急加速的里程和时间㊁急刹车频率等㊂
4)不良驾驶习惯
在不良驾驶习惯方面的相关数据主要包括:车辆最大油门次数㊁车辆急转弯次数㊁单位里程空挡滑行情况㊁低档高速里程等影响安全性的数据㊂2.2㊀聚类分析结果
利用改进K-均值聚类算法进行汽车用户行为的聚类分析,其聚类分析的结果与K值具有重要的关系,K值的设定受人为干预过多,因此需要综合考虑不同K值情况下的聚类效果[14]㊂分别考虑将样本数据分成2类(高风险㊁低风险)㊁3类(高风险㊁中风险㊁低风险)和4类(高风险㊁中风险㊁较低风险㊁低风险)等多种情况下的效果,最终得到不同K值下的聚类结果如表1所示(以行驶里程数据为例)㊂
表1㊀不同K值的行驶里程聚类结果Tab.1Clustering results of mileage with different K values%
K值高风险中风险较低风险低风险230.08 69.92 310.8623.76 65.38 49.5919.0724.8346.51㊀㊀由表1的结果可知,对于不同的K值,聚类后的结果存在明显的差异,数据分类的界限也发生明显变化㊂对于K值为2的情况,由于行驶里程的数量发生较大变化,划分的界限并不明显,产生较多的数据误判情况;当K值为3时,数据的划分更为清晰,行驶里程的差距也逐渐缩小;当K值为4的时候,行驶里程的差距进一步缩小,但是交界处的联结增多,界限反而变得模糊不清㊂于是可知K为3时,聚类效果更好㊂
利用轮廓系数来衡量聚类的效果,综合考虑内聚度和分离度两种影响因素,样本i的轮廓系数
第3期王㊀健等㊀基于改进K -均值聚类算法的汽车用户行为分析方法研究233
㊀S 可以用公式表示为
S i ()=
βi ()-αi ()
max αi (),βi (){}
,
(12)
式中,i ɪ-1,1[],α和β分别为样本点i 与组内其他样本点的平均距离和与其他组外样本点的平均距离㊂轮廓系数S 越接近1越好,得到结果如表2所示㊂
表2㊀不同K 值情况下的轮廓系数S
Tab.2㊀Silhouette coefficient S under different K values
K 值轮廓系数S 20.21330.2524
0.247
㊀㊀由表2的结果可知,K 值为3时,距离分析的效果更明显,界限更清楚㊂
为了验证优化后的SOM 算法效果,比较遗忘第二名算法的效果,对经典SOM 算法和改进后遗忘第二名算法的收敛速度进行对比,选择3组行驶里程数据进行对比㊂对比结果如表3所示㊂
表3㊀收敛的迭代次数
Tab.3㊀The number of iterations to converge
次
数据集经典SOM 算法
本文算法
14335240323
52
45
㊀㊀从表3的结果可以看到,本研究采用的遗忘第二名的算法策略,能够有效提高模型收敛速度,
有效克服经典SOM 算法在迭代过程中的钟摆效应,提高算法的计算效率㊂2.3㊀XGBoost 算法风险辨识
根据聚类分析结果和前文收集的风险驾驶行为特征数据,建立XGBoost 算法的汽车用户行为模型如图2所示
㊂
图2㊀XGBoost 算法模型
Fig.2㊀XGBoost algorithm model
㊀㊀初始样本数据主要包括综合风险驾驶行为和
上一节得到的驾驶风险等级标签,其中驾驶风险等级对应于聚类分析结果中数据所在的类㊂共获得样本数量为6430个,其中4711个样本用于训
练,占总比例的70%,其他30%作为测试样本,用于后续测试㊂
XGBoost 算法的参数配置主要包括:弱分类器
选择gbtree,弱分类器数量N 为118个,采样比例为0.35,学习率0.30,最大深度为2,最小损失函数1.3,随机种子数量为420㊂
根据风险辨识模型,将用户风险行为作为数据特征输入模型,数据标签作为驾驶风险等级,分别在训练集和测试集上进行十折交叉验证对比实验㊂每次实验将数据集分成10份,轮流取9份作训练集,剩下1份作测试集,取10次结果的平均值,估计算法的精度,从而有效降低模型的偶然误差,避免出现模型过拟合,提高模型可靠度㊂
改变弱分类器的数量N ,比较模型在不同样本集中的表现,结果如图3所示
㊂
图3㊀弱分类器的数量N 对计算精度的影响Fig.3㊀The influence of the number N of weak classifiers
on the computational accuracy
㊀㊀图3表明,随着弱分类器的数量N 的增大,模型的计算精度迅速上升,当N 的值约为50时,模型达到收敛,精度达到最高,之后精度基本保持平稳㊂且该结果在训练集㊁测试集以及十折交叉验证数据集中的效果完全一致,训练集上的精度更高,证明该模型对于用户行为的辨识方面具有不错的效果㊂将本研究模型与其他传统集成模型进行对比,利用sklearn 库函数对各个算法进行分析,比较本文算法与决策树算法㊁随机森林算法和K 近邻算法的学习曲线㊂具体结果如图4所示㊂
从图4的学习曲线结果可以看到,在拟合效果方面,各算法之间具有较大的差异㊂但是模型的收敛性均随着样本的增加而趋于稳定㊂数据结
234㊀燕山大学学报2023
果得分方面,本文的XGBoost 算法和随机森林算法的效果更好,在训练集的学习表现和测试集的性能表现方面差距较小,表现稳定㊂在样本数量
超过3500后,两种算法均取得良好的拟合效果,测试集的性能也更能稳定㊂而决策树算法在测试集和样本集的表现差距明显,缺乏稳定的表现㊂K 近邻算法则是精度上表现较差的模型㊂综合考虑学习表现和预测精度方面,本文的XGBoost 算法更胜一筹
㊂
(a)测试得分情况
(b)训练得分情况
图4㊀不同算法的学习曲线情况
Fig.4㊀Learning curves of different algorithms
㊀㊀为了可以量化对比4种模型在辨识性能上的表现,通过一系列评价指标来对这些模型的性能进行量化评价,查准率(p )㊁召回率(r )㊁F1值(F 1)分别为[15]
p =n TP
n TP +n FP ,r =
n TP
n TP +n FN
,
F 1=2pr p +r
,
其中,n TP 为正样本被正确识别的数量,n FP 为误报
的负样本数量,n TN 为负样本被正确识别的数量,n FN 为漏报的正样本数量㊂
kappa 系数(ε)的表示式为
ε=
p 0-p e 1-p e
,
式中,p 0为模型观测一致率,p e 为对应模型预测一致率㊂
利用前文4种算法对样本数据进行测试,比较其对于车辆驾驶人员的风险行为等级辨识结果如表4所示㊂
表4㊀不同算法的评分对比
Tab.4㊀Score comparison of different algorithms
算法风险等级查准率召回率F 1决策树算法
高风险
0.930.960.95中风险0.930.940.94低风险0.970.950.95加权平均0.950.960.95随机森林算法
高风险
0.970.930.94中风险0.960.950.96低风险0.970.970.98加权平均0.970.960.97K 近邻算法
高风险
0.960.890.91中风险0.950.870.93低风险0.980.990.97加权平均0.960.950.96本文算法
高风险
0.960.970.97中风险0.990.980.97低风险0.990.990.98加权平均
0.98
0.98
0.98
㊀㊀从表4的结果中可以看到,4种算法在查准率方面的表现良好,均超过95%,但本文模型的查准率更高,达到98%㊂召回率方面,本文算法同样达到98%,也超过其他3种模型算法㊂F1值方面同样最高,证明本文算法在模型辨识方面的有效性和精确性㊂在kappa 系数方面,决策树算法为
0.91,随机森林算法为0.94,K 近邻算法为0.92,而本文模型为0.97,比其他几个模型更接近于1,证明该模型的辨识精度更高,适合用于用户驾驶行为的辨识㊂
3 结论
本文提出了一种基于遗忘第二名的SOM 神
第3期王㊀健等㊀基于改进K-均值聚类算法的汽车用户行为分析方法研究235
㊀
经网络改进的K-均值聚类算法及XGBoost风险辨识模型,对汽车用户的驾驶行为分析,主要是对其存在驾驶风险情况进行辨识㊂有效地解决了K-均值算法在对用户行为进行分析时,需要提前设定聚类数目㊁聚类精确度低㊁收敛速度慢的缺陷㊂综合考虑驾驶人员的状态,通过处理后的实验数据,对XGBoost风险辨识模型进行验证,表明该模型的辨识精度更高,适合用于用户驾驶行为的辨识㊂该模型在驾驶用户的行驶安全㊁车辆监控方面具有重要的参考价值㊂
参考文献
1秦世昊翟登旺王江武等.基于大数据的车辆驾驶行为安全性研究 J .汽车文摘2022 11 9-13.
QIN S H ZHAI D W WANG J W etal.Research on safety of vehicle driving behaviors based on big data J .Automotive Digest 2022 11 9-13.
2刘冠颖郭凤香申江卫等.基于数据特征的驾驶风格分类与识别方法研究 J/OL .昆明理工大学学报自然科学版 . 2022-10-20 2022-11-13 .http ///10.16112/ki. 53-1223/n.2023.03.482.
LIU G Y GUO F X SHEN J W et al.Driving style classification and recognition method based on data features J/OL .Journal of Kunming University of Science and Technology Natural Sciences .2022-10-20 2022-11-13 .http ///10. 16112/ki.53-1223/n.2023.03.482.
3朱凯家.基于ACO+k-means算法的不同天气下驾驶行为分析 J .太原科技大学学报2022 43 4 323-328.
ZHU K J.Driving behavior analysis of passenger in different weather based on ACO+k-means algorithm J .Journal of Taiyuan University of Science and Technology 2022 43 4 323-328. 4张雅丽付锐袁伟等.考虑能耗的进出站驾驶风格分类及识别模型 J/OL .吉林大学学报工学版 .2022-10-20 2022-11-13 .http ///10.13229/ki. jdxbgxb20211000.
ZHANG Y L FU R YUAN W et al.Classification and recognition model of entering and leaving stopsᶄdriving style considering energy consumption J/OL .Journal of Jilin University Engineering and Technology Edition .2022-10-20 2022-11-13 .http ///10.13229/ki. jdxbgxb20211000.
5MOHAMAD I MOHD.ALAUDDIN M A MAHAMOD I. Abnormal driving detection using real time global positioning system data C//Proceeding of the2011IEEE International Conference on Space Science and Communication Penang Malaysia 2011 1-6.
6CONSTANTINESCU Z MARINOIU C VLADOIU M.Driving style analysis using data mining techniques J .International Journal of Computers Communications&Control 2010 55 654-663.
7朱冰张培兴赵健.面向多维度逻辑场景的自动驾驶安全性
聚类评价方法 J .汽车工程2020 42 11 1458-1463. ZHU B ZHANG P X ZHAO J.Clustering evaluation method of autonomous driving safety formulti-dimensional logical scenarios J .Automotive Engineering 2020 42 11 1458-1463.
8蒙昊蓝陈君毅陈磊等.基于自然驾驶数据的匝道行驶典型场景聚类分析 J .同济大学学报自然科学版2021 49 S1 123-131.
MENG H L CHEN J Y CHEN L et al.Clustering analysis of typical ramp scenarios based on naturalistic driving data J . Journal of Tongji University Natural Science2021 49S1 123-131.
9陈慈张敬磊于祥阁等.基于FCM-GRNN的驾驶倾向性识别方法 J .数学的实践与认识2021 51 7 90-97. CHEN C ZHANG J L YU X G et al.Driving tendency identification method based on FCM-GRNN J .Mathematics in Practice and Theory 2021 51 7 90-97.
10蔡晓禹雷财林彭博等.基于驾驶行为和信息熵的道路交通安全风险预估 J .中国公路学报2020 33 6 190-201. CAI X Y LEI C L PENG B et al.Road traffic safety risk estimation based on driving behavior and information entropy J . Journal of China Highway and Transport 2020 33 6 190-201. 11刘通付锐马勇等.考虑驾驶人风格的跟车预警规则研究 J .中国公路学报2020 33 2 170-180.
LIU T FU R MA Y et al.Research on car-following warning rules considering driverᶄs style J .Journal of China Highway and Transport 2020 33 2 170-180.
12刘通付锐张名芳等.融合K-means与高斯混合模型的驾驶风格聚类研究 J .中国安全科学学报2019 2912 40-45.
LIU T FU R MA Y et al.Study on driving style clustering based on K-means and Gaussian mixture model J .China Safety Science Journal 2019 29 12 40-45.
13柳祖鹏罗陈怡严运兵.考虑车辆跟车及换道交互参数的驾驶风格识别 J/OL .武汉理工大学学报交通科学与工程版 .2022-03-10 2022-11-13 .http ///kcms/ detail/42.1824.U.20220309.2003.083.html
LIU Z P LUO C Y YAN Y B.Driving style recognition considering vehicle following vehicle and lane changing interaction parameters J/OL .Journal of Wuhan University of Technology Transportation Science&Engineering .2022-03-10 2022-11-13 .http ///kcms/detail/42.1824. U.20220309.2003.083.html.
14姚柳成邹智宏.基于数据降维与聚类的车联网数据分析应用 J .汽车实用技术2022 47 4 24-28.
YAO L C ZOU Z H.Application of data analysis of internet of vehicles based on data dimension reduction and clustering J . Automotive Applied Technology 2022 47 4 24-28.
15张建波孙建平徐春玲等.考虑交通运行条件影响的驾驶员特征聚类 J .交通运输系统工程与信息2022 222 330-336.
ZHANG J B SUN J P XU C L et al.Clustering of driver characteristics considering the impact of traffic operating conditions J .Journal of Transportation Systems Engineering and Information Technology 2022 22 2 330-336.
下转第245页
第3期吴奕恒等㊀基于对比自监督的遥感图像场景分类245
㊀Remote sensing image scene classification based on
contrastive self-supervised learning
WU Yiheng CHEN Zhiming DAI Yingcheng OUYANG Wenxin LI Jianjun LIU Feng School of Computer Science and Information Engineering Central South University of Forestry
and Technology Changsha Hunan410000 China
Abstract The self-supervised model Masked Autoencoders based on vision Transformer is widely used in the field of remote sensing image classification because of its excellent global feature capture ability.However the Masked Autoencoders has a tendency to lose local contextual semantic information during image reconstruction training which restricts its further improvement of classification accuracy.To solve the above problems a new two-stage self-supervised remote sensing image classification model Masked Autoencoders with Contrast is proposed which combines mask reconstruction and contrast learning.In the first stage the model performs mask reconstruction pre-training to extract global features of remote sensing images.In the second stage the local context information lost in the first stage mask modeling process is supplemented by positive and negative samples in contrast learning.Finally the feature classification is completed by training a linear classifier.The method is compared with mainstream self-supervised classification methods and supervised classification methods in experiments on the publicly available remote sensing image datasets AID and NWPU-RESISC45.The experimental results show that the proposed model achieves95.37%and95.14% classification accuracy on the two datasets respectively with better performance than mainstream self-supervised models such as DINO MoCo SSGANs.It is close to the mainstream supervised models such as GLANet CANet MG-CAP Sqrt-E and has good application value.
Keywords self-supervised learning contrastive learning remote sensing images feature extraction unsupervised pre-training (上接第235页)
Research on behavior analysis of automobile users based on
improved K-means clustering algorithm
WANG Jian1,WU Lili1,PEI Chunqin1,HAO Yaojun1,LIU Wenyuan2
(puter Department,Xinzhou Normal University,Xinzhou,Shanxi034000,China;
2.School of Information Science and Engineering,Yanshan University,Qinhuangdao,Hebei066004,China)
Abstract:The driving behavior and operating habits of car users determine whether there is risk in driving,which is of great significance to road traffic safety.In view of this situation,a risk level prediction model based on car usersᶄdriving behavior is proposed.The strategy of forgetting the second place is adopted in the SOM neural network algorithm to improve the classification efficiency of the model.The SOM neural network is used to improve K-means clustering analysis method and then the classification of risk behavior of vehicle drivers is realized.After the risk label is obtained by cluster analysis,the XGBoost algorithm is used to identify the userᶄs risk behavior.The experimental results show that the clustering accuracy and operating efficiency of the improved algorithm is improved;the prediction accuracy rate is98%,the recall rate is98%,the F1value is98%,and the kappa coefficient is as high as0.97,far exceeding other integrated identification models.The result shows that the proposed model in this paper is effectively improved in the identification of car user behavior.
Keywords:automobile users;driving behavior;K-means clustering algorithm;behavior analysis。