基于改进K-means算法的物流配送中心选址研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于改进K-means算法的物流配送中心选址研究
作者:姚佼吴秀荣李皓谢贝贝王诗璇梁益铭
来源:《物流科技》2024年第05期
Research on Logistics Distribution Center Location Selection Based on Improved K-means Algorithm
摘要:针对传统K-means算法需要主观设定K值及无法处理类别型数据问题,文章运用肘部法及轮廓系数法确定合理K值,对类别型数据采取独热编码(One-Hot Encoding)转换为可以处理的连续型数据,并将其运用到在物流配送中心选址中;并综合考虑多种类别的影响因素,构建了相应的影响因素指标体系,提出的模型能够识别输入数据的数值型及类别型数据,实现样本的有效聚类。
相关的案例分析结果表明,相比传统K-means聚类,文章的改进K-
means算法选址结果可使物流总成本降低8.76%,运营成本降低14.85%,固定成本降低
8.09%,效果显著。
关键词:物流配送中心选址;K-means聚类算法;肘部法;轮廓系数法;独热编码
中图分类号:F252.14 文献标志码:A
DOI:10.13714/ki.1002-3100.2024.05.003
Abstract: To address the limitations of the traditional K-means algorithm, such as the subjective determination of the number of clusters K and its inability to handle categorical data, this research utilize the elbow method and silhouette coefficient method to determine an optimal value for K. Categorical data was transformed into continuous data that can be processed by using one-hot encoding, and this approach was applied in the site selection of logistics distribution centers. Furthermore, a comprehensive consideration of various influencing factors was incorporated by constructing a corresponding index system for these factors. The proposed model is capable of identifying both numerical and categorical data in the input dataset, enabling effective clustering of samples. The results of the case analysis demonstrate that, compared to traditional K-means clustering, the improved K-means algorithm in this study yields significant benefits in terms of site selection for logistics centers. Specifically, the results show a reduction of 8.76% in overall logistics costs, a 14.85% decrease in operational costs, and an 8.09% decrease in fixed costs. These findings indicate a notable improvement in performance.
Key words: logistics distribution center location selection;
K-means clustering; elbow method; silhouette coefficient method; one-hot encoding
引言
近年來,伴随着全球经济的快速发展,电子商务领域空前繁荣,物流业更是被称为“第三利润源泉”,2010年至2020年间我国快递行业业务量总量逐年增长,预计2021年至2025年,快递业务量年均增长15.4%,为满足快递业务的发展需求,合理的物流配送中心位置显得尤为重要。
目前国内外对物流配送中心的选址研究主要有:在应急物流选址方面,Özdamar等提出了自然灾难发生后的应急物流和应急物资配置问题,以物资送达时间最短和救治伤患延误最小建立一种多目标物流选址模型[1]。
Mohri运用ArcGIS软件研究了应急物资的配送问题[2]。
我国的欧忠文等最先提出应急物流的概念,提出设立应急处理设施和技术平台的观念[3];丁雪枫等构建了考虑总成本、公平性和效率性的多目标应急设施选址模型[4]。
在生鲜物流选址方面,HE X D通过阐述生鲜农产品物流的系统节点成员微观行为与系统宏观结构演化关系,揭示生
鲜农产品物流生态系统演化的复杂性,以此进一步促进生鲜农产品物流生态系统网络的全面协调和优化,最终提高生鲜农产品物流的整体性能[5]。
李晶晶根据生鲜农产品易腐败的特性,分析了新鲜度降低和打折销售对顾客的影响,引入新鲜度函数建立满足需求为前提、总成本最小为目的的冷链配送中心选址模型[6]。
在逆向物流选址方面,Tadaros针对锂离子电池上市时间短但丢弃数量严重的现象,以最低的收集成本、运输成本、处理成本以及建设设施成本之和最小为约束来恰当安排锂离子电池的选址位置和数量,最终成功解决了废旧锂电池的归属问题[7]。
Guo分析了政府补贴对消费者、电商企业、电商平台的作用机制,这在促进快递包裹回收以及明确不同主体战略选择层面的意义非凡[8]。
在物流配送中心选址的方法方面,主要包括定性研究法和定量研究法。
其中定性研究法通常采用专家判断或者多指标评价法来选择最优方案,如张春玲运用模糊综合评价法和层次分析法解决了多个备选点最优的问题[9]。
定量研究法主要通过数据统计和分析,并使用数学模型对各种选址方案进行模拟分析,常见的方法有多目标规划方法、聚类算法和遗传算法。
其中聚类算法具有能够识别数据中的潜在模式和结构,以发现不同地点的相似性和差异性这一特点广泛应用于选址问题中,Francisco运用多项式Logit模型研究了中国大陆跨国企业在德国投资时不同聚集网络类型的优缺点及选址问题[10]。
朱晨阳分析了海南省生鲜农产品物流配送中心和配送中心网络结构现状,结合实际引入配送时间满意度函数,建立了考虑多种因素的多目标模型[11]。
徐昊源等基于K-means聚类方法,以新鲜度损耗成本最小为目标对生鲜自提柜进行选址,并结合建设与运营成本给出最佳的自提柜设置数量[12]。
薛德琴等采用模糊综合评价法和层次分析法针对已经划分完毕的协同配送区域具体选址确定两种方案[13]。
然而在运用K-means算法进行聚类选址时,通常需要预先指定聚类数量K,而这个值的选择通常是基于经验或试错来进行的,这会导致算法结果的不确定性和不稳定性,且由于实际的数据大多数是数值型和类别型变量混合,该算法无法对类别型变量进行聚类。
基于上述研究问题,本文主要从K值确定及数据类型的聚类对K-means算法进行优化。
本文将综合运用肘部法及轮廓系数确定K-means算法中的合理K值;针对无法处理类别型变量的问题,采用变量编码的方法,将类别型变量转化为数值型变量,然后再进行聚类。
最后基于实际数据,对研究区域的最优物流配送中心位置进行进一步的分析探讨。
1 物流配送中心选址影响因素分析与指标体系构建
1.1 影响因素初步获取
配送中心选址过程中需考虑多种影响因素,本文对2022年以来的文献进行梳理总结,将影响因素分为经济因素、经营环境因素、基础设施因素、自然因素、运输物品特点因素和其他因素六大类。
对影响因素统计分类后结果如图1所示,根据ABC分类法,对物流配送中心选址的各项影响因素进行分类,具体可分为关键因素、一般因素和次要因素三类。
通过ABC分类法,对选址文献进行综合考虑,本文选取以下划分标准对物流配送中心选址影响因素进行分
类:累计频率为0%~80%为关键影响因素,80%~90%为一般影响因素,90%~100%为次要因素。
由图1可知,运输成本、运营成本、固定成本、需求量、服务满意度水平、运输方式、道路可达性和交通设施这8项因素为关键影响因素,经营环境和地形条件为一般影响因素,其余为次要影响因素。
本文将以关键影响因素为基础探究选址问题。
1.2 影响指标体系构建
结合数据的可获得性及影响因素特点,本文将建立物流配送中心选址影响因素指标体系如表1所示:
2 基于改进K-means算法的物流配送中心选址模型
2.1 K值确定
K-means算法中,K值决定在该聚类算法中所要分配聚类的簇的多少,簇的多少影响着算法的聚类效果。
而通常情况下,想确定最佳K值比较困难,目前常用的确定K值的方法有肘部法及轮廓系数法。
肘部法聚类时使用的评价指标为数据集中所有样本点到其中心簇的距离之和的平方(SSE),肘部法选择的并不是误差平方和最小的K值,而是误差平方和突然变小时对应的K值,因此对于降低速率较为均匀的数据无法确定合适K值。
在此种情况下,轮廓系数法能够很好地解决该问题。
轮廓系数值是常用的聚类效果评价指标,该指标结合内聚度和分离度两个因素,具体计算过程如下:
(1)假设已经通过聚类算法将数据进行了聚类,并最终得到k个簇,对于簇中的每个样本点i,分别计算其轮廓系数,其中需要对每个样本点i计算下面两个指标:
①ai为样本点i到与其同属同一个簇的其他样本点的距离平均值,该值越小,说明该样本属于该类的可能性越大。
②bi为样本点i到其他簇中所有样本的平均距离的最小值。
(2)该样本点的轮廓系数为:
对于所有样本点的轮廓系数的平均值为该聚类结果的总轮廓系数。
Si∈-1,1,越接近1聚类效果越好。
2.2 不同类别变量的处理
本文数值型数据均采取归一化处理,在影响选址的指标体系中除数值型数据外,还有类似运输方式等类别型数据,对于该种类型数据的处理本文采取独热编码(One-Hot Encoding)将每个类别值表示为一个二进制向量,转换为可以处理的连续型数据。
该种方法保留了类别信息,不引入任意的数值关系,同时可以避免数值的大小对模型产生不正确的影响。
适用于大多数机器学习算法,尤其是那些基于距离度量的算法,如本文的K-means算法。
獨热编码的过程如下:首先,确定类别型特征中的所有不同类别值。
然后,对于每个类别值,创建一个维度与类别数量相等的二进制向量。
最后,将每个二进制向量的对应维度上的值设置为1,其他维度上的值设置为0。
如表1中运输类型指标,有铁路/公路/航空三种运输方式,通过独热编码的方式可转化为:铁路:1,0,0;公路:0,1,0;航空:0,0,1。
原来的类别型特征被转换为了三个维度的连续型数据,继而能够在后续聚类算法中应用。
2.3 物流配送中心选址模型构建
Mac Queen首次提出了K均值聚类算法,它是一种非监督学习的硬聚类算法,通过迭代的方式寻找最优的聚类结果。
假设已获取的物流配送中心营业点样本点有I=1,2,…,i个,需要考虑的影响因素具有N=1,2,…,n个,对于第i个样本点其特征向量可以表示为x=x,x,…,x;聚类中心有K=1,2,…,k个,对于第k个聚类中心其特征向量可以表示样本
y=y,y,…,y。
在聚类过程中,一个关键问题是如何定义样本之间的相似性度量函数。
常见的方法是使用欧氏距离作为度量样本间距离的方式,欧氏距离是一种常见的距离度量方法,用于计算样本之间的差异程度。
每个簇下样本点到聚类中心的聚类使用欧式距离表示,欧氏距离的计算公式如下:
在物流配送中心选址的方法方面,主要包括定性研究法和定量研究法。
其中定性研究法通常采用专家判断或者多指标评价法来选择最优方案,如张春玲运用模糊综合评价法和层次分析法解决了多个备选点最优的问题[9]。
定量研究法主要通过数据统计和分析,并使用数学模型对各种选址方案进行模拟分析,常见的方法有多目标规划方法、聚类算法和遗传算法。
其中聚类算法具有能够识别数据中的潜在模式和结构,以发现不同地点的相似性和差异性这一特点广泛应用于选址问题中,Francisco运用多项式Logit模型研究了中国大陆跨国企业在德国投资时不同聚集网络类型的优缺点及选址问题[10]。
朱晨阳分析了海南省生鲜农产品物流配送中心和配送中心网络结构现状,结合实际引入配送时间满意度函数,建立了考虑多种因素的多目标模型[11]。
徐昊源等基于K-means聚类方法,以新鲜度损耗成本最小为目标对生鲜自提柜进行选址,并结合建设与运营成本给出最佳的自提柜设置数量[12]。
薛德琴等采用模糊综合评价法和层次分析法针对已经划分完毕的协同配送区域具体选址确定两种方案[13]。
然而在运用K-means算法进行聚类选址时,通常需要预先指定聚类数量K,而这个值的选择通常是基于经验或试错来进行的,这会导致算法结果的不确定性和不稳定性,且由于实际的数据大多数是数值型和类别型变量混合,该算法无法对类别型变量进行聚类。
基于上述研究问题,本文主要从K值确定及数据类型的聚类对K-means算法进行优化。
本文将综合运用肘部法及轮廓系数确定K-means算法中的合理K值;针对无法处理类别型变量的问题,采用变量编码的方法,将类别型变量转化为数值型变量,然后再进行聚类。
最后基于实际数据,对研究区域的最优物流配送中心位置进行进一步的分析探讨。
1 物流配送中心选址影响因素分析与指标体系构建
1.1 影响因素初步获取
配送中心选址过程中需考虑多种影响因素,本文对2022年以来的文献进行梳理总结,将影响因素分为经济因素、经营环境因素、基础设施因素、自然因素、运输物品特点因素和其他因素六大类。
对影响因素统计分类后结果如图1所示,根据ABC分类法,对物流配送中心选址的各项影响因素进行分类,具体可分为关键因素、一般因素和次要因素三类。
通过ABC分类法,对选址文献进行综合考虑,本文选取以下划分标准对物流配送中心选址影响因素进行分类:累计频率为0%~80%为关键影响因素,80%~90%为一般影响因素,90%~100%为次要因素。
由图1可知,运输成本、运营成本、固定成本、需求量、服务满意度水平、运输方式、道路可达性和交通设施这8项因素为关键影响因素,经营环境和地形条件为一般影响因素,其余为次要影响因素。
本文将以关键影响因素为基础探究选址问题。
1.2 影响指标体系构建
结合数据的可获得性及影响因素特点,本文将建立物流配送中心选址影响因素指标体系如表1所示:
2 基于改進K-means算法的物流配送中心选址模型
2.1 K值确定
K-means算法中,K值决定在该聚类算法中所要分配聚类的簇的多少,簇的多少影响着算法的聚类效果。
而通常情况下,想确定最佳K值比较困难,目前常用的确定K值的方法有肘部法及轮廓系数法。
肘部法聚类时使用的评价指标为数据集中所有样本点到其中心簇的距离之和的平方(SSE),肘部法选择的并不是误差平方和最小的K值,而是误差平方和突然变小时对应的K值,因此对于降低速率较为均匀的数据无法确定合适K值。
在此种情况下,轮廓系数法能够很好地解决该问题。
轮廓系数值是常用的聚类效果评价指标,该指标结合内聚度和分离度两个因素,具体计算过程如下:
(1)假设已经通过聚类算法将数据进行了聚类,并最终得到k个簇,对于簇中的每个样本点i,分别计算其轮廓系数,其中需要对每个样本点i计算下面两个指标:
①ai为样本点i到与其同属同一个簇的其他样本点的距离平均值,该值越小,说明该样本属于该类的可能性越大。
②bi为样本点i到其他簇中所有样本的平均距离的最小值。
(2)该样本点的轮廓系数为:
对于所有样本点的轮廓系数的平均值为该聚类结果的总轮廓系数。
Si∈-1,1,越接近1聚类效果越好。
2.2 不同类别变量的处理
本文数值型数据均采取归一化处理,在影响选址的指标体系中除数值型数据外,还有类似运输方式等类别型数据,对于该种类型数据的处理本文采取独热编码(One-Hot Encoding)将每个类别值表示为一个二进制向量,转换为可以处理的连续型数据。
该种方法保留了类别信息,不引入任意的数值关系,同时可以避免数值的大小对模型产生不正确的影响。
适用于大多数机器学习算法,尤其是那些基于距离度量的算法,如本文的K-means算法。
独热编码的过程如下:首先,确定类别型特征中的所有不同类别值。
然后,对于每个类别值,创建一个维度与类别数量相等的二进制向量。
最后,将每个二进制向量的对应维度上的值设置为1,其他维度上的值设置为0。
如表1中运输类型指标,有铁路/公路/航空三种运输方式,通过独热编码的方式可转化为:铁路:1,0,0;公路:0,1,0;航空:0,0,1。
原来的类别型特征被转换为了三个维度的连续型数据,继而能够在后续聚类算法中应用。
2.3 物流配送中心选址模型构建
Mac Queen首次提出了K均值聚类算法,它是一种非监督学习的硬聚类算法,通过迭代的方式寻找最优的聚类结果。
假设已获取的物流配送中心营业点样本点有I=1,2,…,i个,需要考虑的影响因素具有N=1,2,…,n个,对于第i个样本点其特征向量可以表示为x=x,x,…,x;聚类中心有K=1,2,…,k个,对于第k个聚类中心其特征向量可以表示样本
y=y,y,…,y。
在聚类过程中,一个关键问题是如何定义样本之间的相似性度量函数。
常见的方法是使用欧氏距离作为度量样本间距离的方式,欧氏距离是一种常见的距离度量方法,用于计算样本之间的差异程度。
每个簇下样本点到聚类中心的聚类使用欧式距离表示,欧氏距离的计算公式如下:。