机器学习算法在数据挖掘中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习算法在数据挖掘中的应用
作者:朱天元
来源:《数字技术与应用》2017年第03期
摘要:近些年,国内社会有了很大发展,各种先进技术和理念不断得到应用和发展,机器学习算法就是一种新型算法,在各行各业中都有很大作用。本文主要对机器学习算法在数据挖掘中的应用进行详细研究,首先借助大量移动终端数据,对GSM网络的户外终端进行有效定位,提出三个阶段的定位算法,进而使定位速度和精度有很大提高。
关键词:机器学习算法;数据挖掘;户外定位
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0166-01
1 数据挖掘概述
在数据挖掘算法内,机器学习与统计算法是比较常见的两种,第一种是借助人工智能技术,可以在大量的样本集训练与学习之后,自动的找到运算所需的模式和参数,第二种是借助判别和概率分析、聚类和相关性分析等开展运算,不同的算法也有不同对应的目标和领域,这些算法可以独自进行使用,也能够互相结合。
机器学习算法内人工神经网络这种方法应用范围比较广泛,具备很好的处理数据能力与自组织学习的能力,还可以进行准确的识别,进而有利于对分类型问题数据进行处理。可以借助建模进行工作,模型比较多样,可以对不同的需求进行满足,从整体出发,这一方法的模型具有较高精度,鲁棒性比较好,描述能力也比较强,进行应用时不需要借助专家的支持,但是也有一些缺陷,训练数据时需要花费较多时间,对知识进行理解时也不是很智能,伸缩性和开放性也存在局限。
2 以机器学习算法为基础的GSM网络定位
(1)定位问题的建模。以支持向量机定位方式为基础,把定位区域栅格化,较小的栅格区域被抽象成类别,然后在定位区域中收集大量终端测量信息,如果要对移动终端进行定位,就需要利用计算对接收测量报告,然后对栅格内村练技术划分收集报告相似性或者距离度量,进而对待定位移动终端栅格进行判断,使用机器学习对这一分类现象进行求解。
(2)采集数据和预处理。此次研究仿真数据都来自某一周边长是10km的城市,在这一区域的内部有4个时间不同的短路,测量得出4批数据,为了确保以机器学习方法进行定位的有效性,把利用线所测的3批数据当做训练数据,最后得到的数据集当做定位数据,对这批数据周围10米内,有前3组训练数据的集中数据进行删除。在得到待定位的数据之后,需要把
不同时间的间隔当做依据,对然后把一致通话内相邻的定位数据进行合并,求取出相同通话内同一基站接受电平与多个相邻定位数据的经纬度平均值。把这一数值作为新的定位数据,因为在相同通话相邻的测量报告内,存在很强相关性,所以需要对其进行合并,然后进行定位,这样能够去噪,还可以极大的降低定位所需的数据量,进而有效提升定位精度和速度。
(3)以基站的经纬度为基础的初步定位。以机器学习为基础的移动终端定位计算的复杂性和使用机器学习的程度和定位区域的面积有正相关的关系,区域的面积越大,回归模型和分类也就更复杂,在定位移动终端时,就要对函数计算有更多的决策,所使用机器学习算法时,增加定位地区的面积,能够极大提升这一算法定位和训练时需要的时间复杂度。以基站的经纬度为基础进行初步定位,具体的步骤如下,需要把边长是10千米的正方形分成1千米的小栅格,如果对定位数据集内的数据进行定位操作,就把主服务小区的基站经纬度为基础对边长为1千米的栅格开展计算,因为时区中移动终端和主服务小区的基站一般有不超过500米的距离,如果要获取边长1千米的栅格,就说明定位中心是栅格边长是1千米的2千米栅格内,所以这是机器学习算法定位阶段定位的区域。
(4)以向量机为基础的二次定位。在进行初步定位后,选择一个2千米边长的正方形,因为第一级支持向量机定位的范围是400米,第二季向量机对100米栅格的待定数据进行输出,定位结果的输出也就是以100米栅格为核心的经纬度。和一级向量机的定位相比较,二级向量机在定位时计算的复杂度比较小,在分类后对向量机进行计算时主要是决策函数计算与待分类样本点所有类别向量机计算,如果得到的分类和全部向量机都有n数据,就要同时利用成对分类方法对众多分类问题进行处理。定位的精度会随栅格的变小而更高,因为增加分类的问题总量,定位的复杂度也得到增加,第一级向量机进行定位对栅格的大小进行选择时,要对第二级栅格的大小决定后,把第一级与第二级分类的问题总量的最小化为根据进行选择,保证在最小定位的阶段对总量进行计算。
(5)以K-近邻法为基础的三次定位。首先要确定定位的区域,在二次输出后输出经纬度,借助经纬度选择,选择边长区域,这是定位的基础。接着是定位模型的训练,K-近邻法定位方法在训练阶段需要集中训练的数据,以大小为参考依据进行合并,能够有效的减少定位运算的次数,但是选择的合并区域越大,定位的精度也就越低。
3 结语
综上所述,机器学习算法在数据挖掘中的应用具有重要意义,能够有效提升定位的速度和精度,因此需要引起相关人员的重视,不断对其进行改进与完善,切实发挥出机器学习算法的作用,进而解决户外移动终端的定位问题。
参考文献
[1]陈小燕,CHENXiaoyan.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,v.38;No.451(20):11-14.
[2]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学,2014.
[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇,2016(7):175-178.