基于真值发现的加油站车辆号牌缺损数据填充方法

合集下载

缺失数据填补方法

大气指标数据的缺失数据填补方法
缺失数据填补原则：
1,根据缺失数据的模式,运用不同的数据填补方法;
2,定义缺失数据过多的数据为无效数据;
3,避免利用填补的数据再进行数据的填补;
4,填补数据的方法需要简单可行,多种方法交叉验证取平均
填补法依据的主要基础：
1，相关性站点（可行度较高）
2，相关性指标（可行度一般）
3，时序性（可行度较差，考虑到突变）
可行性待验证的方法,：
1，参照同时刻其他相关性站点的平均值
2，其他相关性站点的增/降幅度加权平均确定变化幅度(加权系数可采用相关性系数)
3，利用同站点的其他指标的相关性预测值
4，其他站点最近距离的对应的指标值
填补值的优化方法：
1，根据确定的缺失数据填补办法，得到前几个时刻的填补值，确定误差均值，再优化此时刻的填补值。

缺失值填充方法

缺失值填充方法嘿，咱今儿就来聊聊缺失值填充方法。

这玩意儿啊，就好比拼图里缺了一块，咱得想办法给它填上，让整个画面完整起来，对吧？你想想看，要是数据里有那么些缺失的地方，就像一件漂亮衣服上有个破洞，多难看呀！那怎么填呢？这可有不少门道呢。

比如说最简单的一种，直接用平均值来填。

就好像你有一堆苹果，有的大有的小，那咱就取个平均大小来代表那些不知道大小的苹果，是不是挺形象的？但这也不是万能的呀，要是数据的分布很特殊，平均值可就不那么靠谱咯。

还有呢，咱可以用相邻的值来填充。

这就好比你走在路上，突然前面有个坑，你就看看旁边的路是啥样，照葫芦画瓢给填上呗。

可这也得小心，要是旁边的情况跟那个坑完全不一样，那不就填错啦？再厉害一点的，有回归方法。

这就像是个超级侦探，能根据其他相关的数据线索，推断出缺失值应该是啥。

但这可得有真本事，不然推断错了可就麻烦咯。

另外啊，还可以用一些更高级的算法，就像武林高手的绝招似的。

不过这些绝招也不是随随便便就能用的，得看具体情况，用不好还可能走火入魔呢！咱可不能小看这缺失值填充啊，填得好数据就更准确，咱的分析结果就更靠谱；填不好，那可就像盖房子地基没打好，说不定啥时候就塌了。

你说要是医生看病的时候，病历上有些数据缺失了，随便填一个，那能行吗？不得出大乱子呀！或者是做市场调查，一些关键数据没了，随便补一个，那能反映真实情况吗？肯定不行呀！所以啊，这缺失值填充方法可得好好研究，就像咱对待生活中的每一个细节一样。

不能马虎，不能随便，得认真对待。

咱平时处理数据的时候，可得多长个心眼儿，看看哪种方法最适合。

别一股脑儿地乱用，那可不行。

要像个聪明的工匠，精心雕琢每一块缺失的地方，让数据变得完美无缺。

总之呢，缺失值填充方法就像是我们手中的工具，用得好就能让数据闪闪发光，用不好可就麻烦啦！咱可得好好琢磨琢磨，让这些方法为我们所用，为我们的数据分析添砖加瓦呀！这可不是开玩笑的事儿，大家都得重视起来呀！。

【CN109813327A】一种车辆行驶轨迹缺失补偿方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910102308.X(22)申请日 2019.02.01(71)申请人安徽中科美络信息技术有限公司地址 230000 安徽省合肥市高新区习友路2666号中科院合肥技术创新工程院研发楼十楼(72)发明人罗健飞　吴仲城　(51)Int.Cl.G01C 21/34(2006.01)(54)发明名称一种车辆行驶轨迹缺失补偿方法(57)摘要本发明公开了一种车辆行驶轨迹缺失补偿方法，该补偿方法为：首先判断车辆轨迹是否缺失；车辆轨迹缺失时，根据轨迹缺失时间段内的行驶视频信息确定车辆位置点；对车辆轨迹缺失起始位置点、确定的车辆位置点以及车辆轨迹缺失终止位置点中相邻位置点之间是否存在岔路口进行判断；存在岔路口时，根据相邻位置点之间的时间间隔和第一预设速度上限值确定车辆在相邻位置点之间的候选行驶路径及其对应的最少特征匹配路段，并通过特征图像匹配方法确定存在岔路口的相邻位置点之间的行驶路径。

本发明能够准确的对车辆缺失轨迹进行补偿，且在车辆缺失轨迹补偿确定时的特征图像匹配范围小，匹配效率较高，大大提高了车辆行驶轨迹补偿的计算效率。

权利要求书2页说明书7页附图1页CN 109813327 A 2019.05.28C N 109813327A权　利　要　求　书1/2页CN 109813327 A1.一种车辆行驶轨迹缺失补偿方法，其特征在于，包括如下步骤：S1：根据预设轨迹缺失检测规则判断车辆轨迹是否缺失；S2：车辆轨迹缺失时，根据车辆轨迹缺失时间段内的行驶视频信息确定车辆位置点及对应时间；S3：将车辆轨迹缺失起点、车辆轨迹缺失时间段内确定的车辆位置点以及车辆轨迹缺失终点按时间顺序建立位置序列，并对所述位置序列中相邻位置点之间是否存在岔路口进行判断；S4：所述位置序列中相邻位置点之间不存在岔路口时，将相邻位置点按其所在路段曲率连接生成第一车辆行驶轨迹；S5：所述位置序列中相邻位置点之间存在岔路口时，根据相邻位置点之间的时间间隔和第一预设速度上限值确定车辆在相邻位置点之间的候选行驶路径；S6:确定所述候选行驶路径的最少特征匹配路段，将所述最少特征匹配路段中的第一特征图像与所述行驶视频信息中的第二特征图像进行匹配，确定相邻位置点之间的行驶路径并生成第二车辆行驶轨迹；其中，所述最少特征匹配路段为能够代表对应所述候选行驶路径且包含路段单元数量最少的特征匹配路段；S7：将第一车辆行驶轨迹和第二车辆行驶轨迹相连生成车辆补偿行驶轨迹。

对缺失值可以填补的方法

对缺失值可以填补的方法嘿，朋友们！今天咱来聊聊缺失值那些事儿。

你说这缺失值就像一件衣服上突然破了个洞，让人心里怪不舒服的。

但别怕呀，咱有办法补上这些洞洞呢！比如说最简单的一种，就像给衣服打个补丁一样，直接用一个固定的值去填补。

这就好比你有双鞋子破了个小口，你找块差不多颜色的皮子贴上去，虽然不是完全一样，但也能将就着用，对吧？这种方法简单直接，但有时候可能不太精准哦。

还有一种类比成找相似伙伴的方法，就是用其他类似的数据的平均值或者中位数来填。

就好像你有一群朋友，其中一个朋友缺席了，那你就参考其他朋友的情况来猜一下缺席的朋友大概会怎样。

这样是不是挺有意思的？不过呢，也得小心别找错了“朋友”哦，不然填错了可就麻烦啦。

再说说像找线索一样的回归方法吧。

这就好像你要找丢失的东西，通过一些相关的线索去推断它可能在哪里。

用这种方法来填补缺失值，就需要找到和缺失值相关的那些因素，然后根据它们来推测出一个比较合适的值。

这可需要点技术和耐心呢！还有一种挺有趣的，就像画画的时候填补空白一样，可以根据数据的分布规律来填。

你想象一下，就像一幅画有一些空白的地方，你根据整幅画的风格和色调来把那些空白填满，让它看起来更完整、更和谐。

哎呀，这些方法各有各的好处和局限性呀。

我们得根据具体情况来选择合适的方法，就像选衣服得选适合自己身材和场合的一样。

可不能随便乱选一通，不然可能会越弄越糟糕哦。

那到底该怎么选呢？这就得靠我们的经验和判断力啦。

有时候我们可能会担心填补得不好怎么办呀？别着急呀，这就像走路一样，一开始可能会跌跌撞撞，但多走几步就熟练啦。

我们可以先试试，看看效果怎么样，如果不行就再换一种方法嘛。

反正办法总比困难多呀！总之呢，面对缺失值不要怕，我们有这么多办法可以对付它们呢。

就像生活中遇到困难一样，只要我们积极面对，总能找到解决的办法。

让我们大胆地去尝试，把那些缺失的部分填补得漂漂亮亮的，让我们的数据变得更加完整和有价值吧！大家说是不是呀！原创不易，请尊重原创，谢谢!。

填充缺失值的方法

填充缺失值的方法在数据分析中，常常会出现数据缺失的情况。

而这些缺失值如果不加处理，对数据分析结果会产生影响，因此需要对其进行填充。

本文将介绍常用的五种填充缺失值的方法，以及各自的优缺点。

1. 删除法（Drop missing values）删除法是最简单的缺失值处理方法，其思想是直接将含有缺失值的行或列删除。

删除法处理起来简单直接，能够保留数据的完整性。

但是如果缺失值比例较大，使用删除法会导致丢失很多重要信息，从而拖慢分析的进程，并且会极大的影响分析结果。

2. 插值法（Interpolation）插值法是一种常用的填充缺失值的方法。

其思想是通过已知数据点推算出未知数据点的值。

常见的插值法包括线性插值、多项式插值、拉格朗日插值、牛顿插值等。

插值法的优点是能够利用已有数据推断出合理的缺失值，从而减少了信息的丢失，但是这种方法强依赖于数据的连续性，因此在离散的数据中效果可能不佳。

3. 统计法（Mean, Median, Mode）统计法是一种简单直接的方法，其思想是使用缺失值所在列的均值、中位数、众数等代替缺失值。

该方法可以减小数据集波动较大的影响，具有恰当的样本代表性，但是会忽略掉其他与缺失值密切相关的数据特征。

4. 基于模型的填充法（Model-based imputation）基于模型的填充法是一种常用的缺失数据填充方法。

该方法首先构建模型，利用已有数据拟合出模型，然后预测缺失值并填充。

常见的模型包括线性回归、决策树模型、支持向量机模型等。

模型预测的缺失值通常比简单的插值法和统计法更准确，在缺失值量大，属性之间的关联性强的数据集上表现更加明显。

但是该方法需要对数据集有一个比较准确的理解，输入的数据不好时就会导致不准确的预测。

5. 多重插补法（Multiple imputation）多重插补法是一种利用已有数据生成多组缺失数据集并分别分析的方法。

可以在这些缺失的数据集上进行相同的分析，最终得到有误差的每组结果。

缺失数据地补充及异常数据地修正

数模培训作业论文题目缺失数据地补充及异常数据地修正缺失数据地补充及异常数据地修正摘要一、问题重述1、关于数据缺失时应该怎样地把缺失数据补充上来？2、数据完整，但是数据出现异常，如何给出模型找出异常数据？3、异常数据如何修正？二、模型假设1、假设只有因变量存在数据缺失，而自变量不存在缺失。

x以外的其余测定值当做一个总体，并假2、利用t检验法时，将除可疑测定值d设该总体服从正态分布。

3、假设可由样本值计算标准差s替代σ来进行检验。

三、符号说明四、对问题一的分析和处理一元多项式回归模型[1]当有缺失的一组数据只有一个自变量时，可以考虑使用一元多项式回归模型。

我们采用的数据如下表：表1首先使用matlab作出散点图，观察其形状，决定拟合多项式的次数，运用matlab编程（matlab程序见附录一）得出拟合曲线与拟合多项式为：z=**x+。

拟合曲线如下图所示：图1 拟合曲线之后算出均方根误差RMSE验证拟合效果，均方根误差RMSE=较小，说明拟合曲线与源数据吻合得较好。

若x1=,x2=,x3=时,y的数据缺失,将x1、x2、x3的值带入拟合多项式，算出缺失值y1=,y2=,y3=，即可补充缺失数据。

多元线性回归模型[1]当有缺失的一组数据存在多个自变量时，可以考虑使用多元线性回归模型。

我们将（见附表一）中的数据[5]导入matlab(该模型matlab程序见附录二)。

首先作出散点图，设定y(PM10)与x1(SO2)、x2(NO2)的关系为二元线性回归模型，即y=b0+b1x1+b2x2。

之后作多元回归，求出系数b0=，b1=，b2=，所以多元线性回归多项式为： Y=。

且b0、b1、b2在置信度为%95的情况下的置信区间分别为[, ],[ , ],[ , ]。

再作出残差分析图验证拟合效果，残差较小，说明回归多项式与源数据吻合得较好。

若x1=，x2=时，y的数据缺失，则将x1，x2带入回归多项式，算出缺失值y=。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

３（新疆理化技术研究所新疆民族语音语言信息处理实验室新疆乌鲁木齐８３００１１）
摘要由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因，致使加油站车辆加油数据中经常会产生数据的丢失和错误，降低了车辆加油数据的完整性，严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题，但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进ＴｒｕｔｈＦｉｎｄｅｒ算法的缺损值填充框架。基于真值发现算法，考虑到离散数据相似度的计算方式，改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验，相较于原算法及更加通用的Ｖｏｔｉｎｇ算法，正确率分别提升了７％和２３％。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题，大大提高了此数据的可用性。
收稿日期：２０１９－０１－０３。２０１７“天山雪松计划”项目（２０１７ＸＳ０５）；新疆维吾尔自治区十三五重大专项（２０１６Ａ０３００７－２）。彭新亮，硕士生，主研领域：数据清洗，数据分析。程力，研究员。王轶，博士。马博，副研究员。赵凡，副研究员。周喜，研究员。
４２
计算机应用与软件
２０１９年
ＰｅｎｇＸｉｎｌｉａｎｇ１，２，３ＣｈｅｎｇＬｉ１，３ＷａｎｇＹｉ１，３ＭａＢｏ１，２，３ＺｈａｏＦａｎ１，３ＺｈｏｕＸｉ１，３
１（ＴｈｅＸｉｎｊｉａｎｇＴｅｃｈｎｉｃａｌＩｎｓｔｉｔｕｔｅｏｆＰｈｙｓｉｃｓａｎｄＣｈｅｍｉｓｔｒｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｕｒｕｍｑｉ８３００１１，Ｘｉｎｊｉａｎｇ，Ｃｈｉｎａ）２（ＵｎｉｖｅｒｓｉｔｙｏｆｔｈｅＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１０００４９，Ｃｈｉｎａ）
第３６卷第８期２０１９年８月
计算机应用与软件ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
Ｖｏｌ３６Ｎｏ．８数据填充方法
彭新亮１，２，３程力１，３王轶１，３马博１，２，３赵凡１，３周喜１，３
１（中国科学院新疆理化技术研究所新疆乌鲁木齐８３００１１）２（中国科学院大学北京１０００４９）
ＫｅｙｗｏｒｄｓＤａｔａｃｌｅａｎｉｎｇＧａｓｓｔａｔｉｏｎｄａｔａＤｅｆｅｃｔｄａｔａｆｉｌｌｉｎｇＴｒｕｔｈｄｉｓｃｏｖｅｒｙ
０引言
随着自动化数据采集技术的发展，加油站车辆加
油数据的采集工作正在逐渐由人工采集转向物联网设备自动采集。由于数据采集设备的车牌识别精度不足、环境影响、网络不稳定等因素的影响，同一辆汽车在不同加油站终端数据系统中所采集到的车牌号码也
３（ＸｉｎｊｉａｎｇＬａｂｏｒａｔｏｒｙｏｆＭｉｎｏｒｉｔｙＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，Ｕｒｕｍｑｉ８３００１１，Ｘｉｎｊｉａｎｇ，Ｃｈｉｎａ）
ＡｂｓｔｒａｃｔＤｕｅｔｏｔｈｅｉｍｐｅｒｆｅｃｔｉｏｎｏｆｔｈｅｄａｔａａｃｑｕｉｓｉｔｉｏｎｅｑｕｉｐｍｅｎｔａｎｄｔｈｅｕｎｒｅｌｉａｂｉｌｉｔｙｏｆｔｈｅｄａｔａｉｎｔｈｅｔｒａｎｓｍｉｓｓｉｏｎｐｒｏｃｅｓｓ，ｄａｔａｌｏｓｓａｎｄｅｒｒｏｒｓｏｆｔｅｎｏｃｃｕｒｉｎｔｈｅｆｕｅｌｉｎｇｄａｔａｏｆｔｈｅｇａｓｓｔａｔｉｏｎｖｅｈｉｃｌｅｓ．Ｔｈｅｓｅｐｒｏｂｌｅｍｓｒｅｄｕｃｅｔｈｅｉｎｔｅｇｒｉｔｙｏｆｔｈｅｖｅｈｉｃｌｅｆｕｅｌｉｎｇｄａｔａａｎｄｓｅｒｉｏｕｓｌｙａｆｆｅｃｔｔｈｅｓｕｂｓｅｑｕｅｎｔｄａｔａａｎａｌｙｓｉｓｗｏｒｋ．Ａｌｔｈｏｕｇｈｔｈｅｒｅａｒｅｍａｎｙａｌｇｏｒｉｔｈｍｓｔｈａｔｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｃｏｎｔｉｎｕｏｕｓｎｕｍｅｒｉｃａｌｄａｔａｄｅｆｅｃｔｓ，ｂｕｔｔｈｅｙａｒｅｎｏｔｓｕｉｔａｂｌｅｆｏｒｄｉｓｃｒｅｔｅｃｌａｓｓｉｆｉｃａｔｉｏｎｄａｔａｓｕｃｈａｓｖｅｈｉｃｌｅｐｌａｔｅｓ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｄｅｆｅｃｔｆｉｌｌｉｎｇｆｒａｍｅｗｏｒｋｂａｓｅｄｏｎｔｈｅｉｍｐｒｏｖｅｄＴｒｕｔｈＦｉｎｄｅｒａｌｇｏｒｉｔｈｍ．Ｉｔｓｆｒａｍｅｗｏｒｋｉｍｐｒｏｖｅｄｔｈｅｃａｌｃｕｌａｔｉｏｎｍｏｄｅｌｏｆｔｈｅｄａｔａｓｕｐｐｏｒｔｂｙｃｏｎｓｉｄｅｒｉｎｇｔｈｅｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｏｆｄｉｓｃｒｅｔｅｄａｔａｓｉｍｉｌａｒｉｔｙ．Ｔｈｒｏｕｇｈｅｘｐｅｒｉｍｅｎｔｓｏｎｒｅａｌｇａｓｓｔａｔｉｏｎｖｅｈｉｃｌｅｄａｔａｓｅｔｓ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｏｒｉｇｉｎａｌａｌｇｏｒｉｔｈｍａｎｄｔｈｅＶｏｔｉｎｇａｌｇｏｒｉｔｈｍ，ｔｈｅｃｏｒｒｅｃｔｒａｔｅｓｈａｖｅｉｎｃｒｅａｓｅｄｂｙ７％ａｎｄ２３％ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｔｈｅｍｅｔｈｏｄｃａｎｐａｒｔｉａｌｌｙｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｆｉｌｌｉｎｇｔｈｅｄｅｆｅｃｔｖａｌｕｅｏｆｔｈｅｍｕｌｔｉｓｏｕｒｃｅｄｉｓｃｒｅｔｅｄａｔａｓｕｃｈａｓｇａｓｓｔａｔｉｏｎｖｅｈｉｃｌｅｆｕｅｌｉｎｇｄａｔａ，ａｎｄｇｒｅａｔｌｙｉｍｐｒｏｖｅｓｉｔｓａｖａｉｌａｂｉｌｉｔｙ．
关键词数据清洗车辆加油数据缺失数据填充真值发现
中图分类号ＴＰ３１１．５文献标识码ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１９．０８．００８
ＧＡＳＳＴＡＴＩＯＮＶＥＨＩＣＬＥＰＬＡＴＥＤＥＦＥＣＴＤＡＴＡＦＩＬＬＩＮＧＢＡＳＥＤＯＮＴＲＵＴＨＤＩＳＣＯＶＥＲＹ
有可能不同。并且，从这些设备汇总得到的数据中车牌号码存在大量丢失和错误（以下简称缺损）情况。某地区收集的车辆加油数据中，缺损数据约占总数据的２０％以上。由于未采用有效的方法对此部分数据进行处理，严重影响了后续对这些数据的分析工作，不利于数据融合的开展。因此，针对这种多数据源离散型分类数据的缺损值填充问题的研究，对于提高原始数据的可用性和融合数据的正确性都至关重要。