兵棋推演系统中的异常数据挖掘方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ground forces. The experimental results show that the new algorithm has better effect in detecting
multiple outliers under multiple data types.
Key words:outlier; war game system; data mining; kσ criteria; high-order difference method
变得尤为突出。 数 据 质 量 是 指 信 息 和 数 据 可 作 为
异常值往 往 又 提 供 了 兵 棋 系 统 的 一 些 重 要 信 息。
据着重要的基础 地 位
[ 1]
环境、编 制 编 成、 武 器 装 备、 作 战 行 动 等
[ 2]
各类数据资源的体量不断增加,数据质量控制问题
规定应用的可 信 资 料 的 程 度。 异 常 数 据 挖 掘 是 数
374
2020 年
信 息 工 程 大 学 学 报
步骤 1 对于样本集{ x 1 ,x 2 ,…,x n } ,判断是否
1 异常数据挖掘方法
有数据落在( μ i - kσ,μ i - kσ) 之 外,如 果 没 有 计 算 结
异常数据挖 掘 的 方 法 有 很 多 种
[ 5-8]
,其 中 最 常
2
2
分位点。 当 α = 0. 05 时,由式( 1) 可知, | x i - μ i | >U α
2
( 0,1) ·σ 成 立 的 概 率 小 于 5% ,此 即 为 二 倍 中 误
差准则;当 α = 0. 0027 时, | x i - μ i | >U α ( 0,1) ·σ 成
2
2
4
6
7
8
9
5
基于 kσ 准 则 的 异 常 数 据 挖 掘 方 法 是 统 计 假
设检验方法的一种。 由于其简单且易于实现,因此
原 假 设 H 0 ∶ x i 服 从 N ( μ i , σ 2i ) , 备 择 假 设
H 0 ∶ x i 不服从 N ( μ i ,σ 2i ) 。 当 原 假 设 成 立 时,则 根
game system, the flow of outlier data mining is designed. Different outlier detection test schemes are
designed to verify the effect of the new algorithm by simulating the different index values of naval and
修正 x k 。
步骤 2 对 于 修 正 后 的 样 本 集 { x 1∗ , x 2∗ , …,
x∗
n } ,继续执行步骤 1,直至样本都落在置信区间以
内为止。
1. 2 基于差分的异常数据挖掘方法
非正态分布的数据类型有很多种,这里讨论兵
一般在工程应用中,统计假设检验法有一个共
棋推演系统中常遇见的一种,比如对于地面部队的
兵棋推演系统中的异常数据挖掘方法
胡艮胜 1 , 张倩倩 1 , 马朝忠 2
( 1. 31002 部队,北京 100094; 2. 信息工程大学,河南 郑州 450001)
摘要:提出两种异常数据挖掘算法,分析兵棋推演系 统 中 的 数 据 形 式,将 其 分 为 符 合 或 者 近 似
符合正态分布类型的数据和非正态分布类型的数 据 两 种 形 式。 针 对 不 同 形 式 的 数 据 类 型,分
示。 从图 2 和图 3 的检验结果可知,这两组数据都
近似服从正态分布,因此这里采用准则进行异常数
据挖掘,A 类舰的异常数 据 挖 掘 结 果 如 图 4 和 图 5
所示;B 类艇的异 常 数 据 挖 掘 结 果 如 图 6 所 示 ( 所
有图中的数值都进行了处理,均用符号代替) 。
从图 4 和 图 5 可 知,在 第 一 次 迭 代 的 时 候,通
速度和舰艇 修 复 时 间 两 个 指 标 值, 模 拟 一 般 A 类
9 艘、第 20 艘和第 34 艘 B 类艇的修复时间含有异
公里 / 天至 b 公里 / 天之间,舰艇修复时间介于 c 天
算法效果良好。
舰、B 类艇等类型舰艇 部 队 的 最 大 航 行 速 度 介 于 a
常扰动,从这两类 数 据 的 挖 掘 结 果 可 知,本 文 的 新
别提出了基于 kσ 准则的异常数据 挖 掘 方 法 和 基 于 高 次 差 分 的 异 常 数 据 挖 掘 方 法,并 结 合 兵
棋推演系统的特点,设计了异常数据挖掘的流程。 模拟舰艇部队和地面部队的不同指标数值,
设计不同的异常扰动试验方案,对新算法的效果进 行 验 证,试 验 结 果 表 明,新 算 法 对 于 多 种 数
the war game system, we divide them into two forms, which are approximately in accordance with
the normal distribution type and non-normal distribution type. According to different types of the da-
为了更清晰的表达本文异常数据的检测步骤,
如图 1 所示的异常数据挖掘流程 [ 13] 。
2 算例分析
2. 1 舰艇部队的指标值异常分析
模拟某兵棋推演系统中舰艇 部 队 的 最 大 航 行
第3期
胡艮胜,等:兵棋推演系统中的异常数据挖掘方法
375
组数据进行正态性检验,检验结果如图 2 和图 3 所
至 d 天之间。 按照这两个指标数据的取值区间,模
拟 18 艘 A 类舰 的 最 大 航 行 速 度,其 直 方 图 如 图 2
所示,模拟 38 艘 B 类艇的修复时间,其直方图如图
用的是基于统 计 假 设 检 验 的 方 法。 基 于 统 计 假 设
检验的方法一般分为两步,首先采用数理统计的方
法对数据 进 行 概 化 描 述, 获 取 数 据 的 总 体 分 布 特
征,其次根据总体 分 布 特 征 构 造 检 验 统 计 量,进 行
异常数据挖掘。
束,如果有样本 x k 落在置信区间以外,则剔除或者
第 21 卷第 3 期
2020 年 6 月
信 息 工 程 大 学 学 报
Journal of Information Engineering University
Vol. 21 No. 3
Jun. 2020
DOI:10. 3969 / j. issn. 1671-0673. 2020. 03. 019
( 1. Unit 31002, Beijing 100094, China; 2. Information Engineering University, Zhengzhou 450001, China)
Abstract: Two algorithms of outlier data mining are proposed in this paper. Analyzing the data in
结合 1. 1 节和 1. 2 节中的异常数据挖掘算法,给出
因此在异常数据挖掘中,一般以二倍或者三倍
kσ) 之外时,便认 为 x i 含 有 异 常 扰 动。 μ i ,σ 在 实
2
i
际计算中用样 本 均 值 和 方 差 估 计 值 代 替。 由 于 需
要检测的数据中含有的潜在异常数据可能有多个,
因此在异常数据挖掘算法实施时,采用迭代-修正迭代的 方 法, 直 至 没 有 数 据 落 在 范 围 ( μ i - kσ, μ i kσ) 之外时,终止迭代。 步骤如下:
讲,在剔除异常值前应该对样本分布状态进行正态
常数据挖掘方法较为实用。
高次差分法的基本思路是对相邻数据依次求
性检验,否则不得轻易剔除或者修 正 [ 9-10] 。 如 果 样
差,利用数据间的多次差值分析判断是否存在异常
设检验的方法,否则需要选用其他的异常数据处理
理如表 1 所示。
本分布符合或者近似符合正态分布,则选用统计假
10
一次差分
1000
0
1005
5
二次差分
0
0
1000
-5
- 10
1000
0
0
1000
1000
1000
1000
0
0
0
0
5
5
0
0
0
表 1 中的第 4 个数据样本含有大小为 5 的异
常扰动,则在其一次差分序ቤተ መጻሕፍቲ ባይዱ中的第 4 和第 5 位置
上凸显出来异常 扰 动,而 且 在 二 次 差 分 序 列 中,异
常扰动被放大 了 两 倍。 显 然 高 次 差 分 法 对 于 呈 现
过准则挖掘出了第 7 艘 A 类 舰 的 最 大 航 行 速 度 含
有异常扰动,在第二次迭 代 的 时 候,挖 掘 出 了 第 10
图 1 异常数据挖掘流程
艘 A 类 舰 的 最 大 航 行 速 度 含 有 异 常 扰 动; 从 图 6
可知,在第一次迭 代 的 时 候,通 过 准 则 挖 掘 出 了 第
ta, two methods of data mining are proposed. One is the method based on criteria, and the other is
the method based on high-order difference. Then by combining with the characteristics of the war
据下的多个异常值具有较好的识别效果。
关键词:异常值;兵棋系统;数据挖掘;kσ 准则;高次差分法
中图分类号:E818 文献标识码:A
文章编号:1671-0673( 2020) 03-0373-05
Outlier Data Mining of the War Game System
HU Gensheng 1 , ZHANG Qianqian 1 , MA Chaozhong 2
阶梯函数形式的数 据 集 具 有 良 好 的 异 常 数 据 挖 掘
效果。 而且这种方法简便易于实现,在整个兵棋推
演系统中,不会因为异常数据挖掘而增加系统的运
行负担。
立的概率小于 2. 7% ,此即为三倍中误差准则。
1. 3 异常数据挖掘流程
中误差 作 为 限 定 值, 当 数 据 落 在 范 围 ( μ i - kσ, μ i -
据数理统计理论,则如下事件成立:
P
{
xi -μ i
σi
}
<U α ( 0,1) ≥1 - α
2
( 1)
其中,x i 为来自正态分布 N( μ i ,σ ) 的样本,μ i ,σ
2
i
2
i
分别为正态分布的均值和方差,α 为假设检验中给
α
定的显著性水平,U α ( 0,1) 是 N ( μ i ,σ 2i ) 的 上 侧
目前国内外的多个兵棋推演系统中,数据都占
在数据源中含有的一定数量的异常值,比如数据库
。 兵棋推演系统中涉及到
或数据仓库中 不 符 合 一 般 规 律 的 数 据 对 象。 异 常
的数据类型有想定数据、模型数据、态势数据、战场
值一般是由于系统受到外部干扰而造成的,它的出
。 随着
现会直接影响到模型的使用,甚至会造成一些错误
同的前提,即在取 得 的 样 本 中,假 设 绝 大 部 分 数 据
开阔地平均速度和单日最大机动小时数,往往呈现
来自同一正态总 体,或 者 近 似 正 态 总 体,其 中 含 有
阶梯函数形式 [ 12] 。 这种情况下基于高次差分的异
异常数 据 的 比 例 不 超 过 10% 。 因 此 从 原 则 上 来
据质量控制中的 一 个 重 要 环 节
[ 3]
。 异常数据是指
收稿日期:2020-05-08;修回日期:2020-05-31
的结论 [ 4] 。 另一方面,从 获 取 信 息 这 一 角 度 来 看,
因此异 常 数 据 挖 掘 是 一 个 具 有 实 际 意 义 的 重 要
问题。
作者简介:胡艮胜( 1973-) ,男,高级工程师,硕士,主要研究方向为军事运筹,仿真模拟。
方法。
数据。 假定数 据 y ( t) 含 有 异 常, 差 分 法 的 探 测 原
表 1 差分法异常数据挖掘原理
1. 1 基于 kσ 准则的异常数据挖掘方法
数据序号
数据值
1
1000
在工程应用中该方 法 是 数 据 质 量 控 制 的 最 常 用 方
3
1000
法之一 [ 11] 。 其基本原理如下:首先构造假设检验。
相关文档
最新文档