基于AdaBoost与RusBoost的水声目标杂波分类研究与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 l-e
a = —\n -----
(4)
2 em
当 e„ < 0 _ 5 时,
且 《„ 随 着 减 小 而
增 大 ,即基分类器的误差越小,该基分类器的权重 越大。
* 更新
Dm+i = ( wm+lA,wm+u2,...,wm+u ,...,wm+UN) (5)
Wm+U ~
Zm
(6)
i = \,2, … , N
1 Adaboost 算法
Boost是一类可将弱学习器提升为强学习器的 算 法 [4]。先 从 训 练 集 训 练 出 一 个 基 学 习 器 ,再根据 基 学 习 器 的 表 现 对 样 本 分 布 进 行 调 整 ,使得先前基 学 习 器 做 错 的 训 练 样 本 在 后 续 受 到 更 多 关 注 ,然后 基 于 调 整 后 的 样 本 分 布 来 训 练 下 一 个 基 学 习 器 。如 此 循 环 进 行 ,直 至 基 学 习 器 数 目 达 到 事 先 指 定 的 值 r , 最 后 将 r 个 基 学 习 器 进 行 加 权 结 合 。其中 A d a B 〇〇st[5]就是常用方法。随 着 r 的增加,集成错 误率将指数级下降,最 终 趋 于 零 。因 此 AdaBoost
本身就存在不均衡的问题,因此实际送给Boost的 训练数己经去除了部分杂波,每个基分类器获得的 子 数 据 集 来 源 于 同 一 人 为 下 采 样 后 数 据 集 ,使得被 去 除 的 杂 波 信 息 丢 失 。因 此 ,本文采样应用 RusBoost方 法 ,它使用完整数据集,对基学习器独 立 下 采 样 训 练 集 成 ,这 样 能 够 尽 量 保证 杂 波 被 全部 利 用 ,避 免 采 样 造 成 的 信 息 丢 失 [M)]。 2. 2 RusBoost 算法
RusBoost即随机欠采样提升算法。基本原理与 AdaBoost类 似 。只是对训练集预处理时,使 用 R U S
(Random Under-Sampling) 方法进行抽取,将随机 下 采 样 抽 取 后 的 训 练 集 子 集 输 入 boost方 法 中 ,最 终得到训练模型。该算法区别在于:先将所有样本 设置归一化的样本权重。
之间 ,但 是 一 部 分 目 标 预 测 概 率 低 于 0.5,无法被
正确分类。后者杂波预测概率虽然往0.5偏移,但
是目标基本上集中到了 0.5右 侧 。根据预测概率,
能够较好地将目标分类出来。这也就解释了 R O C
曲 线 相 近 ,但 是 概 率 分 布 存 在 差 异 ,使得后者分类
效果较好。
图 4 RusBoost数据集A 交叉验证目标预测概率分布直方图 3. 4 测试结果
测 试 集 A _test和 数 据 集 B 分别进行测试,结果
见 表 1〜3 。从 表 1、2 可以看出,AdaBoost虽 然 /T 5/?
很低,但 7P /?仅 0.5左右,一半真实目标未被正确
本次水声目标数据集A 共 有 目 标 176个 ,杂波 43 0 3 6 个 。随 机 划 分 为 训 练 集 A _train和测试集 A _test, 其 中 训 练 集 包 含 1 0 5 个目标,25 8 6 3 个杂 波 ;测 试 集 包 含 7 1 个目标,17 1 7 3 个杂波。数据 集 B 目 标 6 7 个 ,杂 波 8 9 2 9 个 。数 据 集 A 和 B 为 不同时间不同海域试验数据。 3 . 2 实验设计
6
4 . 5 3 0 . 0 . 0 . 0 .
0.2 ■ 0.1 ■
).1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 目标预测概率值分组
图 3 AdaBoost数据集A 交叉验证目标预测概率分布直方图
*目 波标
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 目怀预测槪丰值分组
0.9 -
(0.02,0.92)
0
0.01
0 02
0.03
0.04
0.05
0.06
0.07
假正例率
图2 训练集A_train ROC曲线
图 3 和 图 4 分 别 为 AdaBoost和 RusBoost数据
集 A 目标预测概率值的频率分布直方图。很明显可
以看出,前者杂波较为集中, 目标分散在0.2~0.9
图 2 为 AdaBoost 和 RusBoost 的 R O C (Receiver Operating Characteristic) 曲线。可以看到两者 R O C 曲 线 较 为 相 近 ,但 是 预 测 结 果 相 差 较 大 。对于验证 结果 ,设定目标为正例,杂波为反例,那 么 AdaBoost
不 平 衡 问 题 ,因 此 从 数 据 角 度 出 发 ,对 样本进行抽 样[M ]。随机采样是较常见的方法,主要分为随机上 采 样 和 随 机 下 采 样 。前 者 从 少 数 样 本 中 有 放 回 的 进 行 抽 样 ,重 复 多 次 ,组 合 成 新 的 与多 数 样本 数 量相 近 的 样 本 集 。而 随 机 下 采 样 则 相 反 ,在多数样本中 有放回或者无放回的重复采样,抽取与少数样本数 量 相 近 的 样 本 集 。本 文 中 因 为 目 标 较 少 且 杂 波 较 多 , 需要多次重复上采样才能使得样本相对平衡分布。 杂 波 对 应 的 样 本 数 量 较 大 ,通 过 重 复 上 采 样 会 使 得 目标被重复采样次数过多,生成目标上采样也不能 保 证 与 真 实 目 标 特 征 一 致 且 与 杂 波 特 征 不 一 样 。人 工随机下采样对数据集预处理,虽然表面上看解决 了 数 据 不 平 衡 问 题 ,但 杂 波可 能是 由 多种 原因 造成 , 36
传统的水声目标和杂波的分类是通过人工观 察 声 呐 画 面 来 区 分 ,将 杂 波 剔 除 ,选 择 目 标 。因此 仅 停 留 在 表 面 特 征 上 ,工 作 量 大 ,不能很好的完成 分 类 工 作 。人 工 智 能 分 类 方 法 可 以 提 高 分 类 准 确 率 和 自 动 化 。当 水 声 数 据 集 样 本 中 目 标 数 量 较 少 、杂 波 较 多 时 ,采 用 一 种 能 够 适 应 不 平 衡 数 据 集 的 方 法 尤 为重要。集成方法的基分类器相对简单,通过 boost之 后 又 能 表 现 出 很 好 的 效 果 ,且对样本集数 量 没有太大要求。本 文 采 用 AdaBoost和 RusBoost方 法 ,对数量有限的不平衡水声目标数据进行交叉验 证 实 验 ,对 比 分 析 两 类 算 法 识 别 效 果 。
的真正例率(真实正例被预测为正例的比例,用 TPR
表 示 )为 0.44,假 正 例 率 (真实的反例被预测为正 例的比例,用 表 示 ) 为 0.00,对目标滤除较多。
RusBoost W TPR 0.92, FPR ^ 0.02,即 9 0 % 以
上 的 目 标 被 正 确 分 类 ,被 错 误 分 类 为 目 标的 杂 波 的 比例也很低。
关 键 词 AdaBoost; R u s B o o s t ; 目标杂波;分类;真正例率;假正例率
对 水 声 目 标 、杂 波 进 行 分 类 在 渔 业 生 产 、海洋 信息产业、科学调查研宄以及国防军事中有着重要 作 用 [1],可 以 更 好 的 从 杂 波 中 将 目 标 区 分 出 来 ,为 后 续 声 呐 信 息 处 理 提 供 重 要 帮 助 [2]。水声目标的识 别 总 体 框 架 一 般 包 括 目 标 获 取 、特 征 提 取 、分类识 别三大部分。在 目标获取部分,海洋试验不够多, 一 般 数 据 积 累 较 少 ,优 质 数 据 集 不 容 易 获 取 。特征 提 取 部 分 ,常 规 特 征 提 取 较 成 熟 ,基本上能够反映 目标真实特性[3]。
2021年 第 2 期
声学与电子工程
总 第 142期
基 于 AdaBoost与 R usB oost的 水 声 目 标 杂 波
分类研宄与应用
何荣钦胡鹏冯金鹿 (第七一五研究所,杭州,31 0023 )
摘 要 水 声 目 标 杂 波 分 类 在 众 多 场 景 中 有 着 重 要 作 用 。针 对 水 声 目 标 杂 波 数 据 不 平 衡 ,人 工分 类工 作 量 大 且效果不佳的问题,介 绍 A d aB oost和 R usB oost机器学习方法,利用两组数量有限的主动水声目标不平衡数 据集,分 别 应 用 A d aB oost和 R u s B o o s t,通过训练和测试对比分析,发 现 R usB oost分类效果较好,且具有一 定泛化能力,能够为后续研宄和工作提供依据。
式பைடு நூலகம்,
规范化因子。
M
Zm =
Z 1
Wm,i

( 3 ) 组合
f (x ) = Y j a mGm(x )
(8)
1
得到最终分类器为
G(x ) = sign(/(x )) = sign( ^ « mG m (x )) (9)
1
2 RusBoost 算法
2 . 1 不平衡数据集处理 当 目 标 数 据 少 、杂 波 多 ,整个 数据 集存在较 大
3 实验验证
3 . 1 数据集 数据为海试获得的主动水声目标数据。从目标
中提取出关于几何特征和回波信号特征。水声目标 特征提取是通过信号分析和图像分析得到。一般从 信 号 发 射 、信 号 传 播 和 接 收 回 波 信 号 并 处 理 分 析 后 得 到 目 标 的 材 料 特 征 、几 何 特 征 以 及 运 动 特 征 [U1]。 本 文 提 取 4 类 特 征 共 1 2 个 ,分别是扩展类特征4 个 、信 噪 比 特 征 1 个 、统 计 特 征 2 个 和 形 状 特 征 5 个 。扩展类特征是根据主动声呐回波信号的距离角 度 等 扩 展 ,比 如 距 离 扩 展 ;信 噪 比 特 征是 能 量 信 噪 比 相 关 的 特 征 , 比 如 能 量 密 度 ;统计特征是回波中 过 门 限 点 的 统 计 学 特 征 ,比 如 峰 度 ;形状特征是回 波中过门限点形状分布特征,比如点密度。
A - (W U ,M;12,.__,W U ,••”
10)
w1; = 1/ N ,i = \,2,...,N
第 / 次迭代时,从多数类样本中随机下采样得 到 w 个样本,与少数类样本组成随机下采样训练子 集 X ,并 重 新 归 一 化 权 重 此 时 得 到 了 第 f 次迭 代 的 训 练 集 和 权 重 然 后 进 行 Boost迭代。
G m (x ) :x -> {-1,1}
IC中, m 为迭代计数。 * 分类误差
( 1)
(2) 35
何 荣 钦 等 :基于AdaBoost与RusBoost的水声目标杂波分类研究与应用
4 = 户(G »
兄)= Z1
即误分类样本加权求和。
* 若 e„ > 0.5结束,否则继续
兄) (3 )
* 计 算 G „(x )
对 分 类 有 较 好 的 效 果 。但 是 当 目 标 较 少 、杂波较多 时 ,杂波类对误差损失函数贡献较大,因此, A d a B o o s t 模 型 更 容 易 倾 向 于 数 量 较 多 的 杂 波 ,更可 能将目标分类成杂波,不能准确地将目标从杂波区 分出来。
Adaboost算 法 流 程 见 图 1 。 对 于 集 合
训练采用交叉验证法,进 行 5 折交叉验证。迭代 次 数 为 5 0 。采用决策树作为具体基分类器,并将决策
何 荣 钦 等 :基于AdaBoost与RusBoost的水声目标杂波分类研究与应用
树 最 大 深 度 设 置 为 20。分 别 使 用 AdaBoost和 RusBoost进行训练,得到训练验证结果。最后分别对 测试集A _test和数据集B 进行测试。 3. 3 训练验证
? ^ { ( 〜 ,>;1),0 £:2,>;2)”..,(〜 ,:^ ) } ,其 中 6为 特 征,乃为标签。
训练数
据集
分类输出
| \,—
!
(1)
_y
_______1
图 1 AdaBoost算法流程
初始化
A = (冰11,冰12,… ,'
,)
wu = \ l N,i = \,2,...,N
( 2 ) 迭代 * 基分类器
相关文档
最新文档