成像信号的并行处理算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
输出原始数据的时间与成像处理时间 (包括并行机存取数据 的时间) 之比, 可表达为 [ ( = > 6)? 9 ] < :@A < 4 式中 — —方位向数据点数;6 — — —应去掉的方位点数; 9— — —处理出的方位帧数;:@A — — —脉冲重复频率;4 — — — 9— 并行处理时间。
源自文库
<
!"# 并行成像处理
!"# 成像信号的并行处理算法研究
鲍厚兵,皮亦鸣,黄顺吉
(电子科技大学电子工程学院,四川 成都 !"##$% )
摘 要:对 $@A 并行成像处理进行了深入研究, 在串行成像算法的基础上, 提出了 $@A 并行成像处理的一种
中粒度并行算法和一种混合 BBC 算法。中粒度并行算法针对 $@A 信号处理大数据量的特点, 在系统内存有限的情 况下, 对任务划分进行优化, 以提高系统处理性能。混合 BBC 算法将 D331(% 9 CEF(% BBC 算法和 G-+3,./0 BBC 算法结 合起来, 使得 BBC 算法在通用平台上更高效地运行。在国产曙光系列并行机上的实验结果证明: 我们的研究工作 是有成效的。 关键词:合成孔径雷达;图像处理;并行成像算法;快速傅立叶变换 中图分类号:C6#>: 文献标识码:@
法的一个重点。!"" 结构的并行机每一节点都有自己独立 的非共享内存, 而 ,-. 处理数据是分布存储于各节点中的, 因此数据的转置应分为两个部分, 一部分是各计算机之间的 数据转置, 所表现的是各计算机之间的数据通信, 另一部分 是各处理机内部的数据转置, 这与 ,-. 成像串行算法的单 机数据转置相似, 因此矩阵转置运算重点在于节点间的通 信, 亦是整个实现须重点解决的问题。节点间的通信可以分 为以下几种情况: 一到多播送, 一到多点对点通信, 单点收 集, 多到多点对点通信。由于数据是分布在各个节点中的, 而且各不相同, 因此转置 过 程 是 一 个 多 到 多 点 对 点 通 信。 “曙光” 每两 /000 的拓扑结构是采用高速交换机级联的方式, 个节点间均有一条通信通路, 因此可以不必关心数据通信时 的选路方式, 而交由系统来自行处理。处理节点分为三类。 分发节点 * 个: 负责原始数据的分发, 同时也处理一部分原 始数据, 记为 ) , 运行其上的主控进程 !* , 描述为一三元组 ( ’( , , !* +( , ,) ’( 为 !* 要处理的数据块号; +( 为 !* 的 "1! 任务标识;, 为从 "1! 节点池中申请的有效节点数。矩阵 转置和复图像拼接需要这些信
图* 中粒度算法的数据划分方法
第4期
,-. 成像信号的并行处理算法研究
息; 计算节点: 负责原始数据的处理, 节点个数为 - 个, 记为 …, 描述为一三元组 )* ( ’( , ; 收集节点 * 个: 负 &* , &- ; +( , ,) 责复图像数据的收集和拼接, 同时也处理一部分原始数据, 记为 . , 描述为一三元组 .* ( ’( , 。 为了减少各计算节点 +( , ,) 的同步等待时间, 我们采用一种循环转发的形式。 对于 ! " 每个节点的数据块矩阵为 ( ! % *)" # 。 分 # 的数据块矩阵, 每次发送 ( ! % /*)" # 大的数据块, 先发给计算 / 次发完。 节点 $* , 直到计算节点 $- , 如此循环 / 次。 发送节点同时也 为计算节点, 发送完 * 0 * 块数据后, 开始处理自己的数据块 ( ! % /*)" # 。 在 ) 节点上主控进程 !* 的算法流程如图 +。 计算节点的计算进程启动后, 开始接收待处理的数据, 如数 据已到, 则从接收缓冲将数据取回到计算缓冲处理, 处理完 又转入接收态, 等待处理下一块数据。其算法流程如图 /。 当一个计算节点完成二维压缩后, 将复图像数据发往接收节 点, 接收节点根据块号, 将来自不同节点的分图像拼接成一 帧图像, 其算法流程如图 2。
"82’/.1’:@ )(0-E) ,./-+(0 S/./11(1 -)/,-+, /1,3.-’Q) K/&(0 3+ ’Q( (T-&’-+, &(UE(+’-/1 /1,3.-’Q)& /.( S.(&(+’(0 -+ ’Q-& S/S(.
/V’(. ’Q( 0((S .(&(/.2Q 3+ S/./11(1 S.32(&&-+, 3V $@A -)/,-+, /+0 / Q%K.-0 BBC /1,3.-’Q) -& S.(&(+’(0 /1&3W C/F-+, ’Q( 2Q/./2’(. 3V $@A 0/’/ /+0 1-)-’(0 &%&’() )()3.% -+’3 /223E+’&,’Q( )(0-E) ,./-+(0 S/./11(1 -)/,-+, /1,3.-’Q) 3S’-)-X(& ’/&F S/.’-’-3+-+, ’3 -)S.3Y( &%&’() S.32(&&-+, S3Z(.W J%K.-0 BBC /1,3.-’Q) 23)K-+(& D331(% 9 CEF(% BBC Z-’Q G-+3,./0 BBC &3 ’Q/’ BBC 2/+ .E+ )3.( (VV-2-(+’1% 3+ ,(+(./1 23)SE’(. S1/’V3.)&W CQ( Y/1-0-’% 3V 3E. .(&(/.2Q -& 23+V-.)(0 K% ’Q( .(&E1’& 3V (TS(.-)(+’& 3+ [@G6= M6P S/./11(1 23)SE’(.W
$@A 成像处理本质上是二维匹配滤波。 $@A 成像算法
[>] [#] [!] 有 A\ [ 算法, 算法, 算法等。 D$ 算法是 !7 世纪 $AD D$
成像精度高, 是本文并行处理实 #7 年代初提出的一种算法, 验采用的主要 $@A 成像算法。设 $@A 成像处理的运算规模 为 0, 若 4( 为最优 $@A 成像串行算法在单处理机上的运 8 0)
随着 $@A 数字成像技术的不断发展, 对 $@A 图像的成 像精度和实时率的要求也愈来愈高。实现 $@A 实时数字成 像处理有两条途径: 一是 $@A 专用数字信号处理机; 一是通 用并行计算机。前者的体积小、 重量轻, 可作为机上或星上 设备, 但其研制成本高, 研制周期长, 适应性较差。后者研制 周期短, 研制成本低, 容易升级且适应性强。随着计算机科 学飞速发展, 采用通用计算机作地面系统的实时处理已成为 发展趋势。
(>)
( *% , …, ) *& , */ )+ ( …, , &% , && , &/ )" #"’ 多维 !"# 后输出整序
" …" " ・
& +$ / & +$& +$ & % & &… - / / " -! ! & /
对于 ! " ! 的矩阵, 使用 # 个处理节点按行划分, 开始 时处 理 节 点 $% 中 存 有 的 矩 阵 元 素[ % , , [ %, , …, $] %] , 在转置完成后元素 [ %, 元素 [ %, [ %, & ’ %] $]将属于 $$ , %] 将属于 $% , 以此类推。 在转置过程中每个处理节点将发送不 同的数据到其它各个处理节点, 同时也将从其它处理节点接 收到数据。 而计算结束后, 分布于各个计算节点的图像数据 又发送到一个节点进行拼接, 这是一个单点收集的过程。 实 际上, 每个处理节点分配有 ! ( # 行 (共 !& ( # 个元 # ! !, 素) , 图 ’ 中用实线划开的部分为转置前每个处理节点所拥 有的数据条, 实线和虚线化开的小块是应进行交换的数据子 块, 箭头所指是表示数据子块进行交换的位置。
$%& !’()* +, -./.00&0 -/+1&22345 "05+/3’%6 +, !"# 76.5345
H@I J3E=K-+,,LM N-=)-+,,JO@6P $QE+=R( &’(()*) ’+ ,()-./’01- ,0*10))/10* ’+ 2,34& ,&5)0*67 !"##$% ,&5108 )
" !&% ( !%
%+% /
(=+8 !) (=+8 !)
" !0%*% ( !%
%+%
}
…, &% , *% + $, %, !% ’ %,1 !0% ( !% 2 由 (>) 式可得多维 <() !"! 矩阵转置
图! 尾节点上 "# 进程的算法流程
! ’% / ! ’% ! ’% & %
!%
+ %
9&*:+/)2:$%+’Q(’-2 /S(.’E.( ./0/.;M)/,-+, S.32(&&-+,;L/./11(. -)/,-+, /1,3.-’Q);BBC
; 引
言
算时间,4( 为最优 $@A 成像并行算法在具有 : 台处理 9 0)
[8, :] 器的并行机上的运算时间, 则该并行算法的加速比 39 ;
度的划分, 即对成像的每一个步骤进行并行计算。 !"" 或 处理器之间通过高速总线或 #$%&’() 结构的内存是非共享的, 交换机连接, 存在通信性能与计算性能不平衡的问题, 抵消 掉了并行计算所节省的时间, 因此需要扩大问题划分的粒 度, 数据划分方法见图 *。假设要进行处理的一帧原始数据 大小为 ! " # , 处理节点个数为 $ , 其编号为 *, …, 按水 +, $。 平向将数据矩阵划分成 $ 块 ( $ 可以不为 + 的幂次) , 每块数 每个处理器分得一块。 将处理节点和 据大小为 [ ! % $ ]" # , 其数据表为一二元组 & ( ’( , , $( ) ’( 表示第 ( 块数据, $( 表示第 所有的计算均可并行地完成。由于每 ( 个处理节点。因此, 个处理器只分得一帧原始数据的一块, 所以该算法大大降低 了对每个节点内存的要求, 尤其是当处理过程中参考函数的 点数较多时, 内存需要大大增加, 该算法避免了这个问题, 节 省了对并行机的投资成本。对于 ,-. 成像处理, 任意多条 距离线 (或方位线) 的压缩是互不相关的, 可以同时进行。 !"# 数据的分发、 计算、 收集 在基 于 ,.# 及 #, 算法 的 中 粒 度 并 行 算 法中 都 用 到 了 矩 阵 转 置, 特别是 #, 算法, 其 中用 到 了 三 次 矩 阵 转 置, 因 此, 矩阵转置并 行算 法 是 整 个 并 行 算
收稿日期: !778 9 7: 9 7; 万方数据 修订日期: !778 9 7< 9 !"
=
=>;
中粒度并行算法及实现
问题的划分 $@A 中粒度并行成像算法是对成像所需计算进行中粒
作者简介: 鲍厚兵 (8#:7 9 ) , 男, 博士研究生, 主要研究方向为雷达信号处理。
・ 3/ ・ ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !
系统工程与电子技术 第 !" 卷 第 # 期
文章编号: (!77!) 8778=>7;? 7#=77<!=7>
$%&’()& *+,-+((.-+, /+0 *1(2’.3+-2&
4315!", 635# !77!
! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !
。 它反映了用多 DLO 的并行成像算法比用单 4( < 4( 8 0) 9 0) DLO 的 串 行 成 像 算 法 在 时 间 上 提 高 的 倍 数。 并 行 效
[8, :] 率 定义为 ,9 反映了并行机节点的利用情况。 ,( 9 0)
( ,( <: 9 0 ); 3 9 0) 式中
[8, :] — —并行机的处理器数量。实时率 是指雷达 :—
! ’%
( * )+ ) 式中
, &) -! , * "(
&*
&+$ /
…, %, !’% + $,
(%)
不妨先假设 ! 可分解为 -! + -’ .&!( ! 。 ! +
# !%
%+% /
( !% , !. )+ %; %$ .
(&)
采用下列指数变换和中国余数定理, 将一维 <() 映射成多维 <() & + * +
图/ 中间节点上 #" 进程的算法流程 图+ , 节点上主控进程 !" 的算法流程
万方数据
系统工程与电子技术 ・ 9! ・ &$$& 年 ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’