混合马尔科夫预测模型及其在反洗钱中的应用研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
账户 60384 的交易记录
客体账户 69275 60384 68740 69054 交易时间 2003 01 12 2003 01 31 2003 02 08 2003 02 25
, X 0 = i 0 } = P{ X n+ m = i n+ m | X n ( 2)
主体账户 60384 68740 60384 60384
计算属 于 每 个 账 户 类 型 的 账 户 有 多 少 个 , 可 以 得 到 S i =
i , ( pm , w im ) } , 其 中 ( p i1 , w i1 ) 表 示属 于类型 p i1 的
是 账户 c i 的 交易 序列 , l i 表 示交 易序 列 W i 的 长 度 , , W n } 是所有交易序列的集合 ( 每个账户都 对应一 , cik i } ( i = 1 , 2 , , m) , 其中 ki 表示属于类型
D= { W1,
个属于自己的 交易序列 ) 。不同 的账户分 别属于 不同的 类型 P i , P i = { ci1 , c i2 , P i 的账户数量 , 显然 P i { ( p i1 , w i1 ) , C 。对于每 一个交 易序列 W i , 分别
[ 4] K i
3. 2
[ 4]
交易序列的聚类 本节讨论 如何对 交易 序列 进 行聚 类。假 设 C = { c1 , c 2 , c i1 , c i2 ,
i l-
(K - 1)
, i l- ( K - 2 ) ,
, i l 称为 K 序马尔科 夫模型的 : ,c
。 K 序马尔科夫模型有如下评估参数
表1
序号 1 2 3 4 5
I , 条件概率满足
P{ X n + 1 = i n+ 1 | X 0 = i 0 , X 1 = i 1 , = P{ X n+ 1 = i n + 1 | X n = i n } 则称 { X n , n 所用情况都满足式 ( 1) , 即 P{ X n + 1 = i n+ 1 | X n = i n , = in }
, cn } 是所有账户的集合 , n 表示账户的总数量 , W i =
i li
( 1) 准确率 ( accuracy) : 评价模型 预测能力的参数。 ( 2) 状态数量 ( number of states) : 评价模型时间和空间复ห้องสมุดไป่ตู้杂度的参数。 ( 3) 覆盖率 ( cover age) : 训练 集的 数量是 一定 的 , 当 K 越 大时 , 模型的状态数量越大 , 有限的训练集不能保证涵盖所有 的状态 , 其比值就是模型的覆盖率。 已有的研究表明 , 增大 K 值能提高 预测的准确性。但是 随着 K 的增大 , 模型的状态数量有了更大幅度的提高。
170
2 K 序马尔科夫模型
定义 1 设有随 机过 程 { X n , n n T 和任意的 i 0 , i 1 , , i n+
1
3. 1 T } , 若对 于任 意的 整数 , Xn = in } ( 1)
建立交易序列 先从数据 库中读取所有的 交易账 户 , 然 后按照 时间 顺序
建立所有账户 的交易序列。 这个过程 并不复 杂 , 关键问 题是 将交易方向考 虑进来 , 而不仅仅 是交易 对象的 账号。可 借助 一种扩展编码的思想。假设在账 号为 60384 的账户的 交易序 列中 , 该账户按照时间顺序有如表 1 所列的交易记录 , 其中主 体账 户表示交 易资金的流 出方 , 客体账户 表示交易资 金的流 入方。根据这些记录可 以得到如下交易序列 : 692750, 687401, 687400, 690540, 即通过在交易对象的账 号后面添加一位方向编码 0 或者 1 来 区分资金的流向。这样 , 即使交易对象是同一个交易账户 , 只 要资金流向不 同 , 仍被视为不同的交易对象。
1 引言
金融犯罪是当今国际社 会面临 的重大 问题 , 尤其是 其中 的洗钱活动 日益猖獗 , 对世界 各国政治 和经济秩序 的危害越 发严重而深远 , 对国际金融体系安全造成的威 胁不容忽视
[ 1]
。
洗钱等金融 犯罪是一种 群体犯罪 , 其交 易是随时间 变化的序 列。异常交易行为预测是反 洗钱的 关键 , 它可帮 助发现 洗钱 线索 , 帮助执法部门有效地预防和打击洗钱等 各种金融犯罪。 马尔科夫模 型在 时间 序 列预 测中 应 用非 常 广泛。 2002 年 , Zhu Jianhan [ 2] , Shant ha[ 3] 将马尔科 夫链用 于 W eb 网页的 导航预测 中。 2004 年 , M ukund Deshpaned 和 Geor ge K ary pis [ 4] 在混合序马尔科夫 模型和 K 序马尔 科夫模 型的基 础上 提出了选择 性马尔科夫 模型 , 它具有较 高的预测准 确性和覆 盖率 , 但是当 K 较大 时 , 算 法的 时 间复 杂 度很 高。 2006 年 , Faten K halil 和 L i Jiuyo ng [ 5] 将低序马尔科夫模型和关联规则 结合起来 , 提出了一种新的混合马尔科夫模型 , 此算法相对选 择性马尔科夫模型而言 , 既降低了时间复杂度 , 又将预测的准 确性保持在一个较高的水平。但此模型对所有的链接序列采 用统一的统计方式 , 忽视了不同类型时间序列 之间的差异性。
率等经济领域的预测中具有广泛的应用 , 但单一的马尔科夫模型 的预测准确 性有待提 高 。 提出一种结 合数据挖 掘中 聚类 、 关联规则和低序马尔科夫模型的混合马尔科 夫模型 , 并在模型的建立过程中基于置信度进行剪枝 以降低时间复 杂度 , 最后将该模型用于预测反洗钱领域 中账户之间的交易 。 实验表 明 , 该 模型具有较 高的预测 准确性 , 并在预 测准 确性和时间复杂度两者之间取得了较好的平衡 。 关键词 混合马尔科夫模型 , 预测 , 聚类 , 关联规则 , 反洗钱 T P311 文献标识码 A 中图法分类号
T } 为马尔 科夫链。 但是在 实际 应用中 , 并 不是 , X0 = i0 } P{ X n + 1 = i n+ 1 | X n
在这种情况下 , 必须将之前所有的状态都 考虑进来 , 毫无 疑问这增加了问题的复 杂程度。为 了简化 问题 , 可以只 考虑 当前时间点之前的 K 个状态 ( K < n ) , 并假设 P{ X n + m = i n + m | X n = i n , = in , , X n(K - 1)
第 38 卷 第 7 期 2011 年 7 月
计 算 机 科 学 Computer Science
Vo l. 38 No. 7 July 2011
混合马尔科夫预测模型及其在反洗钱中的应用研究
李玉华 李栋才 毕 威 李瑞轩 ( 华中科技大学计算机学院 武汉 430074)
摘 要 反洗钱中的一个重要问题是预测可疑账户未来可能发生的交易 。 马尔科夫模型在股 票 、 商品价格 、 市场占有
Hybrid Markov Prediction Model and Research of its Applications in Anti money Laundering
LI Y u hua L I Dong ca i BI W ei L I Rui x uan
( Col leg e of Comput er Science & T ech nology, Hu azh on g U nivers ity of Science & T ech nology, Wuh an 430074, China)
Abstract
An impor tant pro blem in anti money launder ing is to pr edict the possible tr ansactio ns co nduct ed by suspi
cio us accounts. M ar kov mo del has a w ide rang e of applicatio ns in eco no mic predictio ns such as stock, commo dit y pr ices, market shar e and so on. But the predictio n accur acy of the sing le mar ko v model r ema ins to be improv ed. A hy br id M ar ko v model jointing w ith clust ering, asso ciatio n rule and lo w or der M arko v mo del w as proposed. I n the pr ocess of co n str ucting the model, the co nfidence based pr uning was conducted t o r educe the time co mplex ity. Finally , t he mo del was used to predict the transact ions among account s in anti mo ney launder ing . T he ex perimental r esults show that this mo del has hig h pr ediction accuracy and is a g ood tradeoff between the pr edict ion accur acy and the time complex ity . Keywords H ybrid M ar kov mo del, P rediction, Cluster ing, A ssociation r ule, A nti money laundering 郭景峰 [ 6] 提出了一种改 进的针对合著关系网络的链接预测方 法。 近年来 , 在经济领域的应用中 , 高金余 [ 7] 利用马尔科夫切 换模 型来分析 中国股市 , 该模型 对股市波 动的研究有 一定指 导意义。张冬青 [ 8] 在考 虑影响 因素的 基础上 , 提出 了基 于观 测向量序列的 隐马尔科夫模型预测方法。该方法同时考虑变 量自身序列结 构以及相关因素的影响。张冬青 [ 9] 提出了一种 基于 小波域隐 马尔可夫模 型的时间 序列分析方 法 , 它 可应用 在经济领域时 间序列分析中。现有单纯基于马尔科夫模型预 测的 准确性有 待提高 , 而且马尔 科夫模型 在反洗钱预 测中的 相关研究还比 较少。 本文根据 反洗钱应用的特点 , 将数据挖掘中的聚类、 关联 规则 的相关理 论和低序马 尔科夫模 型结合起来 , 给出 一种基 于混合马尔科 夫模型的预测算法并应用于反洗钱实践。采用 k 均值 聚类算 法对所 有账户 的交易 序列进 行聚类 , 将具 有相 似交易特点的 交易序列划 为一类 , 更有 针对性。 然后对 每个 聚类 分别建立 基于置信度 剪枝的低 序马尔科夫 模型 , 用以预 测用户的交易 路径。当预测 出现模糊 时 , 引入关 联规则 给出 更准确的预测 结果。
到稿日期 : 2010 08 04 返修日期 : 2010 11 12
本文受国家自然科学基金项目 ( 70771043) , 国家自然科学基金项目 ( 60873225) , 国家 863 计划
项目 ( 2007A A 01Z403) 资助。 李玉华 ( 1968- ) , 女 , 博士 , 副教授 , CCF 会员 , 主要研究方向为数据挖掘、 金融信息化 , E mail : yuhua_yy@ 163. com 。
= i n - (K - 1) }
满足式 ( 2) 的马 尔科夫 模型 为 K 序 马尔 科夫模 型 , 其中 K 称为马尔科夫模型的序。本文中提到的低序马尔 科夫模型 是指 K 取值比较小的情况 , 比如 K = 2 , 3 等。至 于具体 K 取 多大才是低序 , 则取决于具体问题的需要。 S = 状态