基于图数据挖掘算法的犯罪规律研究及应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

型, 脸型口音 , 脚长 , 鞋号 , 体表标记 , 牙齿特征 , 特殊特 征, 作案手段 , 作案工具 , 作案特点 , 选择时机 , 选择处 所, 选择对象 , 选择物品 , 销赃方式 , 流窜类别 , 流窜范 围等 , 文中将犯罪人员信息表作为主要分析对象 。 2. 2 数据抽取 根据文中研究实际需要 , 从上述数据准备阶段中 取相关的数据建立用于数据分析处理的数据表 : 人员 信息表 ( ryxxb ) 与案件信息表 ( ajxxb ) , 由于篇幅有限 其表的基本结构见表 1 和表 2 。 数据记录省略 , 2. 3 数据整理 ( 1 ) 人员信息表 ( ryxxb ) 的数据整理 。 为了简单起见 , 只抽取部分样本数据 , 表 1 列出了 两条记录供参考 。为方便图数据转换和分析 , 表1 中 并将年龄概化为青年 、 中年和 的出生日期转换为年龄 , 老年 ; 文化程度将其概化为四大类 : 大学专科以上 、 中 初中 、 小学及以下 ; 该表中不合格的数据如 : 专或高中 、 空内容 、 错误内容等被清除 。 表1
[5 ]

Ep , ep ) 和 D = ( VD , ED , e D ) 为两个标 设图 P = ( V p , D ∈ GD = {G1 , 号图, G2 , …, G n } 。如果 P 是一候选图 ( Candidate Graph ) , D 是一个数据图 ( Data Graph ) , 那 么候 选 图 P 在 GD 中 的 支 持 数 ( Supporty) 定 义 为 σ( P) = 和。 候选图 P 在数据库 GD 中的频繁数 ( Frequency) 定义为 χ ( P) =
第 21 卷 第 11 期 2011 年 11 月
计算机技术与发展
COMPUTER TECHNOLOGY AND DEVELOPMENT
Vol. 21 No. 11 Nov. 2011
基于图数据挖掘算法的犯罪规律研究及应用
唐德权, 张 悦, 贺永恒, 肖自红
( 湖南警察学院 计算机系, 湖南 长沙 410138 )

D∈GD
d D ( P) , 即 GD 包含候选图 P 的个数

δ ( P) , 即候选图 P 在数据库 D∈GD D
GD 中的 所 有 出 现 次 数 。 因 此 , P 在 GD 中 的 支 持 度 ( Support ) 定义为 S ( P) = σ ( P) / GD , P 在 GD 中的 频繁 度 ( Frequent ) 定 义 为 F ( P) = χ ( P) / GD 。 显 0 ≤ S( P) ≤ 1 , F( P) ≥ S( P) , 值得注意的是 F ( P) 然, 是可以大于 1 的。 1. 2 频繁子图挖掘基本算法 算法 FSubgraphMining Input : 图集 GD , 最小支持度 minsup Output : 频繁子图 F i N1. [Initialization]从 频 繁 单 边 开 始 挖 掘 , 记为 F1 。 N2. [ Loop]i = 2 开始循环 , 如果 F i - 1 为空集 , 该算 法结束, 输出图集 GD 中的所有频繁子图 。 N3. [ Candidates] 从 F i - 1 集合里产生候选 i - 频繁 子图集 C i 。 N4. [ Support] 2, …, | GD | ) , 如 C i ∈ g k( k = 1 , 那 么 Support = Support+1 。 N5. [ Frequent] 如果有 Support ≥minsup, 则将 C i 加 i = i + 1, 转 N2 继续循环 。 入 F i 中, 频繁子图挖掘一般过程是从挖掘图数据集中频繁 1- 子图开始 , 即找出所有频繁边 。 然后从频繁边集产 逐步增长直到输出所 生频繁两条边子图 : 2 - 子图 …, 有频繁子图。
人员信息表 ( ryxxb ) 样本数据
文化程度 60 70 职业 170 040 案别 18 19
( 2 ) 案件信息表 ( ajxxb) 的数据清理 。 表 2 为案件信息表 ( ajxxb ) 的部分样本数据 。 表 2 中六个相关字段均为字典项 , 如 : 案别 18 → 劫持案 , 选 择时机 43 →中午 , 选择处所 627 → 办公室 , 选择对象 36 作案手段 2304 → 窗口钻入 , 作案特点 51 → →女青年 , 就近作案 。其中 , 作案手段由于分类过细 , 有 308 类 , 对该项进行概化处理 , 取其大类 。 该表中不合格数据 如: 空内容 、 错误内容等被清除 。 表2
定义 3 如果 G
同构 ( Isomorphism) 。 = ( V, E, L, l) 和G
'
数据库中导出某地区 2000 年以来所有违法犯罪行为 同构 , 必 人员的详细资料 , 数据总量目前已达到几十万条 , 运行 于 Oracle9i 数据库 。该系统中的违法犯罪人员信息表 包含的主要字段名有 : 姓名 , 性别 , 籍贯 , 出生日期 , 民 族, 文化程度 , 职业, 住址, 案别, 身高, 绰号 , 专长 , 体
[4 ]
E, l) 。 标号图 G 表示为 : G = ( V, ΣV , ΣE , , V ; E , 其中 是结点集合 是边集合 且 E V × V; Σ V 和 Σ E 分别是节点和边的标号集合 ; l 是边和节点的映 射函数 。 定义 2 如果满足 : ●V V ( l( u) = l '( u) ) ● u ∈ V,
Abstract:The data mining technologies applying to analyze the crime rule has become a hot spot in field of the public security information system , there is little w ork being done on analyzing the crime rule of criminal and terrorist groups. Compared w ith other data technology ,graph can express richer semantic meaning. It is a new paradigm to apply based on graph data mining algorithm to analyze the crime rules. To mine crime rule and key members of a crime group, first proposed theory based on graph data mining , then proposed a frequent subgraph of same crime characteristics based algorithm called GDMCR ( Graph Data Mining Crime Rule ) ,finally employed frequent subgraph analysis techniques to discover crime rule and key structure. The experimental results show the efficiency and usability of the crime rule analysis system based on graph data mining ,and demonstrate that GDMCR is efficient. Key words:data mining ;frequent subgraph;crime rule;key members;association know ledge
摘 要:数据挖掘应用于犯罪集团或恐怖组织社会网络结构分析已经成为公安信息系统领域的研究热点 , 国内外在分析
犯罪和恐怖组织之间的内在规律方面的研究工作亟待深入 。 与一般的数据挖掘技术相比 , 图能够表达更加丰富的语义 , 基于图数据挖掘技术应用于犯罪规律研究是一种新兴的研究方法 。为了挖掘犯罪规律和频繁出现的核心成员, 首先提出 了基于图数据挖掘的相关理论, 然后提出了基于相同犯罪特征频繁子图结构的挖掘犯罪规律算法 GDMCR ( Graph Data Mining Crime Rule ) , 最后利用 GDMCR 算法得到的频繁子图关联知识分析犯罪规律及网络核心成员 。实验证明了文中提 出的基于图数据挖掘犯罪规律分析系统的有效性和实用性 , 并验证了 GDMCR 算法的有效性。 关键词:数据挖掘; 频繁子图; 犯罪规律; 核心成员; 关联知识 中图分类号:TP311. 2 文献标识码:A 文章编号:1673-629X( 2011 ) 11-0089-03
'
收稿日期:2011-04-18 ;修回日期:2011-07-25 基金项目:湖南省教育厅资助科研项目 ( 10C0134 ) ; 湖南省自然科学 基金( 06JJ50107 ) ; 湖南省教育厅重点项目基金 ( 10A074 ) 作者简介:唐德权( 1979- ) , 男, 讲师, 硕士, 研究方向为信息安全 、 数 据挖掘。
[2 ] [1 ]
1
1. 1
基于图数据挖掘
基本概念 定义 1 标号图 ( Labeled Graph ) 。
, 犯罪活动之
间或内部的关系错综复杂 , 很难用简单的数据结构表 , 传统的数据结构挖掘技术
[3 ]
已不能适应当前公 。 如何把犯罪业务
安信息系统的需要 。这就为数据挖掘研究提出了新的 课题 , 即挖掘复杂的图结构数据
0


数据转换成图结构 , 怎样从复杂关系图结构中及时找 出犯罪规律 , 如何利用犯罪规律为公安机关高层决策 这一系列问题都已成为公安科技部门亟待 提供服务 , 解决的重要课题 。
目前, 全国公安机关进行一场公安信息化的现代 警务新变革, 公安信息化系统的建设已成为打击违法 犯罪活动有力工具的必然趋势 。但多年的信息化建设 工作积累了海量的原始数据 , 数据规模超大 、 数据结构 复杂已经成为公安信息系统处理的难题 。 在绝大多数犯罪活动信息系统中 述
'
= ( V' , E' , L' , l' )
须存 在 1 个 满 足 以 下 条 件 的 映 射 函 数 f : V( G ) → V( G ' ) :
( l ( u) = l ' ( f ( u) ) ) ● u ∈ V,
( ( u, ( v) ) ∈ E 且 v ∈ V, ● u, v) ∈ E ( f ( u ) ,
子图 ( Subgraph ) 。
E, L, l) 和 G ' = ( V ' , E' , L' , l' ) , 设有标号图 G = ( V,
· 90·
计算机技术与发展
'
第 21 卷
●E E
2
2. 1
基于图数据挖掘在犯罪规律中的应用
数据准备 文中从公安专网里面全国违法犯罪人员管理系统
' v) ∈ E , ( l( u, v) = l ' ( u , v) ) , ● ( u, 那么 G 是 G ' 的一个子图 , 反过来 G 是 G 的一个超图 ( Supgraph ) 。
Research and Application on Crime Rule Based on Graph Data Mining Algorithm
TANG De-quan, ZHANG Yue, HE Yong -heng , XIAO Zi-hong
( Computer Science Department, Hunan Police Academy , Changsha 410138 , China)
出生日期 19711024 19710412
( l ( u, ● ( u , f ( v) ) ) v) ∈ E , v) = l ( f ( u ) ,
'
定义 4
' '
子图同构 ( Subgraph Isomorphism) 。
如果 G 与 G 中子图 g 存在一个同构映射函数 , 那 么称Baidu NhomakorabeaG 与 G 子图同构 。 定义 5 支持度和频繁度
相关文档
最新文档