基于自然语言处理的文本泄密自动检测技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ab t a t T ed ma ec u e yt x i u g n ei et g mo ea dmo es ro s i e dv l e c e e t gr m a e lv l f s r c : h a g a s db t v l e c g ti r n r e i u l t i u g n ed t ci e d s n wh e h n e i i t e nn h e o
tc n lg f x i le c a e nn trla g a e r c sigip o o e ytemeh do tx mi rt uoc mp rs na dd t e h oo yo t t v g n eb s do au a n u g o esn rp sdb to f e t i l i a t o aio aa e du l p s h s a y n
摘 要: 因文 本信 息 泄 密 导 致 的 危 害越 来 越 严 重 , 传 统 的 泄 密检 测 还 停 留在 人 工 查 看 , 率 低 且 易造 成 二 次 泄 密 。针 对 以 但 效
上 问题 , 采用 文本相 似度 自动比较和 数据加 密方法 , 出了一种基 于 自然语 言处理 的文本 泄密 自动检 测技术 。在 实际应 用 提
检 测 相 对 容 易 , 分 泄 密 的检 测 则 难 度 高 、 作量 大 。 因 是 部 工 原
收 稿 日期 :2 1-80 ;修 订 日期 :2 1—00 。 0 00 .5 00 1—6
基金项目: 中国博士后科学基金项 目 (0 84 11) 2 00 3 14;南京信息工程大学校科研基金项 目 (0 7 13 。 2 0 0 1) 作者简介 :王 利 鑫 (9 5 , 男 , 江 苏 宜 兴 人 , 硕 士研 究 生 ,研 究 方 向 为人 工 智 能 、文 本 处 理 ; 耿 焕 同 (9 3 ,男 , 安徽 绩 溪人 ,教 授 , 1 8 一) 1 7 一) CC F会 员 ,研 究 方 向为 人工 智 能 、 资料 同化 ; 孙 凯 (96 , 男 ,江 苏 南 京人 ,硕 士 研 究 生 ,研 究 方 向为 人 工 智 能 ; 张 茜 (9 7 ,女 ,甘 1 8 一) 18 一)
程 度 存 在 差 异 。泄 密 一 般 可 分 为 全 文 与 部 分 泄 密 。全 文 泄 密
上 问题 ,提 出 了一 种 基 于 自然 语 言 处 理 的文 本 泄 密 自动 检 测
技术 , 验结果 证明该方法是有效可 行的 。 实
1 相 关 技 术
1 we . 1 b信 息 抽 取 技 术
d t c o s m e in da di lme td Th s lo t ee p r n e n t t s h th c n l g eu e e ee t n e e t ns t i d sg e n i y e s mp e n e . e e u t f h x e i r me t mo sr e a et h o o yc b s di t tci d a t t e n a nh d o tx i u g n e t h ef au eo p i a y ls ma u l n e v n i n e ce c , s s e t dp r g a hp st n n n d s n e t v l e c wi d ht e t r f r c , e s n a it r e t , f in y v o i u p ce a a r p o i o iga oo . i Ke l S n t r l a g a ep o e sn ; t x i l e c ; e c y t n smi r y e a n t n if r t n e t ci n y WO d : a u a n u g r c s i g e t v g n e l du n r p i ; i l i x mi ai ; n o ma i x r t o at o o a o
0 引 言
信 息 的 生 产 、 储 、 取 、 享 以及 传 播 已越 来 越 方 便 , 存 获 共 但
泄 密 部 分 可 能是 涉 密 原文 的 部 分段 落 , 是 调整 顺序 的段 落 , 或
或 是 调 整 语 序 的 段 落 , 是 对 某 些 段 落 的 合 并 、 充 、 缩 等 或 扩 压
e ey to . I rcia p iain , d et ec as eso d tcin teeaetep sii t f ee t no is n T eme o f n r pin np t l pl t s u t o rn s f ee t , h r r o sbl o d tci m si . h t do a c a c o oh o h i y o o h smi r e c o a e nn tr l aa rp d sne c si u e , whc a itt o aino e i l i d t t n b sdo au a r g a h a e tn e s sd at e i y p n ih fcla elcto ft m. Fial, atx iug n e i h nl y tdv le c e
网络 是 巨大 的数 据 库 , 时也 是 信 息泄 密 的重 要 渠 道 , 同 从
I e t It nt 获取 信 息 , 看 其 是 否 含 有 涉 密 信 息 。目 n me 或 n ae上 t r 查 前人 们 主 要 通 过 人 为打 开 网页 或 下 载 相关 文 档 进 行 逐 一查 阅 , 费 时 费 力 , 率 低 。利 用 We 息 抽 取 技 术嘲we n oma o 效 b信 ( bi r tn f i
中, 因检 测粒度 过粗可 能导致 漏检 , 采用基 于 自然段 落和语 句的相 似度检 测方法 , 方便疑似段 落和语 句的 自动 定位 , 最后设
计 并 实 现 了一 个 文 本 泄 密 检 测 系 统 。 实验 结 果表 明 , 技 术 能很 好 地 应 用 于 涉 密 文 本 泄 密 的 检 测 , 有 保 密 、 工 干 预 少 、 该 具 人 效率 高、 似 段 落定位等 特点 。 疑 关键词 : 自然 语 言 处 理 ; 文 本 泄 密 ; 加 密 ; 相 似 度 检 测 ; 信 息 抽 取
Βιβλιοθήκη Baidu
中图法分类 号: P 9 T31
文献标 识码 : A
文章编号 :0 072 (0 10 .600 10 —0 4 2 1) 8 0 . 2 4
Au o d tci nt c n lg f e t iu g n eb s do a u a n u g r c si g t - ee t h oo y o x v l e c a e nn tr l a g a ep o e sn o e t d l
情 况 ,更 有 甚 者 仅 仅 为 涉 密 原 文 的 某 些 语 句 。 工 作 人 员 在 检 测 时需 逐 段 逐 句 的 进 行 比较 并 定 位 疑 似 泄 密 信 息 ,否 则 会 出 现 漏 检 。三 是 安 全 性 差 ,易 造 成 二 次 泄 密 。 由于 人 工 检 测 需 查 看 涉 密 文 件 ,为 信 息 的 泄 密 多 了一 份 可 能 与 危 险 。针 对 以
要 的 任 务 。目前 针 对 各 级 党 政 机 关 网站 的信 息 泄 密 检 测 主 要 采 用 人 工 检 测 方 式 , 率 低 、 全 性 差 。 主 要 原 因 有 3点 : 效 安 一 是 网 络信 息 量 大 。 工 作 人 员 需 访 问 大 量 网 页 , 载 大 量 文 档 下 逐 一 查 看 比 较 , 过 人 工 判 断是 否 存 在 涉 密 信 息 。 二 是 泄 密 通
WA NG i i, GE a — n , S i Z NG Qin L - n x NG Hu nt g UN Ka, HA a o
(co lf o ue d ot a ,N nig n esyo lfr  ̄i c n e d eh ooy S h o o C mp t a f r r n S w e aj i r t nom o S i c cn lg,Naj g 1 04 h a nU v i f n e a T n ni 04 ,C i ) i 2 n n
2 0 2 1, o.2 No8 计 算 机 工 程 与 设 计 C mp t E g er g n D s n 60 0 1 V 1 , . 3 o u r n i e n d ei e n i a g
基于 自然 语言处理的文本泄 密 自动检测技术
王 利 鑫 , 耿 焕 同 , 孙 凯 , 张 茜 ( 南京信 息 工程 大学 计 算机 与软件 学 院 ,江苏 南京 2o 4 ) 1o4
肃 酒 泉 人 ,硕 士 研 究 生 ,研 究 方 向 为人 工 智 能 。E ma :wl 2 @ 13cr — i l x 1 6. n o
_
王利鑫 ,耿焕 同,孙凯 ,等 :基 于 自然语 言处理 的文本泄 密 自动检测技术
et c o) xr t n,就 是 从 We ai b页 面 中所 包 含 的 无 结 构 化 或 者 半 结 构 化 的信 息 中识 别 用 户 所 感 兴 趣 的 信 息 数 据 , 将其 转化 为 结 构 并 和 语 义 更 加 清 晰 的 数据 格 式 。论 文 仍 采 用 原 先 提 出 的 一种 基 于 视 觉 分 块 的 We 信 息 抽 取 方 法 , b 自动抽 取 相 关 网 站 的 信 息 。 在 此 基 础 上 , 对 具 体 网 页 进 行深 层 抽 取 , 对 某 一 具 体 又 即 网页 的 文 本 内容 进 行 抽 取 。首 先 获 得 初 次 抽 取 的 网 页 的 网 址 集 合 , 后 分 析 某 具 体 网页 源 文 件 , 后 采 用 基 于 正 则 表 达 式 然 最 的方 法 自动 将 网 页 中 的文 本 内容 抽 取 出来 ,将 此 文 本 内容 用 作 泄 密 检 测 的数 据 来 源 。
与 此 同 时 ,信 息 泄 密 随 着 信 息化 程 度 的 提 高 而 日益 加剧 。近
年 来 , 级 党 政 机 关 门户 网 站 普及 的 同 时 , 法 披 露 国家 秘 密 各 非
信 息 事 件 呈上 升趋 势 , 泄 密 事件 中所 占 比例 也 迅 速 攀 升 , 在 信 息 公 开 的 同 时 导致 了信 息 的泄 密 … 在 各 种 信 息 安 全 威 胁 所 造 。 成 的 损 失 中 , 业 和 政 府 机 构 因 重 要 信 息 被 泄 密 所 造 成 的损 企 失 排 第 一 位 。所 以 , 息泄 密 检 测 己成 为 一项 十 分 艰 巨而 重 信
ma u l p r t n wh c s ie e t e a d e sl e d t e o d r i u g n e Ai d a h b v u si n , a a t — e e to n a e a o , o i ih i n f ci n a i la o s c n a y d v l e c . v y me tt e a o e q e to s u o d t ci n
tc n lg f x i le c a e nn trla g a e r c sigip o o e ytemeh do tx mi rt uoc mp rs na dd t e h oo yo t t v g n eb s do au a n u g o esn rp sdb to f e t i l i a t o aio aa e du l p s h s a y n
摘 要: 因文 本信 息 泄 密 导 致 的 危 害越 来 越 严 重 , 传 统 的 泄 密检 测 还 停 留在 人 工 查 看 , 率 低 且 易造 成 二 次 泄 密 。针 对 以 但 效
上 问题 , 采用 文本相 似度 自动比较和 数据加 密方法 , 出了一种基 于 自然语 言处理 的文本 泄密 自动检 测技术 。在 实际应 用 提
检 测 相 对 容 易 , 分 泄 密 的检 测 则 难 度 高 、 作量 大 。 因 是 部 工 原
收 稿 日期 :2 1-80 ;修 订 日期 :2 1—00 。 0 00 .5 00 1—6
基金项目: 中国博士后科学基金项 目 (0 84 11) 2 00 3 14;南京信息工程大学校科研基金项 目 (0 7 13 。 2 0 0 1) 作者简介 :王 利 鑫 (9 5 , 男 , 江 苏 宜 兴 人 , 硕 士研 究 生 ,研 究 方 向 为人 工 智 能 、文 本 处 理 ; 耿 焕 同 (9 3 ,男 , 安徽 绩 溪人 ,教 授 , 1 8 一) 1 7 一) CC F会 员 ,研 究 方 向为 人工 智 能 、 资料 同化 ; 孙 凯 (96 , 男 ,江 苏 南 京人 ,硕 士 研 究 生 ,研 究 方 向为 人 工 智 能 ; 张 茜 (9 7 ,女 ,甘 1 8 一) 18 一)
程 度 存 在 差 异 。泄 密 一 般 可 分 为 全 文 与 部 分 泄 密 。全 文 泄 密
上 问题 ,提 出 了一 种 基 于 自然 语 言 处 理 的文 本 泄 密 自动 检 测
技术 , 验结果 证明该方法是有效可 行的 。 实
1 相 关 技 术
1 we . 1 b信 息 抽 取 技 术
d t c o s m e in da di lme td Th s lo t ee p r n e n t t s h th c n l g eu e e ee t n e e t ns t i d sg e n i y e s mp e n e . e e u t f h x e i r me t mo sr e a et h o o yc b s di t tci d a t t e n a nh d o tx i u g n e t h ef au eo p i a y ls ma u l n e v n i n e ce c , s s e t dp r g a hp st n n n d s n e t v l e c wi d ht e t r f r c , e s n a it r e t , f in y v o i u p ce a a r p o i o iga oo . i Ke l S n t r l a g a ep o e sn ; t x i l e c ; e c y t n smi r y e a n t n if r t n e t ci n y WO d : a u a n u g r c s i g e t v g n e l du n r p i ; i l i x mi ai ; n o ma i x r t o at o o a o
0 引 言
信 息 的 生 产 、 储 、 取 、 享 以及 传 播 已越 来 越 方 便 , 存 获 共 但
泄 密 部 分 可 能是 涉 密 原文 的 部 分段 落 , 是 调整 顺序 的段 落 , 或
或 是 调 整 语 序 的 段 落 , 是 对 某 些 段 落 的 合 并 、 充 、 缩 等 或 扩 压
e ey to . I rcia p iain , d et ec as eso d tcin teeaetep sii t f ee t no is n T eme o f n r pin np t l pl t s u t o rn s f ee t , h r r o sbl o d tci m si . h t do a c a c o oh o h i y o o h smi r e c o a e nn tr l aa rp d sne c si u e , whc a itt o aino e i l i d t t n b sdo au a r g a h a e tn e s sd at e i y p n ih fcla elcto ft m. Fial, atx iug n e i h nl y tdv le c e
网络 是 巨大 的数 据 库 , 时也 是 信 息泄 密 的重 要 渠 道 , 同 从
I e t It nt 获取 信 息 , 看 其 是 否 含 有 涉 密 信 息 。目 n me 或 n ae上 t r 查 前人 们 主 要 通 过 人 为打 开 网页 或 下 载 相关 文 档 进 行 逐 一查 阅 , 费 时 费 力 , 率 低 。利 用 We 息 抽 取 技 术嘲we n oma o 效 b信 ( bi r tn f i
中, 因检 测粒度 过粗可 能导致 漏检 , 采用基 于 自然段 落和语 句的相 似度检 测方法 , 方便疑似段 落和语 句的 自动 定位 , 最后设
计 并 实 现 了一 个 文 本 泄 密 检 测 系 统 。 实验 结 果表 明 , 技 术 能很 好 地 应 用 于 涉 密 文 本 泄 密 的 检 测 , 有 保 密 、 工 干 预 少 、 该 具 人 效率 高、 似 段 落定位等 特点 。 疑 关键词 : 自然 语 言 处 理 ; 文 本 泄 密 ; 加 密 ; 相 似 度 检 测 ; 信 息 抽 取
Βιβλιοθήκη Baidu
中图法分类 号: P 9 T31
文献标 识码 : A
文章编号 :0 072 (0 10 .600 10 —0 4 2 1) 8 0 . 2 4
Au o d tci nt c n lg f e t iu g n eb s do a u a n u g r c si g t - ee t h oo y o x v l e c a e nn tr l a g a ep o e sn o e t d l
情 况 ,更 有 甚 者 仅 仅 为 涉 密 原 文 的 某 些 语 句 。 工 作 人 员 在 检 测 时需 逐 段 逐 句 的 进 行 比较 并 定 位 疑 似 泄 密 信 息 ,否 则 会 出 现 漏 检 。三 是 安 全 性 差 ,易 造 成 二 次 泄 密 。 由于 人 工 检 测 需 查 看 涉 密 文 件 ,为 信 息 的 泄 密 多 了一 份 可 能 与 危 险 。针 对 以
要 的 任 务 。目前 针 对 各 级 党 政 机 关 网站 的信 息 泄 密 检 测 主 要 采 用 人 工 检 测 方 式 , 率 低 、 全 性 差 。 主 要 原 因 有 3点 : 效 安 一 是 网 络信 息 量 大 。 工 作 人 员 需 访 问 大 量 网 页 , 载 大 量 文 档 下 逐 一 查 看 比 较 , 过 人 工 判 断是 否 存 在 涉 密 信 息 。 二 是 泄 密 通
WA NG i i, GE a — n , S i Z NG Qin L - n x NG Hu nt g UN Ka, HA a o
(co lf o ue d ot a ,N nig n esyo lfr  ̄i c n e d eh ooy S h o o C mp t a f r r n S w e aj i r t nom o S i c cn lg,Naj g 1 04 h a nU v i f n e a T n ni 04 ,C i ) i 2 n n
2 0 2 1, o.2 No8 计 算 机 工 程 与 设 计 C mp t E g er g n D s n 60 0 1 V 1 , . 3 o u r n i e n d ei e n i a g
基于 自然 语言处理的文本泄 密 自动检测技术
王 利 鑫 , 耿 焕 同 , 孙 凯 , 张 茜 ( 南京信 息 工程 大学 计 算机 与软件 学 院 ,江苏 南京 2o 4 ) 1o4
肃 酒 泉 人 ,硕 士 研 究 生 ,研 究 方 向 为人 工 智 能 。E ma :wl 2 @ 13cr — i l x 1 6. n o
_
王利鑫 ,耿焕 同,孙凯 ,等 :基 于 自然语 言处理 的文本泄 密 自动检测技术
et c o) xr t n,就 是 从 We ai b页 面 中所 包 含 的 无 结 构 化 或 者 半 结 构 化 的信 息 中识 别 用 户 所 感 兴 趣 的 信 息 数 据 , 将其 转化 为 结 构 并 和 语 义 更 加 清 晰 的 数据 格 式 。论 文 仍 采 用 原 先 提 出 的 一种 基 于 视 觉 分 块 的 We 信 息 抽 取 方 法 , b 自动抽 取 相 关 网 站 的 信 息 。 在 此 基 础 上 , 对 具 体 网 页 进 行深 层 抽 取 , 对 某 一 具 体 又 即 网页 的 文 本 内容 进 行 抽 取 。首 先 获 得 初 次 抽 取 的 网 页 的 网 址 集 合 , 后 分 析 某 具 体 网页 源 文 件 , 后 采 用 基 于 正 则 表 达 式 然 最 的方 法 自动 将 网 页 中 的文 本 内容 抽 取 出来 ,将 此 文 本 内容 用 作 泄 密 检 测 的数 据 来 源 。
与 此 同 时 ,信 息 泄 密 随 着 信 息化 程 度 的 提 高 而 日益 加剧 。近
年 来 , 级 党 政 机 关 门户 网 站 普及 的 同 时 , 法 披 露 国家 秘 密 各 非
信 息 事 件 呈上 升趋 势 , 泄 密 事件 中所 占 比例 也 迅 速 攀 升 , 在 信 息 公 开 的 同 时 导致 了信 息 的泄 密 … 在 各 种 信 息 安 全 威 胁 所 造 。 成 的 损 失 中 , 业 和 政 府 机 构 因 重 要 信 息 被 泄 密 所 造 成 的损 企 失 排 第 一 位 。所 以 , 息泄 密 检 测 己成 为 一项 十 分 艰 巨而 重 信
ma u l p r t n wh c s ie e t e a d e sl e d t e o d r i u g n e Ai d a h b v u si n , a a t — e e to n a e a o , o i ih i n f ci n a i la o s c n a y d v l e c . v y me tt e a o e q e to s u o d t ci n