关联规则挖掘在税务系统中的应用研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,
【 关键词 】 关联规则 ; 数据挖掘 ; 务 系 税 统
TheAppiai n a d S a c fAso ito Ru e i n i t e Ta t a a e e y tm l to n e r h o s cain lsM u gn h xai M n g m ntS se c l on
.
b sn s a , i ulig d c t n e p n se u ain o u d o d a dd rcl eemi e n a c rig wt h c rep n igr lst a ee u ie stx ct b i n ,e u ai x e d d c to ff n a d n ie tyd tr n i c odn ih te or so dn ue tt s y d o f h h r l s a e wh t e o l swi h usn s u e u e r e h rc mp i t t e b i e sr l s e h
科技信J I L
OI 论坛o T
20 年 09
第 3 期 l
关联规则挖掘在税务系统中的应用研究
苏立 明 马宝辉 周连 貉 ( 长春 工业 大学计 算机 科学 与工程 学院 0 7研 0 3班 吉 林
长 春 1 0 1 ) 3 0 2
【 摘 要】 通过对关联规则经典挖掘算法 Apir 算法的分析 ; r i o 并在 A r r算 法基础上 , 用一种基 于布 尔矩 阵的行 向量寻找频繁项集的 pii o 采 关 联 规 则挖 掘 算 法 , 该 算 法 应 用 于 税务 系统 中 , 析 欠 税 纳 税人 的 欠税 行 为 等 情 况 并 判 断其 是 否 符 合 业 务 规 则 。 将 分
A 算 法 不 适合 于海 量 数 据 挖 掘 , 算 法 可 能 产生 大 量 的候 选 该 随着 税 务 信 息 化 建设 的 进行 。 据 库 中积 累大 量 的涉 税 违 法 违 纪 数 这 集, 需要 重复扫描数据库 , 影响算法的性 能目 。基于 Ap oi i r r算法的诸多 数据 , 种 违 法 违 纪 手 段 之 间存 在 着 隐藏 的规 则 。找 出税 收 业 务 之 间 不 足 , 文 提 出 一 种 高 效 的关 联 规 则 挖 掘 算 法 , 的 效 率 优 于 A r f 的关 联 性 可 以帮 助 税 务 机 关 在税 收征 收 工 作 中 有 目的 的去 进 行 监 管 。 本 它 pi o i 算法。由于 A r l算法在挖掘短频繁项 目集有其特有 的优势 , pii o 故研 究 31 . 数据选择 在吉林省地税数据 中应用该算法 ,由于税收征管 怎样 摧 高 A 算 法 的效 率 是 有 意 义 的 工作 。 中税 收 业 务 规 则 复 杂 , 掘前 必 须 要 合 理 的 选 择 待 挖 掘 数 据 。 因 为 挖 挖 掘前 合 理 地 选 择 挖 掘 数据 对 整 个 挖 掘 过 程 将 会 产 生 积 极 的 影 响 , 会 将 2改 进 的 A r r算 法 . pi i o 实 08年 的欠 税 数 据 . 录 记 21A oi 法 每 个 频 繁 项集 中包 含 的项 目完 全 出 现 在 事务 数 据 提高 挖 掘 效 率 。 验 数 据 来 吉林 省地 税 系统 20 . 叫 r算 3 24条。 欠税纳税人 的纳税基本信息进行关联规则挖掘。 对 库 D 中 的某 些 元 组 中。 设 事 务 数 据 库 D 对 应 的布 尔 矩 阵 为 R, R 总数为 6 2 2 假 记 = 32数 据 抽 取 在 1 - 3常征 管 中 . 税 一 直 是 税 收 工 作 的 一 大 难 题 。 欠 (【毗, 俚 T, o , …, 其中 T为转置 , 为 R在实数域上 的 m维行 向量 , 2 , - 影 不利 于税 务部门依法治 2… ,. I (, … ,】 D 中 m 个 不 同 项 目组 成 的 集 合 , 果 已 知 I 它干扰正常的税收秩序 。 响税法 的严肃性 , , n记 =I I 为 1 帕 如 如 控 是 的某 个 子 集 T I D 的 k 频 繁 项 集 , a 为 按 式 () 映射 的 m 税 和 提 高 征 管 质 量 。 何 有效 地 防范 、 制 和 压 缩 欠税 。 一 项 艰 巨 的 口 为 一 令 1所 工作 。本文根据税 收法规 的各项规定以及具体的业务执行情况 。 将欠 维 行 向量 , 有 : 则 税 纳 税 人 各 个 不 同 的 主体 业 务 信 息 进 行 关 联 规 则 分 析 . 中纳 税 人 的 其 < ,i ̄<tt= , 1 …, () alt < oc ki , c> ,> = 2, n 3 所 注 征 隶 这 表 明 。事 务 数 据 库 D 中 的 频 繁 项 集 所 对 应 的 m维 行 向量 与 布 特征 信 息 包 括 纳 税 人 名称 , 属 行 业 , 册 类 型 , 收 方 式 , 属 代 码 , 业 税 纳 尔矩 阵 R 中 的每 个 行 向量 作 内 积 , 内积 和均 不 会 超 过 频 繁 项集 所 含 稽 查 税 务 机 关 代 码 , 务 种类 , 款 属 性 , 税 人 的 欠 税 类 型 。为 便 于 其
随着税务信 息化建设的不断完善 , 产生海量 的数据 , 如何从 沉睡
4若 成 立 , a 即 为 频 繁 项 集 对 应 的 可 能 行 向量 。 时 标 记 出 R ) 则 ; 同
的 数 据 中 获取 有 价 值 的信 息 , 已成 为 亟 待解 决 的 问题 目 通 过 对 税 收 数 中 其他 行所 含 非零 个 数 比< ; > 的行 , 后 继 续 搜 索 下 面 没 有 标 记 。 Q ;小 然 据分析挖 掘 ,在现有的征管业务等数据 库中发现潜在 有价值 的信息 , 的 行 , 对 i 相 应 的 修 改 ; 不 成 立 , 标 记 此 行 . 后 继 续 下 面 没 并 作 若 则 然
更好地改进税务工作 , 出更可信的决策。 做
1经 典 的 A r r算 法 . pi i o
有标 记 的行 进 行 搜 索 , 样 对 i 相应 的修 改 ; 同 作 5若 i ) ≤n, 转 3。 否则 转 6; 则 ) 1
6删除 R中所有带标记 的行 。最后 , ) 将剩下 的行 向量按它们所含 A r 算法 pi 是一种最有影 响的挖掘布尔关联规则频繁项集的算 法 , 核 心是 使 用 候 选 项 集 找 频 繁 项集 。A r r算 法 使用 一 种称 作 逐 非 零元 素顺 序 给 出相 应 的 频 繁项 集 。 其 pi o i 层 搜 索 的迭 代 方 法 k 项 集 , 于 搜 索 (+)项 集 。 一 用 11 【 一 3A r r改 进 算 法在 税务 系统 中的 应 用 .pi i o
并 给 出 用 户 期 望 的最 小 支 持 度 ri u , 行 循 环 变 量 i1 a nsp 最 =:
2先 对 布 尔 矩 阵 R 的各 个 列 向量 , 白内 积 。删 除 R 中 自内积 的 ) 求 能 的分 支— — 数 据 挖掘 它是 从 大 量 的 , 知 的 数据 中挖 掘 出潜 在 的 、 和 小 于 最 小 支 持度 misp的 列( , 形 成 的新 矩 阵仍 记 为 R; 未 nu 项)所 有 价 值 的 信 息 , 策 者 的决 策 提 供 依 据 【 而 关 联规 则 是 数 据 挖 掘 中 为决 l 1 。 3 )按 上 述 判 断 规 则 的 描 述 计 算 p,并 判 断 B+ mnu .1 isp是 否 成 的一 个 重 要 的算 法 。 立。
,
.
【 ywod ] scai ue D t nn ;aa o nae n ytm Ke rsAsoi o R l; aaMiig Txt nma gmet s tn i S e
O 引 言 .
随 着 数 据 库 的 不 断发 展 以及 各 相 关 学 科 的 相 互 渗 透 , 生 人 工 智 产
Bo la t xt n u e ue ti ms t sprs ne nti a e h i p le o t x to n ge n y tm , ay e q oa tx ly r o t f oe n mar of do tf q n t i i r e esi ee tdi h sp p r s a p id t a a i n ma a me ts se n a l z u t a p a e fDu y o
【 src] yaayigtecas grh o sca o ue ii手 Abta tB n l n h l i a oi m fa oit nrl mnn 一 A r ;ae p nA r r a o tm ,oueter etr o z s cl t s i s po vcosf h w
【 关键词 】 关联规则 ; 数据挖掘 ; 务 系 税 统
TheAppiai n a d S a c fAso ito Ru e i n i t e Ta t a a e e y tm l to n e r h o s cain lsM u gn h xai M n g m ntS se c l on
.
b sn s a , i ulig d c t n e p n se u ain o u d o d a dd rcl eemi e n a c rig wt h c rep n igr lst a ee u ie stx ct b i n ,e u ai x e d d c to ff n a d n ie tyd tr n i c odn ih te or so dn ue tt s y d o f h h r l s a e wh t e o l swi h usn s u e u e r e h rc mp i t t e b i e sr l s e h
科技信J I L
OI 论坛o T
20 年 09
第 3 期 l
关联规则挖掘在税务系统中的应用研究
苏立 明 马宝辉 周连 貉 ( 长春 工业 大学计 算机 科学 与工程 学院 0 7研 0 3班 吉 林
长 春 1 0 1 ) 3 0 2
【 摘 要】 通过对关联规则经典挖掘算法 Apir 算法的分析 ; r i o 并在 A r r算 法基础上 , 用一种基 于布 尔矩 阵的行 向量寻找频繁项集的 pii o 采 关 联 规 则挖 掘 算 法 , 该 算 法 应 用 于 税务 系统 中 , 析 欠 税 纳 税人 的 欠税 行 为 等 情 况 并 判 断其 是 否 符 合 业 务 规 则 。 将 分
A 算 法 不 适合 于海 量 数 据 挖 掘 , 算 法 可 能 产生 大 量 的候 选 该 随着 税 务 信 息 化 建设 的 进行 。 据 库 中积 累大 量 的涉 税 违 法 违 纪 数 这 集, 需要 重复扫描数据库 , 影响算法的性 能目 。基于 Ap oi i r r算法的诸多 数据 , 种 违 法 违 纪 手 段 之 间存 在 着 隐藏 的规 则 。找 出税 收 业 务 之 间 不 足 , 文 提 出 一 种 高 效 的关 联 规 则 挖 掘 算 法 , 的 效 率 优 于 A r f 的关 联 性 可 以帮 助 税 务 机 关 在税 收征 收 工 作 中 有 目的 的去 进 行 监 管 。 本 它 pi o i 算法。由于 A r l算法在挖掘短频繁项 目集有其特有 的优势 , pii o 故研 究 31 . 数据选择 在吉林省地税数据 中应用该算法 ,由于税收征管 怎样 摧 高 A 算 法 的效 率 是 有 意 义 的 工作 。 中税 收 业 务 规 则 复 杂 , 掘前 必 须 要 合 理 的 选 择 待 挖 掘 数 据 。 因 为 挖 挖 掘前 合 理 地 选 择 挖 掘 数据 对 整 个 挖 掘 过 程 将 会 产 生 积 极 的 影 响 , 会 将 2改 进 的 A r r算 法 . pi i o 实 08年 的欠 税 数 据 . 录 记 21A oi 法 每 个 频 繁 项集 中包 含 的项 目完 全 出 现 在 事务 数 据 提高 挖 掘 效 率 。 验 数 据 来 吉林 省地 税 系统 20 . 叫 r算 3 24条。 欠税纳税人 的纳税基本信息进行关联规则挖掘。 对 库 D 中 的某 些 元 组 中。 设 事 务 数 据 库 D 对 应 的布 尔 矩 阵 为 R, R 总数为 6 2 2 假 记 = 32数 据 抽 取 在 1 - 3常征 管 中 . 税 一 直 是 税 收 工 作 的 一 大 难 题 。 欠 (【毗, 俚 T, o , …, 其中 T为转置 , 为 R在实数域上 的 m维行 向量 , 2 , - 影 不利 于税 务部门依法治 2… ,. I (, … ,】 D 中 m 个 不 同 项 目组 成 的 集 合 , 果 已 知 I 它干扰正常的税收秩序 。 响税法 的严肃性 , , n记 =I I 为 1 帕 如 如 控 是 的某 个 子 集 T I D 的 k 频 繁 项 集 , a 为 按 式 () 映射 的 m 税 和 提 高 征 管 质 量 。 何 有效 地 防范 、 制 和 压 缩 欠税 。 一 项 艰 巨 的 口 为 一 令 1所 工作 。本文根据税 收法规 的各项规定以及具体的业务执行情况 。 将欠 维 行 向量 , 有 : 则 税 纳 税 人 各 个 不 同 的 主体 业 务 信 息 进 行 关 联 规 则 分 析 . 中纳 税 人 的 其 < ,i ̄<tt= , 1 …, () alt < oc ki , c> ,> = 2, n 3 所 注 征 隶 这 表 明 。事 务 数 据 库 D 中 的 频 繁 项 集 所 对 应 的 m维 行 向量 与 布 特征 信 息 包 括 纳 税 人 名称 , 属 行 业 , 册 类 型 , 收 方 式 , 属 代 码 , 业 税 纳 尔矩 阵 R 中 的每 个 行 向量 作 内 积 , 内积 和均 不 会 超 过 频 繁 项集 所 含 稽 查 税 务 机 关 代 码 , 务 种类 , 款 属 性 , 税 人 的 欠 税 类 型 。为 便 于 其
随着税务信 息化建设的不断完善 , 产生海量 的数据 , 如何从 沉睡
4若 成 立 , a 即 为 频 繁 项 集 对 应 的 可 能 行 向量 。 时 标 记 出 R ) 则 ; 同
的 数 据 中 获取 有 价 值 的信 息 , 已成 为 亟 待解 决 的 问题 目 通 过 对 税 收 数 中 其他 行所 含 非零 个 数 比< ; > 的行 , 后 继 续 搜 索 下 面 没 有 标 记 。 Q ;小 然 据分析挖 掘 ,在现有的征管业务等数据 库中发现潜在 有价值 的信息 , 的 行 , 对 i 相 应 的 修 改 ; 不 成 立 , 标 记 此 行 . 后 继 续 下 面 没 并 作 若 则 然
更好地改进税务工作 , 出更可信的决策。 做
1经 典 的 A r r算 法 . pi i o
有标 记 的行 进 行 搜 索 , 样 对 i 相应 的修 改 ; 同 作 5若 i ) ≤n, 转 3。 否则 转 6; 则 ) 1
6删除 R中所有带标记 的行 。最后 , ) 将剩下 的行 向量按它们所含 A r 算法 pi 是一种最有影 响的挖掘布尔关联规则频繁项集的算 法 , 核 心是 使 用 候 选 项 集 找 频 繁 项集 。A r r算 法 使用 一 种称 作 逐 非 零元 素顺 序 给 出相 应 的 频 繁项 集 。 其 pi o i 层 搜 索 的迭 代 方 法 k 项 集 , 于 搜 索 (+)项 集 。 一 用 11 【 一 3A r r改 进 算 法在 税务 系统 中的 应 用 .pi i o
并 给 出 用 户 期 望 的最 小 支 持 度 ri u , 行 循 环 变 量 i1 a nsp 最 =:
2先 对 布 尔 矩 阵 R 的各 个 列 向量 , 白内 积 。删 除 R 中 自内积 的 ) 求 能 的分 支— — 数 据 挖掘 它是 从 大 量 的 , 知 的 数据 中挖 掘 出潜 在 的 、 和 小 于 最 小 支 持度 misp的 列( , 形 成 的新 矩 阵仍 记 为 R; 未 nu 项)所 有 价 值 的 信 息 , 策 者 的决 策 提 供 依 据 【 而 关 联规 则 是 数 据 挖 掘 中 为决 l 1 。 3 )按 上 述 判 断 规 则 的 描 述 计 算 p,并 判 断 B+ mnu .1 isp是 否 成 的一 个 重 要 的算 法 。 立。
,
.
【 ywod ] scai ue D t nn ;aa o nae n ytm Ke rsAsoi o R l; aaMiig Txt nma gmet s tn i S e
O 引 言 .
随 着 数 据 库 的 不 断发 展 以及 各 相 关 学 科 的 相 互 渗 透 , 生 人 工 智 产
Bo la t xt n u e ue ti ms t sprs ne nti a e h i p le o t x to n ge n y tm , ay e q oa tx ly r o t f oe n mar of do tf q n t i i r e esi ee tdi h sp p r s a p id t a a i n ma a me ts se n a l z u t a p a e fDu y o
【 src] yaayigtecas grh o sca o ue ii手 Abta tB n l n h l i a oi m fa oit nrl mnn 一 A r ;ae p nA r r a o tm ,oueter etr o z s cl t s i s po vcosf h w