隐私保护数据挖掘系统的设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

隐私保护数据挖掘系统的设计与实现摘要:随着网络安全问题受到越来越多的关注,隐私保护数据挖掘问题已经成为数据挖掘领域中的研究热点。该文设计与实现了一个隐私保护数据挖掘系统,系统的算法可以帮助用户完成一些简单的隐私保护数据挖掘工作。在实际系统应用中,用户可以根据实际需要加入新的算法来完成隐私保护数据挖掘工作。

关键词:隐私保护;数据挖掘;数据变换Privacy Data Mining System Design and Implementation

ZHONG Yi, CHEN Zhi-bin

(Guangzhou Municipal Education Information Center, Guangzhou 510030, China) Abstract: With the network security issues are more and more attention, privacy preserving data mining data mining has become a hot area of research. In this paper the design and implementation of a privacy preserving data mining system, the system's algorithms can help users to complete simple privacy preserving data mining work. In actual system applications, the actual needs of the user can add new algorithms to complete the work of privacy preserving data mining.

Key words: privacy protection; data mining; data transformation

在信息时代,各种信息狂轰滥炸,人们在面临更多信息的同时,在浩瀚无垠的信息海洋面前,面临艰难的选择。互联网中快速增长的信息与数据背后隐藏着众多人们所不知的知识,因此,人们都希望通过对这些数据进行深入的分析,找出这些信息内部存在的关系和规则,将数据变为对自己有用的信息,成为真正的财富。数据挖掘技术的出现使得这些变成可能。数据挖掘技术是对大量的数据进行处理,从中提取和挖掘有趣知识的有效手段。数据挖掘可以使用户准确、及时地得到所需要的信息。但凡事都有两面性,数据挖掘能够产生财富的同时,信息安全与个人隐私问题成为一个严峻的问题。

1 系统需求分析

隐私保护数据挖掘系统是一个应用于集中式数据的隐私保护数据挖掘的工具软件。系统整体包括两个独立运行的子系统:隐私保护与数据挖掘子系统。系统主要分两步完成隐私保护数据挖掘工作,如图1所示。

关系数据库中的数据表是系统的处理对象。其中,隐私保护子系统对需要保护隐私的数据表进行隐私保护,得到隐私保护输出表,并保存到数据库。输出表包含多个配套的辅助信息表和一个经隐私保护后得到的改造后的新数据表。数据挖掘子系统根据辅助信息表对新数据表进行数据挖掘,得到数据挖掘结果。

1.1 隐私保护子系统需求分析

隐私保护子系统的需求分析如下:

1)执行算法

系统执行用户预先设定好的隐私保护算法,并将隐私保护输出表保存到数据库中。

2)指定需要保护隐私的数据表(以下简称原表)输入数据库

用户根据系统界面提示,指定原表输入数据库并建立连接。

3)选择原表

系统中显示原数据库中的数据表,用户从数据表中选出原表。如果找不到原表,用户可以返回,重新指定输入数据库。

4)设定算法

用户为数据库中的每个原表中的字段选择隐私保护算法的算法,未选择算法的字段将不会受到保护。用户可以为保护算法指定算法参数。如果没有指定,保护算法使用默认参数。

5)设定参数

系统显示算法参数的说明及当前值,用户对参数值进行修改。如果用户给定的参数值不合法,系统给出错误原因,并要求用户重新设定参数。

6)指定输出数据库

用户根据界面提示指定输出数据库并建立连接。

1.2 数据挖掘子系统需求分析

数据挖掘子系统的功能需求如下:

1)执行算法

系统执行用户设定好的数据挖掘算法,并将挖掘结果保存在结果文件中。

2)指定数据库

用户根据界面提示指定数据库并建立连接。

3)选择数据表

系统列表显示数据库中的数据表,用户从数据库中选出要挖掘的数据表。如果没有,用户可以返回并重新选择数据源。

4)设定算法

系统列表显示系统中存在的数据挖掘算法和原表中的全部字段,用户选择相应的算法,并选出应用该算法的字段。如果选择的字段不适用于所选择的算法,系统出现错误提示,并要求用户重新选择字段。

5)给定参数

系统显示算法参数的当前值及说明。如有必要,用户对参数值进行修改。如果用户输入的参数值不合法,系统提示错误及原因,并要求用户重新输入参数。

6)选择结果文件

用户从系统文件目录中新建或选择保存结果的文件。

2 隐私保护数据挖掘系统详细设计

2.1 隐私保护子系统

1)数据访问包

数据访问包是对数据库的访问方法。本文设计的系统使用开放式数据库互联(Open Database Connectivity)技术实现对数据库的访问。开放式数据库互联的工作依赖于数据库制造商提供的驱动程序,在开放式数据库互联的DLL下安装不同数据库的驱动程序,开发人员可以访问不同数据库的资源。

本系统使用MFC语言实现,开发工具为VC6.0。MFC引入了ODBC接口的封装类,这些类封装了很多的ODBC接口,通过这些类提供的接口,开发人员不用使用ODBC接口,就可以对数据库的进行大部分操作,这大大简化了编程过程,提高效率。

2)算法接口

所有的隐私保护算法组件都通过统一的算法接口与用户界面进行交互。算法组件的保存格式为dll文件,其导出函数必须符合下述格式:

extern”C”CAlg*PASCALEXPORT CreateAlg(void)

CAlg为算法基类,具体算法必须声明为算法基类的派生类并给出所有接口函数的实现。导出函数用来生成一个具体算法的对象,并返回该对象的指针。

算法基类包括的接口函数有:

相关文档
最新文档