数据挖掘中的个人隐私和社会影响

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词: 数据挖掘; 数据算法; 隐私
中图分类号: TP311文献标识码: A文章编号: 1009- 3044(2007)13- 30122- 02
P e rs on a l P riva c y a n d S o cia l In flu e n ce in Da t a Dig gin g
S HI Z hi- ming
(Haining College, Z hejiang R adio and T V University, Haining 314400,C hina)
Ab s tra ct:T he data digging in areas like medical science, personal files management and etc. is totally different from that in other areas. Its major characteristic is that it concerns about the subject of person and personal privacy, therefore it has broad social influence. T hrough the re- search into the limitation of ethics, laws and society, the management and the concerning algorithm of subject records and the responsibility of the data digger, the article put forward the questions about personal privacy and social influence in private data digging and its solution.
Ke y wo rd s :data digging; data algorithm; privacy
1 引言
在医学、档案管理领域中的数据挖掘截然不同于其它领域的数据挖掘, 它的一个最大特征就量涉及到人这个主体以及这个主体的个人隐私问题, 因此该领域的数据挖掘工作有着广泛的社会影响, 越来越受到广泛的重视。

本文将此类数据称为私有数据, 文章从伦理、法律和社会的限制、主体记录的处理及相关算法、数据挖掘者的责任等方面来阐述个人数据挖掘中的个人隐私和社会影响问题。

2 伦理、法律和社会问题[1]
因为私有数据是关系到人这个主体, 所以在防止对私有数据的滥用和误用方面, 有着强烈的的伦理和法律传统惯例。

这里, 我们从伦理、法律和社会等方面概述私有数据挖掘过程中存在的主要问题:
2.1 数据的所有权问题
私有数据挖掘中的数据所有权问题是一个长期以来存在着争论的问题。

从法律理论上来说, 所有权是由有资格出售某件特别财产的人决定的, 然而对于与人本身有关的数据, 这种提法显然是很不适当的, 因此私有数据的所有权是相当混乱的。

而事实上, 可供挖掘的私有数据是异常庞大且及有潜在价值的。

以医学为例, 在欧美每年要产生几十亿兆的数据, 但是, 这些数据却都埋进了遍及各个大大小小的医疗保健部门的一些异构的数据库中, 它们没有任何通用的格式或组织原则, 又由于人们对这些数据再利用的反对、相关诉讼事件的大肆炒作以及政府的介入调查, 使得数据挖掘工作者望而生畏。

那么, 这些数据到底是归病人自己所有、归医院所有、还是归保险的提供者所有? 如果不归医院或保险的提供都所有, 那么又由谁来支付他们数据的收集和存贮费用那些管理和挖掘这些数据的管理人员又如何得到补偿?
2.2 隐私和安全问题
在私有数据挖掘上的另一个问题是隐私安全问题。

例如: 在美国联邦法规中已经规定了病人标识符必须是隐藏的并且不可逆转的指导原则, 因为病人信息一旦公布出去, 不仅违反病人信息保秘密性的规定, 带来随后法律诉讼的可能, 而且也破坏了医生和病人的关系, 因为病人对医生是极其坦诚的, 他们期望医生把他们的私有信息永远不公之于众。

其它一些与隐私相关的问题也必须这样, 例如证券公司的客户信息, 一旦泄露, 客户不但可能遭到一些垃圾信息的骚扰, 而且可能对客户资金安全构成威胁。

另外, 个人数据安全问题也存在于授权人对这个数据存取访问及通过Internet 等网络传输数据过程中,在这些过程中数据很容易被人窃取, 因此必须对个体标识进行认真处理。

2.3 收益平衡问题
私有数据挖掘需要考虑研究的预期收益和对主体打扰或伤害的平衡问题。

对私有数据的任何使用, 即使是标识经过处理的数据, 也必须格外小心。

从法律和伦理上来说, 一个人对数据进行分析不能为了某些轻佻或邪恶的目的。

Internet 是分发数据最便宜和最方便的地方, 多数对数据的访问是有合法的原因。

例如: 稀有疾病兴趣组( rare- disease interest g roups) 、医学监察组( medical watchdog g roups) , 或非传统科学展望调查人员(investig ators with
他们都有非常正当的原因unconventional scientific perspectives) ,
要做医学数据挖掘, 但是他们一般不能登录那些金融和行政管理部门的网站来挖掘私有数据库。

如何解决公众的正当访问和某些带有不正当目的的访问之间的冲突这个问题至今没有答案。

2.4 管理问题
以医学数据为例, 在美国有大量保护个人隐私的政策和规程。

如: 必须有一些政策来评估和验证研究部门的安全措施; 在数据的持有组织和使用数据的外方之间必须有法律合约, 约束外方保护数据; 必须有意外事件处理规划来响应突发事件, 包括数据备份和灾难恢复规划; 必须有一个信息存取控制系统, 包括对数据访问权限的授权、建立和修改; 为了识别可能的安全侵犯, 必须有内部数据访问记录的审查机制; 为了维护授权记录, 数据持有组织必须确保对进行技术系统维护的全体人员实施监督, 并保证操作和维护人员只有合适的访问权限; 必须有终止程序, 当用户离开时执行终止操作; 对所有人员都必须进行安全培训, 包括认识培训和周期安全提醒, 还包括有关病毒保护, 监管登录失败和口令管理、报告异常等的用户教育。

所有这些和其它许多规则, 对于数据挖掘者和学术研究人员来说, 是一个非常令人难受的、强加于身的限制, 因此, 研究者必须小心权衡对信息的需求。

3 私有数据挖掘的数据
最典型的私有数据挖掘医学数据, 在医学数据挖掘中, 一般有下列四种形式的病人数据[1]:
Anonymous 数据:即信息在收集时即将病人的标识符删除而得到的数据。

例如: 当病人某个有病变而被切除的组织被拿去作
收稿日期: 2007- 04- 23
作者简介: 石志明( 1967- ) , 男, 浙江省海宁市人, 计算机专业讲师。

为实验标本时, 这样的记录必须是Anonymous 记录。

Anonymized 数据: 是指通过匿名化而得到的数据[2], 匿名化通常涉及到从病人的记录中解除病人的标识符( 姓名、地址、社会保障号码、医院记录号码等) 或者将真实的标识符用假的进行替代, 而且该匿名操作必须是不可逆的, 即使研究者本人基于对病人记录的审查也无法确定某条记录对应哪个病人, 研究者不允许建立一个表格来映射假标识符与真标识符之间的关系。

过去研究一般用的数据即是这种数据。

Deidentified 数据: 是指通过去标识化而得到的数据[2], 去标识化与匿名化在点轻微的不同, 在去标识化中, 一条记录可以实际上包含一个加密的病人标识符, 被授了权的人用它重新将病人与他的研究记录联系起来, 然而, 一条去过标识的记录必须不包含让未被授权的人利用数据元素的线索来推断病人标识符的任何信息。

例如: 假如一条记录包含邮政编码、性别、出生日期、民族和诊断信息, 那么一个心存恶意的人可能利用公共记录( 如出生记录、电话号簿、其它带在非医学的统计数据中的地址列表) 来辨识病人[3,4]。

Identified 数据: 在病人同意的条件下收集起来的数据供学会或协会作重要的评审之用。

4 相关算法
数据挖掘者可以开发很强的匿名化和去标识化的算法, 这些算法可以是二者之一, 也可以是二者的联合。

4.1 匿名化算法
4.1.1 解除标识符[2]
一个匿名化算法删除一个记录中的所有的病人标识符。

大多数医院信息系统都定义良好的病人标识符集( 姓名、社会保障号码、医院记录号码等) , 这些通常从保留的数据字典域中存取, 一旦这些字典域被存取, 那么所有其它的域( 包括自由文本域) 都能被粘贴和删除任何匹配的标识符, 因此, 假如病人的名字( 如发现在名字域中) 是“Thomas Patterson”, 那么在自由文本域中( 如接纳注解、历史注解和解雇注解等) 的任何有关Thomas Patterson 的记述都应该被删。

此外, 一个鲁棒的算法搜索并毁掉任何对Tom Patterson 或仅仅是Tom 或是跟在任何名字后面的单词Mr.、Miss、Mrs、Ms 的引用。

有一个在医院系统中注册的所有病人的名字列表并删去任何自由文本匹配( 即使是不相关的名字) 是非常有用的, 对于删除所有提及的医生的名字或Dr.某某也可能是有用的。

类似的处理也适用于社会保障号码、医院记录号码, 包括它们所有不同的表示。

4.1.2 单向hash 算法( one- way hashing Algorithms)
单向hash 是一种将一个字符串转换成另一个字符串的算法,并且这种转换是不可逆的, 如MD5 和标准Hash 算法(S HA)[7,8],它们具有良好的性能, 它们将两个不同的名字映射到同一个值的可能性( 冲突) 非常非常小, 几乎可能忽略。

在理论上, 单向hash 能被用来匿名化病人的记录而仍然允许研究者继续追加记录, 如果一个病人又回到医院就医而产生了另一条记录, 那么当hash 的时候, 这条记录的标识符仍然和原数据集中的hash 值保持一致。

因为在实验数据集中没有标识符能联回到病人, 因此它满足匿名化的需要。

利用单向hash 来匿名化病人记录, 在法国已得到应用和发展。

一个用S HA 单向hash 来编码姓名的协议已以被标准化了下来[5,6]。

在法国, 来自不同医院名字被hash 过的文件被合并, 用在流行病学的研究中。

还有许多其它的加密协议可于对数据标识符的加密[9,10], 如double- brokered 加密,one- time- pad 加密(lookup table), public–private 加密等。

4.1.3 去标识化算法
去标识化的要旨之一是包含非唯一记录( 带有唯一标识符编码的例外) 的数据集的创建。

假如每个记录至少有一个额外的记录与它一致, 那么, 从逻辑上来说, 不可能把任何一个个体的记录从其它包含有相同数据元素的记录中区分开来。

保证任何医学数据集仅仅包含模糊的记录是一切实可行的计算任务。

这可能涉及数据元素范围的修改(如仅开头几个数字的邮政编码或用州名来标记病人的地址)或者增加一些伪造的数据记录。

去标识化方法更大地取决于数据挖掘工作的目的。

5 数据挖掘者的责任
大多数数据挖掘工作使用的是经过授权和转换过的anonymized 数据和deidentified 数据。

研究者使用这样的数据集不需要得到主体的同意, 这些记录是被匿了名的和被去了标识的。

因此, 数据挖掘者的责任通常归结为以下几点:
(1) 向数据管理者证明挖掘者所采用的匿名化和去标识化的方法是可靠的, 并且满足某种规定所说明的要求。

(2) 向数据管理者证明数据在研究者之间的任何传输不会带来系统的安全问题, 并且满足法律的要求。

(3)了解和服从地方相关个人信息使用的法律。

6 结论
私有数据挖掘关系到人这个主体, 特别是关系到人普遍关心的个人隐私问题, 因此有着广泛的伦理、法律和社会问题。

对于由私有数据挖掘出的数据必须是经过很好的匿了名和去了标识的数据。

私有数据挖掘者一般是工作在一个开放的环境中, 他们的数据一般是可以被同事查看和共享的, 因此有着严格的责任, 每一项私有数据挖掘工作都应该考虑到人这个主体。

参考文献:
[1]Krzysztof J. Cios, G. William Moore. Uniqueness of medical data mining [J]. Artificial Intelligence in Medicine 26 (2002) 1–24.
[2]Jules J. Berman. Confidentiality issues for medical data min- ers [J]. Artificial Intelligence in Medicine 26 (2002) 25–36.
[3]S weeney L. Guaranteeing anonymity when sharing medical data, the Datafly system [A]. Proc AMIA Annu Fall S ymp [C] 1997; 51–5.
[4]S weeney L. Computational disclosure control, a primer on data privacy pro tection [DB/OL].
http://ww /classes/6.805/articles/privacy/ sweeney- t hesis- draft.pdf.
[5]Bouzelat H, Quantin C, Dusserre L. Ex traction and anonymity protocol of medical file [A]. Proc AMIA Annu Fall S ymp [C] 1996; 323–27.
[6]Quantin C, Bouzelat H, Allaert FA, Benhamische AM, Faivre J, Dussere L. Automatic record hash coding and linkage for epidemi- ological follow- up data confidentiality [J]. Meth Inf Med 1998;37:271–7.
[7]Rivest R. Request for Comments: 1321, The MD5 Message - Dig est Alg orithm [S].
[8]World Wide Web Consortium. S HA- 1 Dig est [DB/OL]. http:// /TR/1998/R EC- Dsig- label/S HAI- 1_0.
[9]Berman JJ, Moore GW, Hutchins GM. Maintaining patient confidentiality in the public domain Internet auto psy database (IAD)
[A].Proc A MIA Annu Fall S ymp [C]1996:328- 32.
[10]S chneier, B. Applied cryptog raphy. Pro tocols, alg orithms, and source code in C [M]. 2nd ed. New Y ork: Wiley, 1996.。

相关文档
最新文档