差别隐私保护及其
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Professional, Artist, [18-65)
[18-65) → { [18-40),[40-65) }
关键步骤详析
• 候选选取 • 划分值选择 • 噪音数据添加
候选选取
• 选取候选哪个 v ∈ UCuti 进行细化 • 通过两个方法计算候选评分值
– 信息增益 – 最大匹配
候选选取-信息增益
目前的解决方法
• 匿名化算法
– k-匿名的隐私保护模型(k-anonymity privacy model)[36, 37] – ι-多样化(ι-diversity )[28] – (a,k)匿名((α,k)-anonymity)[41] – t-密闭(t-closeness)[26] – (c,k)-安全((c,k)-safety)[29]
熵的计算例: 熵的计算例: 有一布袋内放l00个球 其中80个球是红色的 个球, 个球是红色的, 有一布袋内放 个球,其中 个球是红色的, 20个球是白色的。随便摸出一个球,猜测是什么颜色, 个球是白色的。 个球是白色的 随便摸出一个球,猜测是什么颜色, 那么其概率空间为: 那么其概率空间为: X a a
• 对于一个数据集 D 和隐私参数 ε ,文中算法 的目标是生成一个匿名数据集 D′ ,使得(1) D′满足 ε - differential privacy,同时(2)尽可能 多的保留用于分类分析的信息。
算法描述
• 基于泛化技术的差别隐私匿名化算法 (Differentially-private anonymization algorithm based on Generalization ,DiffGen)
差别隐私保护
• 定义 3.1 ε-差别隐私(ε-differential privacy) . 一个随机算法是差别隐私的当对于所有的 数据集和来说,他们的对称的差别 (symmetric difference)最多包含一个记 录,对于所有的可能的匿名化数据集来说 有
ˆ ˆ Pr Ag ( D ) = D ≤ eε × Pr Ag ( D′) = D
例如,有两信源X 例如,有两信源X、Y,其概率空间分别
a2 X a1 P( x) = 0.99 0.01
a1 a2 Y P ( y ) = 0. 5 0. 5
计算其熵, H(X)=0.08( /符号 符号) 计算其熵,得:H(X)=0.08( bit /符号) H(Y)=1( H(Y)=1(bit / 符号) 符号) H(Y)>H(X),因此信源 比信源 的平均不确定性 > 比信源X的平均不确定性 ,因此信源Y比信源 要大。 要大。
信息熵
• 一个信源发出不同的消息所含有的信息量也不同 , 一个信源发出不同的消息所含有的信息量也不同, 故自信息I( 是随机变量,不能用它来作为整个信 故自信息I(ai)是随机变量,不能用它来作为整个信 源的信息测度 • 定义自信息的数学期望为平均自信息量Hr(X),称为 定义自信息的数学期望为平均自信息量 平均自信息量 , 信息熵: 信息熵: q 1 = −∑ p (ai ) log r p(ai ) H r ( X ) = E log r p(ai ) i =1
称事件a 称事件 i发生含有的信息量为 ai 的自信息量
1 I (ai ) = f [ P(ai )] = log r = − log r P(ai ) P(ai )
∑ P(a ) = 1
i =1 i
q
I(ai)有两种含义: 有两种含义 有两种含义: (1)当ai发生前,表示 i发生的不确定性 发生前,表示a
q 1 = −∑ p(ai ) log p (ai ) 当r=2时: H ( X ) = E log p(ai ) i =1
H r ( X ) = H ( X ) / log r
熵(entropy)
• 经典热力学中熵的概念,最先由克劳修斯提出。 熵 它的定义即“热温商”,作为热力学过程不可逆 程度的一种量度。熵是分子随机热运动状态的几 率大小的量度,也就是分子热运动的混乱程度或 无序度。 • 若所讨论的对象不限于分子热运动,也可借用熵 的概念描述并非分子热运动的其它任何物质运动 方式、任何事物、任何系统的混乱度或无序度。 就有另一种熵的概念,它是热力学和统计力学中 熵概念的推广,称广义熵 广义熵。 广义熵
pr
• Line 10 更新受影响的候选的 评分以为下次细化过程所用 • Line 12 把在拉布拉斯分布中 选取噪音数据添加到按上述细 化过程分类的组当中的统计计 数中
实例
细化过程
顶层 Any Job → { Professional, Artist }
划分
UCuti
Any Job, [18-65)
•其中,概率值是在算法的随机性前提下的。 •参数ε > 0是公开的而且是由数据拥有者指定的。ε 取值越小提供的隐私保护越强。
差别隐私保护
• 差别隐私保护的标准机制是通过向一个函数 的真实输出中添加随机的噪音的方法完成的。 • 噪音通过函数的敏感度来调整。函数的敏感 度是从两个只有一个记录不同的数据集中得 到的输出的最大差别。
差别隐私保护及其应用
• 来自两篇KDD会议文章 • KDD2011 Differentially Private Data Release for Data Mining • KDD2010 Data Mining with Differential Privacy
• 敏感信息保护 • 问题提出与描述
发生后,表示a (2)当ai发生后,表示 i所提供的信息量
[例] 8个串联的灯泡 1,x2,…,x8,损坏的可能性是 例 个串联的灯泡 个串联的灯泡x , 等概的,现假设其中有一个灯泡已损坏, 等概的,现假设其中有一个灯泡已损坏,问每进行一 次测量可获得多少信息量? 次测量可获得多少信息量?总共需要多少次测量才能 获知和确定哪个灯泡已损坏。 获知和确定哪个灯泡已损坏。
1 2 P ( X ) = 0 .8 0 .2
如被告知摸出的是红球,则获得的信息量是: 如被告知摸出的是红球,则获得的信息量是: I (a1) =-log p(a1) =-log0.8= 0.32 (比特) 比特) 如被告知摸出的是白球,所获得的信息量为: 如被告知摸出的是白球,所获得的信息量为: 比特) I (a2) = -log p(a2) = -log0.2 = 2.32 (比特) 平均摸取一次所能获得的信息量为 : H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号) (比特/符号)
I [ P (ຫໍສະໝຸດ Baidux 3 )] = log
2
1 = 1( bit ) P ( x3 )
第二次测量获得的信息量 第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 第三次测量获得的信息量 = I [P (x3)] =1(bit) 至少获得3bit信息量就可知道哪个灯泡已坏了 信息量就可知道哪个灯泡已坏了。 至少获得3bit信息量就可知道哪个灯泡已坏了。
敏感信息
• 私有性 • 敏感性 • 易暴露 • 例如:姓名、身份号、年龄等信息
敏感保护新问题
• 基于背景知识的隐私攻击 • 实例,87%的美国人身份可以通过5位压缩码(5digit zip code)、性别和出生日期组成的属性集 合唯一地被辨识。这个属性集合被称为准标识 (Quasi-IDentifier ,QID)。敌手可能通过一些 公开的来源获得这些属性集合信息,比如公众投 票表(a voter list)。通过简单地连接外部数据源 中的QID属性集合,一个人的私有信息可能会被 暴露。
算法描述
A • Line 1 起初, 在中的所有值 都泛化成类别树中最高层的值 • Line 2 Cut中包含了每一个属性 i 的值 • Line 7 每一次DiffGen算法的 迭代过程都要基于概率地选择 一个在 Cuti 中的候选 v ∈ UCuti 来进行下一次的细化过程 • Line 8 算法细化选择的候选v, 更新 UCuti
问题提出与描述
• 假设一个数据拥有者打算发布一个数据集 给公众用于数据分析
D ( A ,L , A , A )
Acls -所属这个类别属性的值
Α = { A1pr ,L , Adpr }
pr 1
pr d
cls
-包含了d个属性的集合
类别属性是用来分类的,预测器属性要么 是数值型的要么是类别型属性。
问题提出与描述
[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、 例 设甲地的天气预报为: 占 / 、 占 / 、 大雨(占 / 、小雨(占 / 。 大雨 占1/8)、小雨 占1/8)。又设乙地的天气预报 为:晴 (占7/8),小雨 占1/8)。 占 / ,小雨(占 / 。 1)试求两地天气预报各自提供的平均信息量。 )试求两地天气预报各自提供的平均信息量。 2)若甲地天气预报为两极端情况,一种是晴出现概 )若甲地天气预报为两极端情况, 率为1而其余为 而其余为0。另一种是晴、 小雨、 率为 而其余为 。另一种是晴、阴、小雨、大雨出现 的概率都相等为1/ 。 的概率都相等为 /4。 3)试求这两极端情况所提供的平均信息量。 )试求这两极端情况所提供的平均信息量。 4)又试求乙地出现这两极端情况所提供的平均信息 ) 量。
• 有趣的物理学名词信息论应用-熵(entropy)
• 信息熵是指 对信息具体的量化度量问题。信息论 之父 C. E. Shannon 第一次用数学语言阐明了概 率与信息冗余度的关系。
自信息
• 离散信源 的概率空间为: 离散信源X的概率空间为: 的概率空间为
a2 a3 aq ... ... X a1 P( x) = P (a ) P (a ) P(a ) ... ... P (a ) 1 2 3 q
∆f = max f ( D) − f ( D′) 1
D , D′
差别隐私保护-拉普拉斯机制
• Dwork等人在文献[9]中提出了拉普拉斯机制 • 作用是确定添加噪音数据的大小
ˆ f ( D ) = f ( D ) + Lap (1 / ε )
差别隐私保护-指数机制
• McSherry and Talwar在文献[32]中提出了指 数机制 • 作用是对效用函数计算的候选评分进行选择 • 越高的计分的输出与被选择输出指数倍地趋近 • 上述所说的定义与机制都已被证明,满足 ε-差别隐私
• 交互式与非交互式隐私保护
数据发布中的技术
• 泛化技术[36,37] • 基于泛化技术的匿名算法[2,13,23,24,36]已经被提出来
新颖的隐私保护模型
• 差别隐私(Differential Privacy)[7] • 差别隐私是一个新颖的隐私定义,可以提供强的隐私保护。 • 基于划分的隐私保护模型的输出数据需要保持k个记录是 难以分辨的,或者敏感信息值都在每一个等价组中被很好 地描述。 • 然而,差别隐私的保护可以保证敌手对于个体的知识一无 所知,无论个人的记录在不在数据当中出现。 • 简言之,从一个个体的角度来看,输出的处理就像是对一 个不包含个体个人记录的数据集进行计算一样。
8个灯泡等概率损坏,先验概率P (x1)=1/8 ,即 个灯泡等概率损坏,先验概率 个灯泡等概率损坏
I [ P ( x 1 )] = log
2
1 = 3 ( bit ) P ( x1 )
一次测量后, 个灯泡, 一次测量后,剩4个灯泡,等概损坏,P (x2)=1/4 个灯泡 等概损坏, 1 I [ P ( x 2 )] = log 2 = 2 ( bit ) P ( x2 ) 第一次测量获得的信息量 获得的信息量=I 第一次测量获得的信息量=I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量, 个灯泡, 经过二次测量,剩2个灯泡,等概率损坏,P (x3)=1/2 个灯泡 等概率损坏,
熵的含义
• 熵是从集合的统计特性来考虑的,从平均意义上来表征 熵是从集合的统计特性来考虑的, 从集合的统计特性来考虑的 信源的总体特征。 信源的总体特征。 • 在信源输出后,信息熵 在信源输出后,信息熵H(X)表示每个消息提供的平均信 表示每个消息提供的平均信 息量; 息量; • 在信源输出前,信息熵 在信源输出前,信息熵H(X)表示信源的平均不确定性; 表示信源的平均不确定性; 表示信源的平均不确定性 • 信息熵 信息熵H(X) 表征了变量 的随机性。 表征了变量X的随机性 的随机性。
[18-65) → { [18-40),[40-65) }
关键步骤详析
• 候选选取 • 划分值选择 • 噪音数据添加
候选选取
• 选取候选哪个 v ∈ UCuti 进行细化 • 通过两个方法计算候选评分值
– 信息增益 – 最大匹配
候选选取-信息增益
目前的解决方法
• 匿名化算法
– k-匿名的隐私保护模型(k-anonymity privacy model)[36, 37] – ι-多样化(ι-diversity )[28] – (a,k)匿名((α,k)-anonymity)[41] – t-密闭(t-closeness)[26] – (c,k)-安全((c,k)-safety)[29]
熵的计算例: 熵的计算例: 有一布袋内放l00个球 其中80个球是红色的 个球, 个球是红色的, 有一布袋内放 个球,其中 个球是红色的, 20个球是白色的。随便摸出一个球,猜测是什么颜色, 个球是白色的。 个球是白色的 随便摸出一个球,猜测是什么颜色, 那么其概率空间为: 那么其概率空间为: X a a
• 对于一个数据集 D 和隐私参数 ε ,文中算法 的目标是生成一个匿名数据集 D′ ,使得(1) D′满足 ε - differential privacy,同时(2)尽可能 多的保留用于分类分析的信息。
算法描述
• 基于泛化技术的差别隐私匿名化算法 (Differentially-private anonymization algorithm based on Generalization ,DiffGen)
差别隐私保护
• 定义 3.1 ε-差别隐私(ε-differential privacy) . 一个随机算法是差别隐私的当对于所有的 数据集和来说,他们的对称的差别 (symmetric difference)最多包含一个记 录,对于所有的可能的匿名化数据集来说 有
ˆ ˆ Pr Ag ( D ) = D ≤ eε × Pr Ag ( D′) = D
例如,有两信源X 例如,有两信源X、Y,其概率空间分别
a2 X a1 P( x) = 0.99 0.01
a1 a2 Y P ( y ) = 0. 5 0. 5
计算其熵, H(X)=0.08( /符号 符号) 计算其熵,得:H(X)=0.08( bit /符号) H(Y)=1( H(Y)=1(bit / 符号) 符号) H(Y)>H(X),因此信源 比信源 的平均不确定性 > 比信源X的平均不确定性 ,因此信源Y比信源 要大。 要大。
信息熵
• 一个信源发出不同的消息所含有的信息量也不同 , 一个信源发出不同的消息所含有的信息量也不同, 故自信息I( 是随机变量,不能用它来作为整个信 故自信息I(ai)是随机变量,不能用它来作为整个信 源的信息测度 • 定义自信息的数学期望为平均自信息量Hr(X),称为 定义自信息的数学期望为平均自信息量 平均自信息量 , 信息熵: 信息熵: q 1 = −∑ p (ai ) log r p(ai ) H r ( X ) = E log r p(ai ) i =1
称事件a 称事件 i发生含有的信息量为 ai 的自信息量
1 I (ai ) = f [ P(ai )] = log r = − log r P(ai ) P(ai )
∑ P(a ) = 1
i =1 i
q
I(ai)有两种含义: 有两种含义 有两种含义: (1)当ai发生前,表示 i发生的不确定性 发生前,表示a
q 1 = −∑ p(ai ) log p (ai ) 当r=2时: H ( X ) = E log p(ai ) i =1
H r ( X ) = H ( X ) / log r
熵(entropy)
• 经典热力学中熵的概念,最先由克劳修斯提出。 熵 它的定义即“热温商”,作为热力学过程不可逆 程度的一种量度。熵是分子随机热运动状态的几 率大小的量度,也就是分子热运动的混乱程度或 无序度。 • 若所讨论的对象不限于分子热运动,也可借用熵 的概念描述并非分子热运动的其它任何物质运动 方式、任何事物、任何系统的混乱度或无序度。 就有另一种熵的概念,它是热力学和统计力学中 熵概念的推广,称广义熵 广义熵。 广义熵
pr
• Line 10 更新受影响的候选的 评分以为下次细化过程所用 • Line 12 把在拉布拉斯分布中 选取噪音数据添加到按上述细 化过程分类的组当中的统计计 数中
实例
细化过程
顶层 Any Job → { Professional, Artist }
划分
UCuti
Any Job, [18-65)
•其中,概率值是在算法的随机性前提下的。 •参数ε > 0是公开的而且是由数据拥有者指定的。ε 取值越小提供的隐私保护越强。
差别隐私保护
• 差别隐私保护的标准机制是通过向一个函数 的真实输出中添加随机的噪音的方法完成的。 • 噪音通过函数的敏感度来调整。函数的敏感 度是从两个只有一个记录不同的数据集中得 到的输出的最大差别。
差别隐私保护及其应用
• 来自两篇KDD会议文章 • KDD2011 Differentially Private Data Release for Data Mining • KDD2010 Data Mining with Differential Privacy
• 敏感信息保护 • 问题提出与描述
发生后,表示a (2)当ai发生后,表示 i所提供的信息量
[例] 8个串联的灯泡 1,x2,…,x8,损坏的可能性是 例 个串联的灯泡 个串联的灯泡x , 等概的,现假设其中有一个灯泡已损坏, 等概的,现假设其中有一个灯泡已损坏,问每进行一 次测量可获得多少信息量? 次测量可获得多少信息量?总共需要多少次测量才能 获知和确定哪个灯泡已损坏。 获知和确定哪个灯泡已损坏。
1 2 P ( X ) = 0 .8 0 .2
如被告知摸出的是红球,则获得的信息量是: 如被告知摸出的是红球,则获得的信息量是: I (a1) =-log p(a1) =-log0.8= 0.32 (比特) 比特) 如被告知摸出的是白球,所获得的信息量为: 如被告知摸出的是白球,所获得的信息量为: 比特) I (a2) = -log p(a2) = -log0.2 = 2.32 (比特) 平均摸取一次所能获得的信息量为 : H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号) (比特/符号)
I [ P (ຫໍສະໝຸດ Baidux 3 )] = log
2
1 = 1( bit ) P ( x3 )
第二次测量获得的信息量 第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 第三次测量获得的信息量 = I [P (x3)] =1(bit) 至少获得3bit信息量就可知道哪个灯泡已坏了 信息量就可知道哪个灯泡已坏了。 至少获得3bit信息量就可知道哪个灯泡已坏了。
敏感信息
• 私有性 • 敏感性 • 易暴露 • 例如:姓名、身份号、年龄等信息
敏感保护新问题
• 基于背景知识的隐私攻击 • 实例,87%的美国人身份可以通过5位压缩码(5digit zip code)、性别和出生日期组成的属性集 合唯一地被辨识。这个属性集合被称为准标识 (Quasi-IDentifier ,QID)。敌手可能通过一些 公开的来源获得这些属性集合信息,比如公众投 票表(a voter list)。通过简单地连接外部数据源 中的QID属性集合,一个人的私有信息可能会被 暴露。
算法描述
A • Line 1 起初, 在中的所有值 都泛化成类别树中最高层的值 • Line 2 Cut中包含了每一个属性 i 的值 • Line 7 每一次DiffGen算法的 迭代过程都要基于概率地选择 一个在 Cuti 中的候选 v ∈ UCuti 来进行下一次的细化过程 • Line 8 算法细化选择的候选v, 更新 UCuti
问题提出与描述
• 假设一个数据拥有者打算发布一个数据集 给公众用于数据分析
D ( A ,L , A , A )
Acls -所属这个类别属性的值
Α = { A1pr ,L , Adpr }
pr 1
pr d
cls
-包含了d个属性的集合
类别属性是用来分类的,预测器属性要么 是数值型的要么是类别型属性。
问题提出与描述
[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、 例 设甲地的天气预报为: 占 / 、 占 / 、 大雨(占 / 、小雨(占 / 。 大雨 占1/8)、小雨 占1/8)。又设乙地的天气预报 为:晴 (占7/8),小雨 占1/8)。 占 / ,小雨(占 / 。 1)试求两地天气预报各自提供的平均信息量。 )试求两地天气预报各自提供的平均信息量。 2)若甲地天气预报为两极端情况,一种是晴出现概 )若甲地天气预报为两极端情况, 率为1而其余为 而其余为0。另一种是晴、 小雨、 率为 而其余为 。另一种是晴、阴、小雨、大雨出现 的概率都相等为1/ 。 的概率都相等为 /4。 3)试求这两极端情况所提供的平均信息量。 )试求这两极端情况所提供的平均信息量。 4)又试求乙地出现这两极端情况所提供的平均信息 ) 量。
• 有趣的物理学名词信息论应用-熵(entropy)
• 信息熵是指 对信息具体的量化度量问题。信息论 之父 C. E. Shannon 第一次用数学语言阐明了概 率与信息冗余度的关系。
自信息
• 离散信源 的概率空间为: 离散信源X的概率空间为: 的概率空间为
a2 a3 aq ... ... X a1 P( x) = P (a ) P (a ) P(a ) ... ... P (a ) 1 2 3 q
∆f = max f ( D) − f ( D′) 1
D , D′
差别隐私保护-拉普拉斯机制
• Dwork等人在文献[9]中提出了拉普拉斯机制 • 作用是确定添加噪音数据的大小
ˆ f ( D ) = f ( D ) + Lap (1 / ε )
差别隐私保护-指数机制
• McSherry and Talwar在文献[32]中提出了指 数机制 • 作用是对效用函数计算的候选评分进行选择 • 越高的计分的输出与被选择输出指数倍地趋近 • 上述所说的定义与机制都已被证明,满足 ε-差别隐私
• 交互式与非交互式隐私保护
数据发布中的技术
• 泛化技术[36,37] • 基于泛化技术的匿名算法[2,13,23,24,36]已经被提出来
新颖的隐私保护模型
• 差别隐私(Differential Privacy)[7] • 差别隐私是一个新颖的隐私定义,可以提供强的隐私保护。 • 基于划分的隐私保护模型的输出数据需要保持k个记录是 难以分辨的,或者敏感信息值都在每一个等价组中被很好 地描述。 • 然而,差别隐私的保护可以保证敌手对于个体的知识一无 所知,无论个人的记录在不在数据当中出现。 • 简言之,从一个个体的角度来看,输出的处理就像是对一 个不包含个体个人记录的数据集进行计算一样。
8个灯泡等概率损坏,先验概率P (x1)=1/8 ,即 个灯泡等概率损坏,先验概率 个灯泡等概率损坏
I [ P ( x 1 )] = log
2
1 = 3 ( bit ) P ( x1 )
一次测量后, 个灯泡, 一次测量后,剩4个灯泡,等概损坏,P (x2)=1/4 个灯泡 等概损坏, 1 I [ P ( x 2 )] = log 2 = 2 ( bit ) P ( x2 ) 第一次测量获得的信息量 获得的信息量=I 第一次测量获得的信息量=I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量, 个灯泡, 经过二次测量,剩2个灯泡,等概率损坏,P (x3)=1/2 个灯泡 等概率损坏,
熵的含义
• 熵是从集合的统计特性来考虑的,从平均意义上来表征 熵是从集合的统计特性来考虑的, 从集合的统计特性来考虑的 信源的总体特征。 信源的总体特征。 • 在信源输出后,信息熵 在信源输出后,信息熵H(X)表示每个消息提供的平均信 表示每个消息提供的平均信 息量; 息量; • 在信源输出前,信息熵 在信源输出前,信息熵H(X)表示信源的平均不确定性; 表示信源的平均不确定性; 表示信源的平均不确定性 • 信息熵 信息熵H(X) 表征了变量 的随机性。 表征了变量X的随机性 的随机性。