隐私集合求交算法的对比分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第３１卷第２期北京电子科技学院学报
２０２３年６月
Ｖｏｌ．３１Ｎｏ．２ＪｏｕｒｎａｌｏｆＢｅｉｊｉｎｇＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＩｎｓｔｉｔｕｔｅＪｕｎ．２０２３
隐私集合求交算法的对比分析∗
田文亮㊀王志强㊀张艳硕
北京电子科技学院，北京市㊀１０００７０
摘㊀要：隐私集合求交（ＰｒｉｖａｔｅＳｅｔＩｎｔｅｒｓｅｃｔｉｏｎ，ＰＳＩ）属于隐私计算领域的特定应用问题，包括秘密共享㊁同态加密㊁不经意传输㊁混淆电路和Ｈａｓｈ技术等基础知识，其兼具重要的理论意义与极强的现实应用价值㊂随着用户数据的隐私保护需求的日益提升，ＰＳＩ可以在满足依赖个人信息的业务的便利性的同时最大程度保护个人信息私密性需求㊂本文首先介绍了隐私集合求交的研究现状，其次按照底层密码技术对ＰＳＩ进行分类并对比分析了它们的复杂度，对其优缺点进行对比分析，同时对比分析了基于不同密码技术的ＰＳＩ的使用场景，最后指出其发展方向并得出结论㊂
关键词：隐私集合求交；秘密共享；同态加密；不经意传输；混淆电路；Ｈａｓｈ技术中图分类号：ＴＰ３１２㊀㊀㊀文献标识码：Ａ
文章编号：１６７２－４６４Ｘ（２０２３）２－９８－１１２
∗㊀基金项目：２０２２年基本科研业务费优硕培养项目ＨＴＴＰ协议的流量拟态技术研究（项目编号：３２８２０２２８０）；信息安全国
家级一流本科专业建设点和２０２０年教育部新工科项目新工科背景下数学课程群的教学改革与实践
∗∗㊀作者简介：田文亮（１９９６－），男，研究生在读，计算机技术专业㊂Ｅ⁃ｍａｉｌ：１０７０２７４２８７＠ｑｑ．ｃｏｍ
王志强（１９８５－），男，副教授，博士，硕导㊂Ｅ⁃ｍａｉｌ：ｗａｎｇｚｑ＠ｂｅｓｔｉ．ｅｄｕ．ｃｎ
张艳硕（１９７９－），男，通信作者，副教授，博士，硕导，从事密码理论及其应用研究㊂Ｅ⁃ｍａｉｌ：ｚｈａｎｇ＿ｙａｎｓｈｕｏ＠１６３．ｃｏｍ
１㊀引言
㊀㊀隐私数据保护最早源于安全多方计算（ｓｅｃｕｒｅｍｕｌｔｉｐａｒｔｙｃｏｍｐｕｔａｔｉｏｎ，ＭＰＣ），由姚期智［１］借百万富翁问题提出，指各计算参与方无法得到除计算结果外的任何其他信息，解决互不信任的数据持有者如何对隐私数据进行计算的问题㊂隐私集合交集是安全多方计算中的热点问题，允许在分布式场景下各自持有隐私集合的参与方联合计算出集合交集而不泄露除交集以外的任何隐私信息㊂在隐私保护的场景中，ＰＳＩ协议具有重要意义，如新冠接触者追踪［２］㊁隐私通讯录查找［３］㊁在线广告实际效果计算［４］㊁基因
序列匹配检测［５］等㊂传统的ＰＳＩ协议针对２个参与方设计，Ｍｅａｄｏｗｓ［６］基于公钥加密和利用Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥交换的乘法同态性质提出了第１个ＰＳＩ协议㊂随后，由Ｈｕｂｅｒｍａｎ等人［７］对Ｍｅａｄｏｗｓ［６］的方案做出了完整描述㊂２００４年由Ｆｒｅｅｄｍａｎ等人［８］借助不经意多项式求值和同态加密构造了第１个安全ＰＳＩ协议㊂２０１７年申立艳等人［９］对安全多方计算框架下的ＰＳＩ协议进行了简要总结㊂之后涌现了大量ＰＳＩ的研究成果，一大批新技术手段和构造框架被提出㊂除了传统的安全多方计算理论中的混淆电路（ｇａｒｂｌｅｄｃｉｒｃｕｉｔ，ＧＣ）㊁不经意传输（ｏｂｌｉｖｉｏｕｓｔｒａｎｓｆｅｒ，ＯＴ）㊁秘密共享（ｓｅｃｒｅｔｓｈａｒｉｎｇ，ＳＳ）㊁同态加密（ｈｏｍｏ⁃
第３１卷隐私集合求交算法的对比分析㊀
ｍｏｒｐｈｉｃｅｎｃｒｙｐｔｉｏｎ，ＨＥ）等技术外，不经意伪随机函数（ｏｂｌｉｖｉｏｕｓｐｓｅｕｄｏ⁃ｒａｎｄｏｍｆｕｎｃｔｉｏｎ，ＯＰＲＦ）㊁经意多项式求值（ｏｂｌｉｖｉｏｕｓｐｏｌｙｎｏｍｉａｌｅｖａｌｕａｔｉｏｎ，ＯＰＥ）㊁布隆过滤器（Ｂｌｏｏｍｆｉｌｔｅｒ，ＢＦ）等集合元素比较技术的应用，使得ＰＳＩ的效率得到了很大的提高㊂
现有ＰＳＩ已经非常高效，但现有很多实际应用中仍然以使用高效但存在安全隐患的解决方案为主，了解现有基于不同密码原语构建的ＰＳＩ及其特定适用场景，对促进实际场景中使用安全的方案替换存在隐患的方案有很大帮助㊂在敌手模型方面，研究人员从诚实且好奇的安全模型出发，开始考虑在恶意模型下安全的ＰＳＩ协议㊂随着研究人员对隐私集合交集协议的深入研究，除了传统两方ＰＳＩ协议之外，已衍生出了云辅助ＰＳＩ㊁阈值ＰＳＩ（ｔｈｒｅｓｈｏｌｄＰＳＩ，ＴＰＳＩ）㊁不平衡ＰＳＩ（ｕｎｂａｌａｎｃｅｄＰＳＩ，ＵＰＳＩ）和多方ＰＳＩ新型应用场景㊂
本文全面的介绍了ＰＳＩ研究现状，对基于不同底层密码技术的ＰＳＩ算法进行了较为详尽的描述，对不同的ＰＳＩ协议原理进行对比分析，同时对ＰＳＩ协议的复杂度以及ＰＳＩ协议的优缺点进行了对比分析，得出了基于不经意传输的ＰＳＩ协议目前具有更高效率的结果㊂最后针对当前存在的问题，指出ＰＳＩ协议的发展方向以及结论㊂
２㊀隐私集合求交的研究现状
㊀㊀隐私集合求交（ＰＳＩ）协议有很多分类方法，按照底层依赖的密码技术分类主要包括：基于公钥密码的ＰＳＩ方案，包括：基于密钥交换（ＤＨ：Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ）的ＰＳＩ方案和ＲＳＡ盲签名的ＰＳＩ方案；基于不经意传输的ＰＳＩ方案；基于通用ＭＰＣ的ＰＳＩ方案，例如基于混淆电路的ＰＳＩ方案；基于同态加密的ＰＳＩ方案；基于以上密码技术同时对多方ＰＳＩ进行描述㊂２１㊀基于公钥密码的ＰＳＩ方案
１９８６年，Ｍｅａｄｏｗｓ［６］提出了基于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ问题的ＰＳＩ协议，该协议类似于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥协商协议㊂双方以各自的输入集合中的元素作为Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥协商中选择出的随机数角色，将集合元素映射到随机会话密钥空间，接收方在会话密钥空间中进行匹配，并获取到最终的交集元素；可以看出，该方案需要双方执行多次的模指数运算（这种代价很高的计算），因此所得的ＰＳＩ方案效率并不高㊂与基于杂凑函数的算法类似，同样可以在签名空间进行比对㊂例如基于盲签名，发起方盲化本方输入的每个元素，向响应方的请求盲签名，获得结果并去盲后得到响应方私钥的签名㊂同时，响应方签名本方的每个元素，并将结果发送给发起方；发起方比对双方的签名结果，获得交集结果㊂
ＤｅＣｒｉｓｔｏｆａｒｏ与Ｔｓｕｄｉｋ［１７］在２０１０年提出了基于ＲＳＡ盲签名的ＰＳＩ协议㊂在该协议中，响应方随机产生ＲＳＡ密钥；发起方对本方的每一个输入元素进行随机盲化，将结果发送给响应方；响应方使用ＲＳＡ私钥对盲化结果进行签名并发送给发起方，同时将本方的输入元素用本方私钥进行签名，将结果发送给发起方；发起方对盲化的签名进行去盲，与响应方的签名进行比对，得出交集结果㊂
基于公钥体制的方案除了转换匹配空间之外，将参与方输入的集合元素看作是多项式的根，多项式可以与输入集合建立映射关系，对于多项式的某些操作可以转换为集合的某些操作㊂２０２２年ＡｒａｎｈａＤＦ［３５］提出了一种新的两方简洁ＰＳＩ协议，该协议从理论和实践两个方面都以最小化发送方的开销为目标㊂该协议在概念上非常简单，这使得在实践中实现它不易出错：在协议执行期间，只发送两条消息，一条消息从接收方发送到发送方，另一条消息返回㊂接收者的消息的大小是单个组元素（独立于接收者的
㊃９９㊃
北京电子科技学院学报２０２３年
输入集合的大小），而发送者的消息大小与发送者的输入集合大小成线性关系㊂发送方的计算复杂度与接收方输入集的大小无关㊂该协议为了证明新假设的合理性，证明了它在一般群体模型中是成立的㊂还讨论了在主动攻击存在的情况下保证隐私的简单对策，并提出了一个协议，该协议提供了完全基于模拟的安全性来对抗主动攻击㊂
２２㊀基于不经意多项式计算的ＰＳＩ方案
不经意多项式计算的ＰＳＩ协议主要是将参与方集合元素表示为多项式的根，利用多项式的数学性质来计算交集，并采用同态加密算法加密交互过程中的信息来保证协议的隐私㊂
最早由Ｆｒｅｅｄｍａｎ等人在２００４年提出的ＰＳＩ协议［８］就是不经意多项式计算的ＰＳＩ协议㊂其协议的主要过程为：客户端生成同态加密密钥对（ｐｋ，ｓｋ）并发送公钥给服务器端，将输入集Ｘ＝｛ｘ１，ｘ２，，ｘｖ｝表示为多项式Ｐ的根Ｐ（ｚ）＝（ｘ１－ｚ）（ｘ２－ｚ）（ｘｖ－ｚ）＝ðｖｕ＝０ａｕｚｕ，利用插值法求得多项式系数｛ａ１，ａ，，ａｖ｝，将多项式系数用Ｐａｉｌｌｉｅｒ［１３］或ＥＩＧａｍａｌ［１５］同态加密算法加密发送给服务器端；服务器端输入集合为Ｙ＝｛ｙ１，ｙ２，，ｙｗ｝对集合中的每一个元素ｙ，利用同态加密性质计算Ｅｎｃ（ｒ．Ｐ（ｙ）＋ｙ），并将计算的密文混淆发送给客户端；客户端解密所有的密文，依次判断解密的结果是否和输入集合Ｘ中的某一元素ｘ相等，相等则说明ｘ属于集合交集㊂该协议中，多项式的次数过高，会导致同态加密运算中指数的计算代价太大㊂因此作者又采用Ｈａｓｈ函数将集合中元素映射到Ｂ个桶中，每个桶最多Ｍ个元素，在客户端生成Ｍ个低次多项式，服务器端采用同样的Ｈａｓｈ函数将元素进行映射，客户端将相对应的桶里的元素和多项式进行集合交集判断；为了减小Ｍ的值，作者采用了负载均衡Ｈａｓｈ［２１］方法㊂２０１４年Ｆｒｅｅｄｍａｎ等人进一步在文献［８］的基础上改进ＰＳＩ协议［３１］，客户端和服务器端分别采用不同的Ｈａｓｈ函数将集合元素进行映射来减少协议的计算复杂度，并将随机Ｈａｓｈ㊁负载均衡Ｈａｓｈ㊁布谷鸟散列［２２］进行实验对比，其中应用负载均衡Ｈａｓｈ㊁布谷鸟散列进行集合元素计算的复杂度较低㊂以上协议被证明在标准模型下对半诚实敌手是安全的㊂２３㊀基于不经意传输的ＰＳＩ方案
不经意传输是密码协议体系中的一个基础协议，由Ｒａｂｉｎ于１９８１年提出［２３］㊂与最原始的概念相比，在更标准化的定义中，发送方拥有若干个输入，接收方输入一个索引下标，该索引下标表示接收方想要得到的结果，在协议过程中这一指标并不会泄露给发送方㊂最基础的ＯＴ协议是２选１ＯＴ㊂
基于ＯＴ的ＰＳＩ协议需要使用的ＯＴ运行实例的数量与ＰＳＩ双方输入的集合大小有关系，因此ＯＴ协议成为大集合ＰＳＩ方案的主要瓶颈㊂ＯＴ扩展协议的出现［１３］，使得大集合ＰＳＩ方案的落地成为现实㊂所谓ＯＴ扩展协议是指，ＯＴ协议在并行数量方面的扩展㊂具体来说，是用少量的ＯＴ协议实例来构造较为大数量的ＯＴ协议实例㊂文献［１４－１６］给出了ＯＴ扩展的相关理论结果与实现改进㊂
２０１３年，Ｄｏｎｇ等人在文献［２４］中第一次将布隆过滤器引入到ＰＳＩ中，并与ＯＴ扩展结合，使得ＰＳＩ协议能处理的集合数量首次突破了亿级别㊂此后，对于布隆过滤器的改进也成为优化ＰＳＩ协议的一个重要方向㊂通过改进布隆过滤器，Ｒｉｎｄａｌ和Ｒｏｓｕｌｅｋ给出了第一个恶意模型下的ＰＳＩ协议［２５］，这一方案也在２００ｓ时间内完成了两方百万数据量的安全求交㊂
２０１６年，在文献［２６］中，Ｋｏｌｅｓｎｉｋｏｖ等人使用ＯＴ扩展来实现不经意伪随机函数，并且将此概念运用到ＰＳＩ中，这也成为后续基于不经意传输的ＰＳＩ协议的主要方向㊂以上所有ＰＳＩ协议的实现几乎都是在两个参与方的场景㊂对于多个参与方的场景，文献［２７］中Ｋｏｌｅｓｎｉｋｏｖ等人引入
㊃００１㊃
第３１卷隐私集合求交算法的对比分析㊀
了不经意的可编程伪随机函数的概念（Ｐｒｏｇｒａｍ⁃ｍａｂｌｅＯｂｌｉｖｉｏｕｓＰｓｅｕｄｏｒａｎｄｏｍＦｕｎｃｔｉｏｎｓ，ＯＰ⁃ＰＲＦ），并且基于插值多项式㊁布隆过滤器等技术
实现ＯＰＰＲＦ㊂ＯＰＰＲＦ要求只对发送者编程进去的集合元素，接收者才可以进行不经意地函数取值，未编程进去的元素，接收者返回随机值㊂各个参与方之间顺次循环扮演发送方和接收方角色，最终完成交集的结果㊂２０２２年，李顺［４８］提出了一种基于并行化ＯＰＰＲＦ的隐私集合交集协议㊂２０２２年，魏立斐等人［４９］提出了基一种于云服务器的公平多方隐私集合交集协议，该协议基于该不经意伪随机函数构建了半可信云服务器辅助的隐私集合交集计算协议，将主要计算量外包给云服务器，允许半可信的云服务器参与相等性测试，又不泄露参与方任何集合信息㊂２４㊀基于同态加密的ＰＳＩ方案
ＰＳＩ根据参与者的数量可分为两方和多方，下面均以两方为例㊂假设参与ＰＳＩ的两方为发送方Ｓ（Ｓｅｎｄｅｒ）和接受方Ｒ（Ｒｅｃｅｉｖｅｒ），分别持有数据集Ｘ和Ｙ㊂根据两方数据集大小的不同，分为平衡场景和非平衡场景㊂在平衡场景下，双方样本数量相差不大，适用于双方客群有较多重叠的场景，如集团子部门之间的安全求交场景；在非平衡场景下，双方样本数量相差非常大，如营销场景中筛选本机构种子用户与外部数据方海量用户群中的共有用户群，实现目标客群筛选㊂
在平衡场景中，ＰＳＩ的实现方式目前较为成熟的有基于ＲＳＡ㊁基于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ（ＤＨ）和基于不经意传输等㊂综合安全性㊁效率和通信量考虑，基于ＯＴ以及ＯＴＥｘｔｅｎｓｉｏｎ［４１］系列的对齐方案被广泛使用㊂在非平衡场景中，可在基于ＯＴ的ＰＳＩ方案基础上，将同态加密技术结合特定的优化方法，实现高效的ＰＳＩ㊂下面介绍两种高效的基于同态加密的非平衡ＰＳＩ方案㊂２０１７年，Ｃｈｅｎ等［４６］在ＣＣＳ２０１７中将同态加密应用到非平衡ＰＳＩ中，综合使用了Ｃｕｃｋｏｏｈａｓｈ㊁Ｐａｒｔｉｔｉｏｎ㊁Ｗｉｎｄｏｗ和ＭｏｄｕｌｕｓＳｗｉｔｃｈ技术㊂实验表明，在数据量为ＮＸ＝５０００，ＮＹ＝１６００万时，Ｃｈｅｎ在ＣＣＳ２０１７［２８］中提出的方案的通信量为１２５ＭＢ，求交时间为３６ｓ㊂２０１８年，Ｃｈｅｎ等［４６］改进了ＣＣＳ２０１７方案，提出了一个能抵抗恶意攻击的非平衡ＰＳＩ方案（ＣＣＳ２０１８［２９］）㊂与ＣＣＳ２０１７［２８］方案相比，该方案支持更高位（５１２位和１０２４位）的Ｉｔｅｍ（ＣＣＳ２０１７方案支持３２位），改进了ＳＩＭＤ编码，在不增加加密参数的前提下，提升了效率和安全性㊂该方案较ＣＣＳ２０１７方案在性能上做出很大改进，在数据量为ＮＸ＝２２４和ＮＹ＝５５３５时，ＣＣＳ２０１７方案需要２０ＭＢ的通信量和４０ｓ的在线计算时间，ＣＣＳ２０１８通信量为１６ＭＢ，在线计算时间为２２ｓ（单线程），运行时间几乎缩短２倍和通信量节约２７％㊂此外，当接受方Ｒ的数据集更小时，ＣＣＳ２０１８方案的同态加密的参数会更小，能进行更少的密文计算，当接受方Ｒ的数据量为５１２或１０２４时，该方案运行时间分别只需９１ｓ和１７７ｓ，以及８２ＭＢ的通信量，较ＣＣＳ２０１７方案快２４倍，发送的数据量降低一半，同时支持任意长度的Ｉｔｅｍ㊂
２５㊀其他
根据底层密码学技术对传统多方ＰＳＩ进行梳理，主要分为基于公钥的多方ＰＳＩ和基于ＯＴ的多方ＰＳＩ，由于混淆电路在预计算阶段构造复杂，且内存占用较高，并没有基于混淆电路的传统多方ＰＳＩ协议的研究，但又鉴于混淆电路可以方便地计算任何功能函数的特性，其更适用于构造门限等特殊场景下的多方ＰＳＩ协议㊂
基于公钥的多方ＰＳＩ方案主要采用同态加密技术㊂第１个基于同态加密技术的多方ＰＳＩ协议方案由Ｆｒｅｅｄｍａｎ等人［８］提出，首先使用加法同态加密实现的ＯＰＥ技术，将集合元素表示为多项式的根从而代替集合进行运算，实现了在半诚实敌手模型下的两方ＰＳＩ，其次提出了针对恶意的客户端㊁恶意的服务端㊁恶意的两方以及多方的情况下的ＰＳＩ协议的构造思路㊂在半诚
㊃１０１㊃
北京电子科技学院学报２０２３年
实敌手模型中，Ｋｉｓｓｎｅｒ等人［１９］在２００５年对加法同态加密的私钥进行秘密共享，协议的计算复杂
度和通信复杂度是集合大小和参与方数目的２
次方㊂２０１７年，Ｈａｚａｙ等人［４４］使用星型通信模型将多方ＰＳＩ协议的通信轮数从Ｏ（ｎ）降低为Ｏ（１），且加解密的操作数与参与方集合大小呈线性关系㊂其中，星型通信结构是最直观的多方通
信结构，多个参与方与同一个中心参与方进行交
互，此结构对中心参与方的带宽和计算能力要求
较高㊂
基于ＯＴ协议的多方ＰＳＩ协议主要分为两
种，一是使用ＯＴ协议构造ＯＰＲＦ㊁ＯＰＰＲＦ㊁多点ＯＰＲＦ等一系列协议，而后基于ＯＰＲＦ系列协议构造多方ＰＳＩ协议；二是多方直接使用ＯＴ协议进行数据传输㊂基于ＯＰＲＦ的多方ＰＳＩ协议中最经典的同时也是首篇将多方ＰＳＩ进行代码实现的协议为Ｋｏｌｅｓｎｉｋｏｖ等人［４２］在２０１７年提出的方案㊂该文献首次提出了使用ＯＰＲＦ构造ＯＰＰＲＦ的概念，旨在使用发送方的输入来对ＯＰＲＦ的密钥进行编程，其与单点ＯＰＲＦ的区别在于ＯＰＰＲＦ中密钥与发送方的私有集合元素相关㊂在直接使用ＯＴ协议作为数据传输协议方面，２０１８年，Ｉｎｂａｒ等人［４５］在半诚实敌手模型和增强的半诚实敌手模型中分别提出了两种多方ＰＳＩ协议，是对Ｄｏｎｇ等人［２４］两方ＰＳＩ协议的扩展㊂Ｉｎｂａｒ等人的协议［４５］与Ｋｏｌｅｓｎｉｋｏｖ等人的协议［４２］相比的优势在于随着参与方数目的增多，协议消耗时间增长缓慢，与参与方数目呈次线性关系；而Ｋｏｌｅｓｎｉｋｏｖ等人的协议［４２］的最后一个步骤中需要多次计算和比较，计算开销较大㊂由于混淆电路具有计算任何功能函数的特性，可以方便地设计多功能的安全计算协议，因此基于混淆电路的门限多方ＰＳＩ也是研究方向之一㊂２０２１年，Ｃｈａｎｄｒａｎ等人［４６］提出了半诚实敌手模型下的多方ＰＳＩ协议，并设计了两种变体协议，门限多方ＰＳＩ便在其研究范围中㊂协议主要分两部分，首先选择一个特定参与方与其他所有参与方两两交互进行元素相等性判断，此后所有参与方交互通过电路计算结果㊂
近年来涌现了很多基于云辅助器的ＰＳＩ协议［４９－５２］，由于在日常生活中数据量庞大，因此借
助云辅助器的方案可能是我们以后研究的重点㊂本文对以上基于不同密码技术的ＰＳＩ协议现状进行了总结，不仅对每一种ＰＳＩ协议的历史发展进行描述，而且说明其特点及基本使用场景㊂
３㊀ＰＳＩ算法原理的对比分析
㊀㊀ＰＳＩ算法既可以有两方参与，又可以有多方参与，以下分别对两方㊁多方以及不经意伪随机函数等ＰＳＩ原理进行对比分析㊂
３１㊀两方ＰＳＩ基本原理
算法参与方包括Ｓｅｒｖｅｒ和Ｃｌｉｅｎｔ，假设ｓｅｖｅｒ和ｃｌｉｅｎｔ输入元素个数分别为ｋｓ和ｋｃ，ｓｅｒｖｅｒ方输入元素记为ｙｉ，ｉɪ［１，ｋｓ］，ｃｌｉｅｎｔ方输入元素记为ｘｉ，ｉɪ［１，ｋｃ］；２）基于公钥加密技术的加法同态加密算法Ｅｎｃ（ｘ）㊁Ｄｅｃ（ｃ）满足Ｅｎｃ（ｍ１＋ｍ２）＝Ｅｎｃ（ｍ１）＋Ｅｎｃ（ｍ２）（ｋｍ）＝ｋ（ｍ）１）ｃｌｉｅｎｔ方针对全部输入元素利用插值法构造如下多项式Ｐ（ｙ）＝ðｋｃｉ＝１（ｙ－ｘｉ），显然该多项式的最高次数为ｋｃ，用系数表示为Ｐ（ｙ）＝ðｋｃｉ＝０（ａｉｙｉ）㊂然后将全部系数进行加密后发送给ｓｅｒｖｅｒ；
２）ｓｅｒｖｅｒ针对每一个ｙｉ进行如下计算：选择随机数ｒｉ计算Ｃｉ＝Ｅｎｃ（ｒｉＰ（ｙｉ）＋ｙｉ，并将Ｃｉ发送给ｃｌｉｅｎｔ；
３）ｃｌｉｅｎｔ进行如下验证：对Ｃｉ进行解密得到ｍｉ＝ｒｉＰ（ｙｉ）＋ｙｉ㊂如果ｙｉ和某个ｘｉ相等，则ｒｉＰ（ｙｉ）为０，解密结果ｍｉ必定等于该ｘｉ，即为ＰＳＩ结果之一，如果ｙｉ不等于任一ｘｉ，则解密结果ｍｉ是一个随机数㊂
３２㊀多方ＰＳＩ基本原理
在２方ＰＳＩ算法基础上可以扩展到多方
㊃２０１㊃
第３１卷隐私集合求交算法的对比分析㊀
ＰＳＩ㊂具体原理如下：
１）假定ｎ＋１个参与方，记为Ｌｌ，ｌɪ［１，ｎ＋１］，第Ｌｎ＋１为ｌｅａｄｅｒ；
２）对前面ｎ个参与方Ｌｌ，ｌɪ［１，ｎ］，生成各自的同态加密算法公私钥公钥ｐｋｌ和私钥ｓｋｌ，公开公钥ｐｋｌ；
３）对前面ｎ个参与方Ｌｌ，ｌɪ［１，ｎ］，针对已方全部元素ｘｌｉ生成自己的多项式Ｐｌ（ｙ），并将多项式参数进行加密（使用公钥ｐｋｌ）后发送给ｌｅａｄｅｒ；
４）Ｌｅａｄｅｒ针对己方每个元素ｙｉ进行如下操作：生成ｎ个随机数ｓｌｊ，ｌɪ［１，ｎ］，确保ｎｉ＝１ｓｌｊ＝ｙｊ，然后针对ｎ个参与方Ｌｌ的每一方计算密文Ｃｌｊ
＝Ｅｎｃ（ｒｌ
ｊ
Ｐ（ｙｊ）＋ｙｊ），然后将全部Ｃｌｊ发送给Ｌｌ；５）对前面ｎ个参与方ＬＬ，ｌɪ［１，ｎ］，解密Ｃｌｊ得到ｍｌｊ，并将已方解密出来的ｍｌｊ全部公开：６）对前面ｎ个参与方Ｌｌ，针对收到的全部ｍｌｊ进行计算ｙｊ＝ｎｌ＝１ｍｌｊ，如果ｙｊ等于已方的某个元素ｘｌｊ相等则表明该元素是多方交集元素㊂３３㊀基于不经意伪随机函数的ＰＳＩ
ＰＳＩ算法参与方包括ｓｅｒｖｅｒ和ｃｌｉｅｎｔ，假设ｓｅｖｅｒ和ｃｌｉｅｎｔ输入元素个数都为ｎ㊂ＯＰＲＦＰＳＩ算法的基本思想是利用ＰＲＧ函数对双方明文元素进行加密，然后ｓｅｒｖｅｒ方和ｃｌｉｅｎｔ方对加密后元素进行逐一比对找出共同交集元素，ＰＲＧ函数设置加密密钥时通过ＯＴ协议交互使得该密钥能够确保相同交集元素的密文相同且不泄露明文元素的信息㊂
ＯＰＲＦＰＳＩ算法相对其他ＰＳＩ算法的优势是计算量和通信量都比较小，而且对于ｃｌｉｅｎｔ方来说安全性很高，能够确保ｓｅｒｖｅｒ方无论是半诚实还是恶意模型下的ｃｌｉｅｎｔ方安全性，这样通过ＯＰＲＦＰＳＩ算法构建隐查询ＰＩＲ时能够保证查询方的绝对安全性㊂
（１）基本原理
１）ＯＰＲＦ函数记为ＯＰＲＦｋ（ｘ）＝Ｈ（ｑ［Ｆ（ｘ）㊃ｓ］），㊃表示位与操作，⊕表示位异或操作，Ｆ（ｘ）表示ｘ作为种子的随机数生成器，Ｈ表示Ｈａｓｈ摘要函数（具有ｒａｎｄｏｍｏｒａｃｌｅ特性）㊂ｑ，ｓɪ｛０，１｝λ，λ表示安全参数；
２）ｃｌｉｅｎｔ对己方输入元素ｘ：先采样随机字符串ｒ０ѳƔ｛０，１｝ｎ，计算ｒ１＝ｒ０Ｆ（ｘ）；３）ｓｅｒｖｅｒ端先采样随机字符串ｓѳƔ｛０，１｝ｎ；４）ｃｌｉｅｎｔ和ｓｅｒｖｅｒ运行λ次ＯＴ协议：ｃｌｉｅｎｔ发送方输入ｒ０［ｉ］和ｒ１［ｉ］，ｓｅｒｖｅｒ端输入选择比特ｓ［ｉ］㊂ｓｅｒｖｅｒ通过λ次ＯＴ协议获取到的λ比特随机字符串ｑ＝ｒｓ［１］［１］ｒｓ［２］［２］．．．ｒｓ［λ］［λ］；
５）ｓｅｒｖｅｒ端设置ＯＰＲＦｋｅｙｋ＝（ｑ，ｓ），对己方输入元素ｙ计算ＯＰＲＦ值ＯＰＲＦｋ（ｙ）＝Ｈ（ｑ［Ｆ（ｙ）㊃ｓ］），并将改值发送给ｃｌｉｅｎｔ；６）ｃｌｉｅｎｔ检验：当ＯＰＲＦｋ（ｙ）＝Ｈ（ｒ０）时表明ｙ＝ｘ㊂
（２）ＯＰＲＦ算法协议
公共函数及参数约定如下：
λ表示计算安全参数，统计安全参数σ，协议参数ｍ，ｗ，ｌ１，ｌ２，Ｈａｓｈ函数Ｈ１：｛０，１｝∗ң｛０，１｝ｌ１和Ｈ２：｛０，１｝ｗң｛０，１｝ｌ２，伪随机函数Ｆ：｛０，１｝Ａˑ｛０，１｝ｌң［ｍ］ｗ；
具体协议过程如下：
１）阶段１：预处理
ｓｅｒｖｅｒ端采样随机字符串ｓѳƔ｛０，１｝ｗ；ｃｌｉｅｎｔ端执行：
初始化个ｍˑω二进制矩阵Ｄ为全１，Ｄｊ表示Ｄ第ｊ列，Ｄ１＝Ｄ２＝＝Ｄｓ＝１ｍ；
采样随机字符串ｋѳ
Ɣ｛０，１｝λ作为ＰＲＦ函数Ｆ密钥；
对于ｃｌｉｅｎｔ端的每个元素ｙ：计算ｖ＝Ｆｋ（Ｈ１（ｙ）），ｖɪ［ｍ］ｗ，对矩阵Ｄ的每一列设置Ｄｉ［ｖ［ｉ］］＝０，ｉɪ［ｗ］㊂
２）阶段２ʒ０Ｔ传输
㊃３０１㊃
北京电子科技学院学报２０２３年
ｃｌｉｅｎｔ端随机产生一个ｍˑω二进制矩阵Ａѳ＄｛０，１｝ｍˑｗ，计算Ｂ＝Ａ⊕Ｄ；
ｃｌｉｅｎｔ和ｓｅｒｖｅｒ运行ｗ次ＯＴ协议，ｃｌｉｅｎｔ作为发送方，ｓｅｒｖｅｒ作为接收方，每次
ＯＴ，ｃｌｉｅｎｔ输入消息｛Ａｉ，Ｂｉ｝，ｉɪ［ｗ］，ｓｅｒｖｅｒ输入ｓｉ进行选择㊂ＯＴ协议结束后ｓｅｒｖｅｒ获得ｗ㊀个ｍ比特字符串，然后作为ω列得到一个ｍˑω二进制矩阵Ｃ㊂
３）阶段３：ＯＰＲＦ值验证
ｃｌｉｅｎｔ端将ＰＲＦ函数Ｆ密钥发送给ｓｅｒｖｅｒ；ｓｅｒｖｅｒ端针对每个元素ｘｉ：计算ｖｊ＝Ｆｋ（Ｈ１（ｙｊ）），计算ＯＰＲＦ值Ｖｉ＝Ｈ２（Ｃ１［ｖｉ［１］］）Ｃｗ［ｖｉ［ｗ］）；
ｓｅｒｖｅｒ将所有：发送给ｃｌｉｅｎｔ
ｃｌｉｅｎｔ端针对己方每个元素ｙｉ：计算ｖｊ＝Ｆｋ（Ｈ１（ｙｊ）），计算ＯＰＦ值中，㊀ϕｊ＝Ｈ２（Ａ１［ｖｊ［１］］Ａｗ［ｖｉ［ｗ］］），然后逐个比较中ϕｊ和ψｉ，当且仅当ϕｊ＝ψｉ时，㊀ｙｊ＝ｘｉ㊂３４㊀不经意的可编程伪随机函数的ＰＳＩ
ＰＲＦ函数Ｆ跟ＯＰＲＦ中的定义一致㊂ＯＰＰＲＦ协议的参与方包括Ｓｅｎｄｅｒ（记为Ｓ）和Ｒｅｃｅｉｖｅｒ（记为Ｒ）两方㊂协议运行过程如下：１）约定安全参数Κ，公开参数ＰＲＦ函数Ｆ：２）Ｓ方输入｛（ｘ１，ｙ１），（ｘ２，ｙ２）（ｘｎ，ｙｎ）｝，ｘｉ不相等，协议生成Ｆ加密密钥ｋ和公共参数ｈｉｎｔ；
３）Ｒ方进行公ｑ次查询，每次查询输入ｘ，协议返回ｙ＝Ｆ（ｘ，ｋ，ｈｉｎｔ）㊂
Ｓ方的输入可以理解为一些点坐标，协议对Ｓ方输入进行加密计算得到公共参数ｈｉｎｔ，ＰＲＦ函数Ｆ加密密钥ｋ㊂Ｒ方的输入为ｘ，协议返回一个随机值ｙ，当ｘ与Ｓ方某个输入ｘ相等时，Ｒ方获得输出即为ｙ＝ｙｉ㊂协议的安全性要求Ｓ方无法获知Ｒ方输入的查询信息，Ｒ方无法获知查询输出是否匹配到了Ｓ方的某个输入㊂也就是说Ｒ方每次查询中无论输入值是否匹配到Ｓ方的某个输入ｘｉ，输出ｙ相对Ｒ方都是一个随机均匀分布㊂
ＯＰＰＲＦ基于多项式的实现：假设Ｓ方输入｛（ｘ１，ｙ１），（ｘ２，ｙ２）（ｘｎ，ｙｎ）｝，令ｙᶄｉ＝ｙｉＦ（ｋ，ｘｉ），Ｓ方通过对｛（ｘ１，ｙᶄ１），（ｘ２，ｙᶄ２）（ｘｎ，ｙᶄｎ）｝进行拉格朗日插值得到多项式如下：
Ｐ（ｘ）＝ðｎｉ＝１ｙᶄｉ（ᵑ１ɤｊɤｎｊʂｉｘ－ｘｊｘｉ－ｘｊ）
记上述多项式系数为ｈｉｎｔ，记Ｒ方查询输入为ｑ，则查询输出为：
Ｆ（ｑ，ｋ，ｈｉｎｔ）＝Ｆ（ｋ，ｑ）Ｐ（ｑ）
正确性验证：当Ｒ查询输入ｑ＝ｘ时，查询输出为ｙｉ
Ｆ（ｋ，ｘｉ）Ｐ（ｘｉ）＝Ｆ（ｋ，ｘｉ）ｙᶄｉ
＝Ｆ（ｋ，ｘ
ｉ）ｙｉＦ（ｋ，ｘｉ）
＝ｙｉ
当输入ｑ不等于任一ｘｉ时，查询输出是随机均匀分布的㊂因为ｙｉ随机均匀分布，因此Ｐ（ｘ）系数也是随机均匀分布的㊂
３５㊀ＭｕｌｔｉＰＳＩ算法
原理：
算法关键是利用秘密分享技术，通过２次ＯＰＰＲＦ找出共同元素㊂
１）第一次ＯＰＰＲＦ：ｓｔｅｐ１中各参与方对本方的每个元素和其他各参与方生成多份秘密分享值ｓｉ，ｊｋ，然后ｓｔｅｐ２中各参与方运行ＯＰＰＲＦ，此时如果有相同元素进行查询则会获取到对方相同元素的某一份秘密分享值㊂如果是不相同元素的查询则是获得一个随机值；
２）第二次ＯＰＰＲＦ：ｓｔｅｐ３中各参与方通过本方所有秘密分享值计算一个映射Ｓｉ（ｘｉｋ），然后ｓｔｅｐ４中Ｐ１作为协议中ｌｅａｄｅｒ（负责最终交集元素的输出），和各参与方运行第二次ＯＰＰＲＦ．每个参与方的Ｓｉ（ｘｉｋ）值包含了单个元素在各个参与方对应的秘密分享值㊂Ｓｔｅｐ５中Ｐ１对各个参与方Ｓ（ｘ）进行ＸＯＲ计算，此时如果是该元素在
㊃４０１㊃
第３１卷隐私集合求交算法的对比分析㊀
各个参与方都有，则ｉɪ［ｎ］ｙｉｋ包含了所有参与方关于ｘｉｋ元素的全部秘密分享值，因此ｉɪ［ｎ］ｙｉｋ＝０意味着元素ｘｉｋ在各个参与方输入中都存在㊂４㊀ＰＳＩ算法复杂度的对比分析㊀㊀不同ＰＳＩ协议的计算复杂度和通信复杂度在表２中有所示㊂表１为符号说明，表２中的计算复杂度是通过非对称或是对称密码原语的使用次数衡量的，通信复杂度是通过在信道上传输的比特数衡量的㊂这里的假设是每完成一次ＯＴ协议花费３次对称密码操作（对于使用布隆过滤器的花费２５次对称密码操作）㊂计算姚氏电路中的与门使用４次对称密码操作，计算ＧＭＷ电路中的与门使用６次对称加密操作㊂在同一类别中的ＰＳＩ方案大多数拥有类似的复杂度㊂朴素哈希方法与服务器辅助的方法需要对每一个元素执行一次对称加密操作（哈希），基于公钥的协议需要对每一个元素执行两次公钥操作，并且需要发送两个密文和一个哈希值㊂基于电路的方法的计算复杂度与电路中与门的数量成正比，在基于布隆过滤器的协议中，计算复杂度与布隆过滤器的大小成正比㊂在基于ＯＴ的协议中，基于布隆过滤器的协议［２４］，通
信复杂度是与安全参数κ的平方成正比的，但是在［３４］中的协议，通信复杂度是与κ呈线性关系㊂
表１㊀符号说明
符号说明
Ｓ服务端或是发送端
Ｒ客户端或是接收端
Ｘ，Ｙ发送端和接收端的集合
ＮＸ，ＮＹ发送端和接收端集合的大小
ｍ哈希表的大小
ｖ消息编码的长度
σ集合元素的长度
κ，λ计算意义的安全参数和统计意义的安全参数ρ，ϕ非对称安全参数与椭圆曲线的规模
表２㊀不同ＰＳＩ协议复杂度比较
分类协议
计算复杂度
（对称或非对称密码原语的次数）通信复杂度（比特）
基于公钥体系的
基于有限域ＤＨ的［６］２ｔｐｋｔρ＋ＮＸｖ基于椭圆曲线上ＤＨ的［６］２ｔｐｋｔϕ＋ＮＸｖ基于ＲＳＡ的［３０］２ｔｐｋｔρ＋ＮＸｖ
基于电路的
姚氏电路使用ＳＣＳ１２ｍσｌｏｇｍ＋３ｍσｓｙｍ６ｍΚσｌｏｇｍ＋３ｍσ
ＧＭＷ使用ＳＣＳ１８ｍσｌｏｇｍｓｙｍ６ｍ（Κ＋２）σｌｏｇｍ
姚氏电路使用ＰＷＣσ（４ＮＹｍａｘｂ＋４ｓＮＸ＋３ＮＹ）ｓｙｍ２ＮＹΚｍａｘｂσ＋３ｓＮＸΚσ＋２ＮＹσＧＭＷ使用ＰＷＣ６σ（ＮＹｍａｘｂ＋ｓＮＸ）ｓｙｍ２（Κ＋２）σ（ＮＹｍａｘｂ＋ｓＮＸ）姚氏电路使用ＯＰＲＦ２１７６０ＮＹ＋３σＮＹｓｙｍ１０８８０ＮＹΚ＋２ＮＹΚσ＋ＮＸｖＧＭＷ使用ＯＰＲＦ３２６４０ＮＹｓｙｍ１０８８０ＮＹ（Κ＋２）＋ＮＸｖＣｉａｍｐｉ等人的方案Ｍ（４σｌｏｇｍ＋３σ）ｓｙｍｍ（２σ＋１）ｍΚ
基于ＯＴ协议的使用布隆过滤器［２４］３６ｍΚｓｙｍ１４４ｍΚ（Κ＋λ）使用哈希表［２０］３ＮＹ＋（ｋ＋ｓ）ＮＸｓｙｍ５１２ＮＹ＋（ｋ＋ｓ）ＮＸｖ使用哈希表［２６］（ｓ＋３）ｍ＋（ｍ＋ｓ）ｓｙｍ４（ｍ＋ｓ）ｋ＋（ｓ＋３）ｍｖ使用哈希表［３１］∗－６Κｎ＋βｎｌｏｇｍ
基于ＦＨＥ的［４６］－－１５ＣσＮＹｌｏｇ２Ｎｘ
㊀㊀注：其中ｓｙｍ和ｐｋ分别表示对称与非对称操作的统计，ｔ＝ＮＸ＋ＮＹ，ｍ＝ｍａｘ（ＮＸ，ＮＹ），βʈλ＋２ｌｏｇｎ－１，，ｋ，ｓ，ｍａｘｂ是哈希函数用到的参数，ｖ是在ＯＴ扩展协议中，使用的哈希函数的输出长度，Ｃ是一个常数，表示［２６］的同态操作产生的密文扩展㊂标有∗的是在恶意模型下安全的协议㊂
５㊀ＰＳＩ性能的对比分析
㊀㊀基于公钥密码的ＰＳＩ方案中，一些协议公钥加解密操作的次数与集合大小成线性关系㊂因此虽然通信复杂度是最小的，但是计算开销远不及后面叙述的基于不经意传输扩展协议的ＰＳＩ㊂使用公钥加密体系的ＰＳＩ有另一个优点，就是在双方集合大小相差很大的情况下，花销很大的公钥加密操作可以集中在一方进行㊂结合这种方案通信复杂度低的优点，Ｃｈｅｎ等人在文献［２８］㊁
㊃５０１㊃。