实验室年度亮点

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验室年度亮点

实验室发布《中国隐私风险指数分析报告》

随着物联网技术的迅猛发展，移动设备广泛普及。以中国市场

的智能手机为例，中国互联网信息中心第41次《中国互联网络发

展状况统计报告》指出，截至2017年12月，中国手机网民规模达

7.53亿，较2016年底增加5734万人，约占总体人口规模的二分

之一。移动设备的普及使得移动应用(Mobile Application ，以下简称

App)应运而生并蓬勃发展。据工信部网站发布消息，截至2017年

12月，中国市场监测到App 数量达403万款，其中本土第三方应

用商店App 数量为236万款。App 种类丰富，包括游戏、社交、

购物以及金融理财等，覆盖个人方方面面的数据信息。这些信息无

时无刻不被App 服务提供商收集，在大数据时代数据挖掘与分析

技术的推动下，个人在移动互联网中几乎没有隐私可言。

基于此，W AMDM 实验室针对使用移动设备的用户(以下报告

中简称移动用户)的个人数据被收集情况进行调研分析，从移动场

景下两大数据主体——数据拥有者（移动用户）、数据收集者（App 开发者）角度入手，提出基于权限的隐私风险评估方法，构建隐私风险量化模型，制定中国隐私风险指数体系，从数据收集者角度揭示用户数据的流向，并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征，最终撰写并发布中国隐私风险指数分析报告。

中国隐私风险指数分析报告所使用的数据集包含三部分内容，一是用户App 使用数据，即用户安装或卸载App 事件日志数据；二是用户属性画像数据，包括用户的自然属性、社会属性、地域信息及行为属性信息；三是App 数据，通过爬取第三方应用网站得到的各App 相关信息，包括App 名称、类别、开发者、版本、权限、大小、评分等信息。其中，用户样本集来自对中国333个地级行政区（截至2018年8月1日）的移动用户分层抽样，总样本量为30,907,758，即约3000万；爬取App 数量为294,358，即约30万。

隐私风险评估方法的基本思想包含两方面：其一，用户数据是通过App 权限设置多少而泄露的，同时开发者收集数据也是基于App 权限的多少而获得的；其二，隐私的风险来自于用户所使用App 的权限，不同权限有不同的隐私风险程度取值。基于此思想，我们构建了基于权限的隐私风险量化模型，并据此分析数据收集者隐私风险指数和数据拥有者隐私风险指数（区域隐私风险指数、人群隐私风险指数、行为隐私风险指数）。

本报告后续将进一步加以完善，具体从以下四个方面开展工作。第一，对造成隐私风险指数差异的成因进行更深入的研究；第二，转换分析角度，尝试行为分析、计量分析等多种分析方法；第三，进行隐私风险量化模型的敏感度测试与合理性检验；第四，与国家有关职能部门进一步沟通，为我国相关隐私保护政策的制定提供科学支持。 0.360.400.440.480.5200000000

000隐私风险指数隐私风险指数样本数总人数0

1M 2M 50M 100M 150M 样本数不同省份隐私风险指数

实验室开发了AstroServ：全时态天文大数据管理系统

实验室云组从2016年8月至今艰苦奋斗，终于研

发出了全时态大数据管理系统，是以时域天文学为代

表的一大类典型科学应用，为科学大数据的管理与分

析提出了新的挑战。基于时域天文学问题与数据的特

点，AstroDB可以把数据的管理与分析结合应用的特

点高效地集成起来，相互支持。同时设计实现了在线

与离线，流式与批处理相结合的新型共生处理模式，

为基于天文大数据的科学发现提供了基础性软件系

统平台的支持。

AstroDB主要目标集中在关系型科学大数据的全时态管理，分为实时层和离线层两部分，实时层主要用于支持实时科学事件发现，其具有百亿行数据的管理能力，能保证130万行/每秒的数据插入吞吐率，并支持实时的异常事件管理和分析，平均查询延迟3秒。离线层主要用于历史数据管理和长周期科学规律的分析，其具有千亿行数据的管理能力，具备15万行/每秒的数据插入吞吐率，支持典型大规模历史科学数据分析，平均查询延迟27秒，此外设计的压缩方案能保证数据量压缩为默认方案的30%。

国家天文台观测设备具有大视角短时标的国际领先水平，16台光学望远镜组成阵列每15秒观测一次。我们的系统需要5秒左右完成32万数据处理，一晚上处理7.7亿数据，力图找到异常天文现象。这是一次成功的与自然科学跨领域合作，技术上克服了重重困难，积累了交叉学科研究的经验。

WAMDM 实验室举办ScholarSpace十周年活动

2018年6月17日，WAMDM实验室以

“ScholarSpace十周年”为主题举办了相关毕业生

的返校活动。活动邀请到2010届硕士生王仲远、

2012届硕士生陈威和2016届硕士生赵可君。具体

活动包括孟老师的实验室研究进展介绍、毕业生分

享等。2000年至今，WAMDM实验室将目标定位在解

决数据库技术与Web技术和移动计算交叉所产生的

挑战问题上，并为此十余年攻坚，取得了一些国内

外所公认的研究成果。以2011年为界，创新数据管

理进入了新阶段。实验室一直在思索新数据时代的研究布局，并将新时代的研究方向概括为数据创新数据管理2.0，其中涉及云计算、闪存存储、隐私保护、大数据融合和知识图谱等关键词力图探索下

一代计算技术和应用所需的数据管理技术。一直以来，实验室的研究风格秉承萨师煊、王珊教授所树立的以系统为重的人大风格，坚持理论研究与系统开发并重的双轨制研究方式。

学术空间ScholarSpace便是实验室开发完成的众多系统之一。它是一个学术信息集成系统，采用类数据仓库式的集成方式，从不同数据源抽取中文学术信息，并经过实体抽取、关系挖掘和语义建模等，为用户提供数据查询、文献导读和领域Top分析等服务。自2008年起，该系统已囊括ScholarSearch、ScholarTree、ScholarExplorer、ScholarGraph和ScholarRankings共5个子系统。各子系统之间相互依赖，共同促进。目前，系统已收录2,297,097篇论文（25个领域）、4,003,276篇学位论文（53个领域）和1,350,755位研究人员。

实验室组织以“frontier in AI&DB”为主题的优秀毕业生分享活动

2018年12月22日，WAMDM实验室举办了

以“frontier in AI&DB”为主题的毕业生分享

活动，本次会议邀请了WAMDM实验室往届的优

秀毕业生返回中国人民大学，与实验室及相关

人员进行学术交流，报告内容聚焦AI&DB。

由深度学习驱动的新一代人工智能变革给

传统计算系统带来巨大冲击，机器学习和数据

库作为两种截然不同的技术呈现出不断结合的

趋势。一方面，机器学习系统应当从传统数据库

研究中获取新灵感，实现机器学习算法的易用性和可解释性；另一方面，结合机器学习进一步优化数据库管理系统，让机器学习与数据库技术互相结合促进优化显得更加重要。

特邀报告，王海勋，博士，2000年获得美国加州大学洛杉矶分校（UCLA）计算机博士学位，是国际数据库领域一流学者，美国沃尔玛电子商务部人工智能实验室资深数据专家，高级技术工程师。报告主要内容北美最大的电子商务网站之一的walmart上提出解决搜索问题的挑战。特别是，将介绍产品搜索的挑战，以及我们在查询理解和可视化搜索方面的最新进展。

AI&DB实践报告，谢敏(2009实验室硕士毕业），陈继东（2007实验室博士毕业），王仲远（2010实验室硕士毕业），朱金清（2009实验室硕士毕业）等优秀往届毕业生依次，AI for E-commerce Search，“从刷脸支付到数字身份探索” - 人工智能算法商业化的思考和实践，知识图谱及其落地应用，大数据+智慧交通应用等题目的精彩报告，实验室人员受益匪浅，最后孟老师结尾送给大家一点对未来的看法，希望大家再超前一步：万物互联的时代已经来临，当下的技术还停留在互联网上，多是以织网为主，万物互联时代织网终将不成问题，人们需要的是剪网（借用丰子恺的《剪网》一文“所以我想找一把快剪刀，把这个网尽行剪破，然后来认识这世界的真相”）。谁能找到这把快剪刀，谁就能制胜未来！