实验室年度亮点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验室年度亮点
实验室发布《中国隐私风险指数分析报告》
随着物联网技术的迅猛发展,移动设备广泛普及。以中国市场
的智能手机为例,中国互联网信息中心第41次《中国互联网络发
展状况统计报告》指出,截至2017年12月,中国手机网民规模达
7.53亿,较2016年底增加5734万人,约占总体人口规模的二分
之一。移动设备的普及使得移动应用(Mobile Application ,以下简称
App)应运而生并蓬勃发展。据工信部网站发布消息,截至2017年
12月,中国市场监测到App 数量达403万款,其中本土第三方应
用商店App 数量为236万款。App 种类丰富,包括游戏、社交、
购物以及金融理财等,覆盖个人方方面面的数据信息。这些信息无
时无刻不被App 服务提供商收集,在大数据时代数据挖掘与分析
技术的推动下,个人在移动互联网中几乎没有隐私可言。
基于此,W AMDM 实验室针对使用移动设备的用户(以下报告
中简称移动用户)的个人数据被收集情况进行调研分析,从移动场
景下两大数据主体——数据拥有者(移动用户)、数据收集者(App 开发者)角度入手,提出基于权限的隐私风险评估方法,构建隐私风险量化模型,制定中国隐私风险指数体系,从数据收集者角度揭示用户数据的流向,并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征,最终撰写并发布中国隐私风险指数分析报告。
中国隐私风险指数分析报告所使用的数据集包含三部分内容,一是用户App 使用数据,即用户安装或卸载App 事件日志数据;二是用户属性画像数据,包括用户的自然属性、社会属性、地域信息及行为属性信息;三是App 数据,通过爬取第三方应用网站得到的各App 相关信息,包括App 名称、类别、开发者、版本、权限、大小、评分等信息。其中,用户样本集来自对中国333个地级行政区(截至2018年8月1日)的移动用户分层抽样,总样本量为30,907,758,即约3000万;爬取App 数量为294,358,即约30万。
隐私风险评估方法的基本思想包含两方面:其一,用户数据是通过App 权限设置多少而泄露的,同时开发者收集数据也是基于App 权限的多少而获得的;其二,隐私的风险来自于用户所使用App 的权限,不同权限有不同的隐私风险程度取值。基于此思想,我们构建了基于权限的隐私风险量化模型,并据此分析数据收集者隐私风险指数和数据拥有者隐私风险指数(区域隐私风险指数、人群隐私风险指数、行为隐私风险指数)。
本报告后续将进一步加以完善,具体从以下四个方面开展工作。第一,对造成隐私风险指数差异的成因进行更深入的研究;第二,转换分析角度,尝试行为分析、计量分析等多种分析方法;第三,进行隐私风险量化模型的敏感度测试与合理性检验;第四,与国家有关职能部门进一步沟通,为我国相关隐私保护政策的制定提供科学支持。 0.360.400.440.480.5200000000
000隐私风险指数 隐私风险指数 样本数 总人数0
1M 2M 50M 100M 150M 样本数不同省份隐私风险指数
实验室开发了AstroServ:全时态天文大数据管理系统
实验室云组从2016年8月至今艰苦奋斗,终于研
发出了全时态大数据管理系统,是以时域天文学为代
表的一大类典型科学应用,为科学大数据的管理与分
析提出了新的挑战。基于时域天文学问题与数据的特
点,AstroDB可以把数据的管理与分析结合应用的特
点高效地集成起来,相互支持。同时设计实现了在线
与离线,流式与批处理相结合的新型共生处理模式,
为基于天文大数据的科学发现提供了基础性软件系
统平台的支持。
AstroDB主要目标集中在关系型科学大数据的全时态管理,分为实时层和离线层两部分,实时层主要用于支持实时科学事件发现,其具有百亿行数据的管理能力,能保证130万行/每秒的数据插入吞吐率,并支持实时的异常事件管理和分析,平均查询延迟3秒。离线层主要用于历史数据管理和长周期科学规律的分析,其具有千亿行数据的管理能力,具备15万行/每秒的数据插入吞吐率,支持典型大规模历史科学数据分析,平均查询延迟27秒,此外设计的压缩方案能保证数据量压缩为默认方案的30%。
国家天文台观测设备具有大视角短时标的国际领先水平,16台光学望远镜组成阵列每15秒观测一次。我们的系统需要5秒左右完成32万数据处理,一晚上处理7.7亿数据,力图找到异常天文现象。这是一次成功的与自然科学跨领域合作,技术上克服了重重困难,积累了交叉学科研究的经验。
WAMDM 实验室举办ScholarSpace十周年活动
2018年6月17日,WAMDM实验室以
“ScholarSpace十周年”为主题举办了相关毕业生
的返校活动。活动邀请到2010届硕士生王仲远、
2012届硕士生陈威和2016届硕士生赵可君。具体
活动包括孟老师的实验室研究进展介绍、毕业生分
享等。2000年至今,WAMDM实验室将目标定位在解
决数据库技术与Web技术和移动计算交叉所产生的
挑战问题上,并为此十余年攻坚,取得了一些国内
外所公认的研究成果。以2011年为界,创新数据管
理进入了新阶段。实验室一直在思索新数据时代的研究布局,并将新时代的研究方向概括为数据创新数据管理2.0,其中涉及云计算、闪存存储、隐私保护、大数据融合和知识图谱等关键词力图探索下
一代计算技术和应用所需的数据管理技术。一直以来,实验室的研究风格秉承萨师煊、王珊教授所树立的以系统为重的人大风格,坚持理论研究与系统开发并重的双轨制研究方式。
学术空间ScholarSpace便是实验室开发完成的众多系统之一。它是一个学术信息集成系统,采用类数据仓库式的集成方式,从不同数据源抽取中文学术信息,并经过实体抽取、关系挖掘和语义建模等,为用户提供数据查询、文献导读和领域Top分析等服务。自2008年起,该系统已囊括ScholarSearch、ScholarTree、ScholarExplorer、ScholarGraph和ScholarRankings共5个子系统。各子系统之间相互依赖,共同促进。目前,系统已收录2,297,097篇论文(25个领域)、4,003,276篇学位论文(53个领域)和1,350,755位研究人员。
实验室组织以“frontier in AI&DB”为主题的优秀毕业生分享活动
2018年12月22日,WAMDM实验室举办了
以“frontier in AI&DB”为主题的毕业生分享
活动,本次会议邀请了WAMDM实验室往届的优
秀毕业生返回中国人民大学,与实验室及相关
人员进行学术交流,报告内容聚焦AI&DB。
由深度学习驱动的新一代人工智能变革给
传统计算系统带来巨大冲击,机器学习和数据
库作为两种截然不同的技术呈现出不断结合的
趋势。一方面,机器学习系统应当从传统数据库
研究中获取新灵感,实现机器学习算法的易用性和可解释性;另一方面,结合机器学习进一步优化数据库管理系统,让机器学习与数据库技术互相结合促进优化显得更加重要。
特邀报告,王海勋,博士,2000年获得美国加州大学洛杉矶分校(UCLA)计算机博士学位,是国际数据库领域一流学者,美国沃尔玛电子商务部人工智能实验室资深数据专家,高级技术工程师。报告主要内容北美最大的电子商务网站之一的walmart上提出解决搜索问题的挑战。特别是,将介绍产品搜索的挑战,以及我们在查询理解和可视化搜索方面的最新进展。
AI&DB实践报告,谢敏(2009实验室硕士毕业),陈继东(2007实验室博士毕业),王仲远(2010实验室硕士毕业),朱金清(2009实验室硕士毕业)等优秀往届毕业生依次,AI for E-commerce Search,“从刷脸支付到数字身份探索” - 人工智能算法商业化的思考和实践,知识图谱及其落地应用,大数据+智慧交通应用等题目的精彩报告,实验室人员受益匪浅,最后孟老师结尾送给大家一点对未来的看法,希望大家再超前一步:万物互联的时代已经来临,当下的技术还停留在互联网上,多是以织网为主,万物互联时代织网终将不成问题,人们需要的是剪网(借用丰子恺的《剪网》一文“所以我想找一把快剪刀,把这个网尽行剪破,然后来认识这世界的真相”)。谁能找到这把快剪刀,谁就能制胜未来!