国际数据挖掘与知识发现大会
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由 ACM 数据挖掘及知识发现专委会负责协调筹 评审。主会期间,除了学术研究论文,SIGKDD 还
办。会议内容涵盖数据挖掘的基础理论、算法和实 设有面向工业和政府应用的专题研讨会以及工业应
际应用。SIGKDD 的发展历史可以追溯到 1989 年 用博览的邀请报告会。此次大会的主题是“大数据
开始组织的一系列关于知识发现及数据挖掘的研讨 挖掘”,邀请了相关领域的知名专家作大会主旨报
2013 年 8 月 11~14 日,第 19 届知识发现与数 瑟鲁萨米 (Ramasamy Uthurusamy) 博士和芝加哥大
据挖掘大会 (ACM Conference on Knowledge Discov- 学的罗伯特·格洛斯曼 (Robert L. Grossman) 教授, ery and Data Mining, SIGKDD 2013 [1]) 在美国芝加哥 程序委员会主席由来自德克萨斯奥斯丁大学的因德
论大数据,分别关注大数据分析框架和大数
据分析算法。
在 大 数 据 分 析 框 架 的 研 讨 会 中, 来 自
伯克利大学的论文提出结合中央处理器、图
形处理器以及全新的算法设计来提高大数
据挖掘能力。基于名为“BID”的大数据处
图2 SIGKDD 2013研究热点图
理引擎开发了用于矩阵计算的 BIDMat 工
社交网络分析依然是今年 SIGKDD 大会上最热 生注册,他的愿望是给世界上的每个人提供高质量、
的话题,有 4 个直接相关的研讨会,15 篇口头报告 免费的在线课程。在主题报告中,吴恩达介绍了
论文,20 多篇海报论文。总的来说,社交网络分析 Coursera 最新的在线授课平台,包括视频内容、互
的任务变得更加细化,其中 3 个最热的话题是 :网 动练习、实时反馈、自动改作业和小组改作业以及
63
动态
第 9 卷 第 10 期 2013 年 10 月
具包和用于机器学习的 BIDMath。论文以聚类和分 年比较有意思的一篇文章是讨论信息传播对网络结
类算法为例,证明了这种新设计可以将单台 PC 机 构演化的影响,另外也有文章讨论网络用户在传播
处理数据的速度提高数十倍。来自康奈尔大学的论 信息时的可信度问题。
史 蒂 芬· 赖 特 在 优 化 理 论、 优 化 算 法、 优 化
的用户行为建模,还有的探讨网络用户群体智能的 软件和应用方面发表了大量专著。他编写的软件被
产生过程。在用户影响力方面,几篇有意思的文章 广泛地应用于线性优化和多项式优化以及压缩感知
分别探讨了网络用户行为的隐含影响力学习问题, 中。赖特的主题报告是关于学习和数据分析的优化,
投稿量 6.68% 5.72% 3.92% 3.61% 3.24% 2.72% 2.52% 2.42% 2.17% 1.97% 1.87% 1.86% 1.72% 1.47%
录用率 21.85% 13.35% 8.45% 20.27% 17.07% 25.66% 24.50% 29.43% 6.67% 26.72% 27.46% 8.95% 33.83% 4.79%
学者,影响力越来越大。
研究论文及热点
SIGKDD 2013 是自 SIGKDD 2005 后,第二次
来到芝加哥。大会主会为期 3 天,会前还有 1 天专
本次大会收到来自 50 多个国家的 726 篇论文投
题研讨会和报告会。大会从 2012 年起增加了暑期 稿,每篇文章由至少 3 名审稿人评审,随后由相应
络用户行为建模、用户影响力以及网络信息传播。 丰富的课组间互动。目前,Coursera 拥有 62 个大学
在用户行为建模和分析方面,有的论文单独探 伙伴、300 万注册学生和 300 个课程,课程横跨计
讨用户分享行为可信度验证的问题,有的开始探讨 算机、商业、医学、科学、人文和社会科学。
如何将不同社交网络网站的用户集成起来进行统一
算引擎 :TurboGraph。相比传统的图计算引擎(如 据库管理系统》一书曾被广泛地应用于数据库系统和
GraphChi),TurboGraph 有效地提高了输入输出的 数据挖掘相关的研究项目中。在其主题报告中,拉
并发性。论文还提出一个名为 pin-and-slide 的并行 胡·罗摩克里希纳指出当前迫切的挑战是如何提供一
成 22 种语言。主题报告中,瓦里提出了现实预测 赛。最终两个专题的冠军皆被台湾大学的林智仁教
(nowcasting) 的概念,其核心思想是用搜索引擎数据 授、林守德教授和林轩田教授带领的团队获得。
对现实进行预测。他列举了一些从谷歌的搜索引擎
除了最佳论文外,SIGKDD 每年还会从毕业
数据中发现的有趣现象,譬如在结婚前男生和女生 的博士生中评选出最佳博士论文,今年的最佳博士
动态
第 9 卷 第 10 期 2013 年 10 月
国际会议
国际数据挖掘与知识发现大会
关键词 :数据挖掘 大数据分析 社会网络分析
唐 杰1 丁 颖2 庄弘磊3 1清华大学 2美国印第安纳大学 3美国伊利诺伊大学香槟分校
会议概况
仅有两次在巴黎 (2009)、一次在北京 (2012)。本届 大会主席是前通用汽车高级研究经理拉马萨米·尤
(9.1%)、论文张贴报告 59 篇。图 1 给出了自 2001 年以来每届 SIGKDD 接收的论文投稿数和最终录用 的论文数的对比。
800
700
投稿论文
600
录用论文
500
400
300
200
100
0 KDD'01 KDD'03 KDD'05
KDD'07
KDD'09 KDD'11 KDD'13
图1 十年间论文投稿和接收情况比较
学校,今年的暑期学校名为“大数据训练营”(big 领域的高级程序委员协调讨论并推荐,最后由程序
data camp)。会议自举办以来主要在美国本土举行, 委员会主席决定是否接收。大会最终录用论文 125
62
第 9 卷 第 10 期 2013 年 10 月
篇( 录 用 率 约 17.2%), 其 中 大 会 报 告 论 文 66 篇 表1 SIGKDD 2013各个研究方向投稿量和录用情况
各个方向上的录用率。从中可以看出“大数据”和“用 other (其他)
1.39%
6.72%
户模型”成为论文最容易被录取的研究方向,而“特
征选取”和“信息选取”成为论文最难录取的方向。 上发布了报告。毫无疑问,大数据挖掘和社交网络
SIGKDD 还吸引了工业界的广泛关注,参会单 分析已经成为各大公司关注的焦点。
召开。大会吸引了来自全球 50 多个国家的 1200 多 里特·迪伦 (Inderjit S. Dhillon) 教授和谷歌公司的
人参加,打破了历届大会的参会人数纪录。
耶和达·科伦 (Yehuda Koren) 博士担任,另外有 50
SIGKDD [2] 是数据挖掘领域的顶级国际会议, 名高级程序委员会委员和 300 名程序委员负责论文
执行模式,从引擎底层实现了大规模图的并发分析。 个宏观框架去支持大规模数据的统一存储和流程化分
在大数据分析算法研讨会中,有 4 篇论文着重探讨 析。由于 MapReduce 不能很好地支持循环计算,特
了如何对现有算法进行改进从而应对大规模数据带 别是在图分析和机器学习中,他提出 Reef 作为资源
来的挑战,其中一个思路是如何在有限内存中实现 管理器的上层运行环境,并提供项目检测,数据移动
主题
social and information networks (社会网络和信息网络) graph mining (图挖掘) clustering (聚类) classification (分类) Web mining (网络挖掘) recommender systems (推荐系统) probabilistic methods (概率模型) big data - scalable methods (大数据—可扩展方法) information extraction (信息抽取) supervised learning (有监督学习) unsupervised learning (无监督学习) security and privacy (安全和隐私保护) user modeling (用户模型) feature selection (特征选取)
传统挖掘算法在大数据上的计算和学习。另外还有 和交流以及分布状态管理。他还列举了一些 Reef 在
两篇文章则对传统的矩阵分解方法进行扩展,使其 图处理和机器学习上的一些最新应用。
能够处理大规模异构网络。
吴恩达创建了著名的大规模开放在线课程
社交网络分析
(MOOC) 公 司 Coursera。 从 2011 年 至 今, 他 在 MOOC 平台上的机器学习课程已经吸引了十多万学
社会影响力中的从众现象,流数据中的影响力学习。 其浅入深地讲述了将挖掘问题形式化为优化问题的
还有一些工作开始将社会影响力应用到其他数据挖 基本思路,并介绍了响应的求解算法。赖特还介绍
掘问题中,如利用社会影响力提高聚类精度和利用 了异步并行优化算法,使得优化算法能够适用于当
影响力分析方法做话题发现。在信息传播方面,今 今的大数据分析。
在研究热点方面,以社交网络和信息网络为中 心的大数据分析成为热点,图挖掘、推荐系统、用 户行为分析也吸引了很多投稿。共有 5 个分会场专 题讨论社交网络和图挖掘。此外,值得关注的是, 可扩展的计算方法 (scalable methods) 变得越来越重 要,有两个分会场专门讨论针对大规模数据的分析 方法。图 2 给出了基于所有被录用论文投稿时选择 的关键词来生成的研究热点图。表 1 给出了不同研 究方向投稿数量在整个大会投稿中所占的比例以及
率模型的推断计算过程。论文分别分析了 Top-K 推 与学术界均有重要影响的专家作大会主题报告。
断、Fixed Beam 推断以及 Adaptive 推断的实际效果。
拉胡·罗摩克里希纳是微软云信息服务实验室主
来自韩国浦项科技大学的文章则提出一个并行图计 任,曾任美国威斯康星大学麦迪逊分校教授,他的《数
会 KDD (Knowledge Discovery and Data Mining)。自 告,包括微软的技术院士拉胡·罗摩克里希纳 (Ra-
1995 年以来,KDD 以大会的形式连续举办了 18 届, ghu Ramakrishnan)、在线教育系统 Coursera 的创始
论文的投稿量和参会人数呈现逐年增加的趋势。由 人、斯坦福大学的吴恩达教授、威斯康辛大学的史
文则探讨了如何应对大数据上的复杂分析问题,试
图将大数据上的复杂分析任务分解为一系列的简 主题报告
单任务。论文提出一个概率管道模型 (probabilistic
pipeline model),该模型能够将复杂的概率推断问题
本届大会共邀请了拉胡·罗摩克里希纳、吴恩
分解为多个简单的概率计算过程,有效地提高了概 达、史蒂芬·赖特以及哈尔·瓦里安 4 位在产业界
位不仅涵盖了几乎所有的大型 IT 公司,还包括很多
传统行业的企业 :谷歌、脸谱、雅虎、微软、IBM、 大数据挖掘
推特、甲骨文、易趣、通用电器、迪斯尼研究中心、
今年 SIGKDD 大会上,大数据挖掘是一个重头
福特汽车、美国军事学院等企业和机构均在研讨会 戏,在 66 篇口头报告中专门安排了两个研讨会讨
64
第 9 卷 第 10 期 2013 年 10 月
哈尔·瓦里安发表了大量论文来探讨经济学 CUP) 由微软的学术搜索系统提供数据集,共开设
理论、工业管理、金融经济和信息经济方面的基础 两个专题,任务分别是识别作者与论文的对应关系、
理论和模型。他的两本经济学教科书已经被翻译 作者的名字消歧,分别吸引了 561 和 241 支队伍参
搜索送给对方礼物的频率几乎一样,但在结婚后女 论文奖第一名由伊利诺伊大学香槟分校的孙毅州
生的搜索频率就显著低于男生的搜索频率。他展示 (Yizhou Sun,音译)博士获得,其题目是“异构信
于 KDD 的学科交叉性和广泛应用性,大会吸引了 蒂芬·赖特 (Stephen J. Wright) 教授以及谷歌公司首
来自统计、社会网络分析、机器学习、大数据挖掘、 席经济学家、加州伯克利大学的哈尔·瓦里安 (Hal
数据库、万维网、生物信息学、多媒体、自然语言 Varian) 教授。
处理、人机交互及高性能计算等众多领域的专家、