社交网络基础与数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
东南大学
seminar课程简介
课程名称社交网络基础与数据分析
任课教师汪鹏工作单位计算机学院职称副教授
联系电话Email
任课教师教学科研简介:
汪鹏,计算机科学与工程学院/软件学院教师,副教授,微软学者奖获得者,长期从事语义Web、信息检索、数据集成和社交网络等方面的工作。
目前主持国家自然科学基金项目1项,并曾参与多项国家自然科学基金项目和国家杰出青年科学基金项目。近年来担任多个重要国际会议的程序委员和审稿人。已在国内外重要学术期刊和会议上发表学术论文80多篇,被SCI收录10次、EI收录60余次、ISTP收录40余次,研究工作已被国外学者引用400余次。
课程简介(含对学生基础的要求等,特别注明拟上课所在校区):
社交网络研究是专注于人类社交关系和行为的科学问题,其成果广泛应用于万维网、社会学、复杂网络、市场经济、生物信息学等众多领域。社交网络研究是一个典型的跨学科研究领域,吸引着大量来自计算机科学、社会科学、经济学、物理学等不同学科背景研究者。过去十余年以来,随着Facebook、Twitter、新浪微博等社交网站的兴起,产生了海量的社交网络数据,其中蕴含着当今人类社会组成结构、社区形成、社会演化、经济和政治活动等方面的丰富信息,因此社交网络数据具有重要的实用价值,发现和揭示海量社交网络数据中所蕴含深层规律是近年来学术界的一个研究热点。
《社交网络基础与数据分析》课程旨在引导学生学习和探讨社交网络的基础理论、网络结构、社区形成、信息传播、社交数据爬取、社交数据分析和挖掘方法等相关问题,全面剖析社交网络研究热点,培养学生前沿文献阅读、研究问题剖析、学术报告和研讨等基础科研能力,并引导有志于研究的学生解决具体科研问题。
本课程面向全校学生,特别欢迎计算机/软件学院、吴健雄学院、信息学院等对社交网络感兴趣学生,特别适合有未来科研深造计划的学生。学生最好有扎实的英文文献阅读、PPT组织和写作、数学、程序设计和算法基础。预计学生人数为10-16人为宜,拟在九龙湖校区上课。
教学设计方案:
一、授课学时安排
《社交网络基础与数据分析》授课学时共计48学时,其中,8学时为课堂讲授、24学时为课堂讨论、16学时为课外学习(用于学生阅读文献和准备课堂报告)。每周1次课,每次课为3学时,共计16周。
二、授课材料
《社交网络基础与数据分析》授课材料包括权威学术专著和前沿学术文献两部分:
学术专著2本,其中[1]的作者为康奈尔大学两位享誉世界的教授,是社交网络研究的经典读物,[2]的作者为亚利桑那州立大学的三位数据挖掘著名教授,是社交网络数据分析的入门读物。
[1] David Easly and Jon Kleinberg. Networks, Crowds, and Markets: Reasoning About a Highly Connected World. Cambridge University Press, 2010.
[2] Shamanth Kumar, Fred Morstatter and Huan Liu. Twitter Data Analytics. Springer, 2013.
前沿学术文献主要由精心挑选的50余篇近5年内发表在顶级期刊(包括Science, Nature, IEEE TKDE等)和顶级会议(KDD, IJCAI, AAAI, WSDM, WWW等)的学术论文组成。
三、授课内容安排
授课内容包括课堂讲授、课堂讨论和课外准备三部分,具体安排如下。
第一部分课堂讲授
第1次课堂讲授社交网络基础(2学时):先介绍图论基础知识,然后讲解强联系和弱联系,深入分析三元闭包、弱联系的作用、结构洞和介数,最后学习正关系和负关系。讲授过程中引入具体的实例加深对社交网络基础理论知识点的把握。
第2次课堂讲授社交网络中的博弈和市场(2学时):讲解博弈论基础知识,包括博弈原理、纳什均衡、多重策略等,然后分析市场拍卖中的博弈问题,最后介绍市场中的匹配和议价模型。
第3次课堂讲授万维网和网络动力学(2学时):介绍链接分析,着重探讨Page Rank和HITS 两种基础的链接分析方法,然后结合博弈论介绍计算广告学中的VCG机制,最后介绍网络动力学的模型和结构,包括信息级联、幂率、小世界模型等。
第4次课堂讲授社交网络数据分析(2学时):以Twitter数据为例,介绍社交网络数据的爬取、清洗(实体消解)、存储、网络分析(中心度、主题分析、情感分析、链接预测)和社交网络数据的可视化。最后介绍研究小组在社交网络相关问题上取得的研究成果。
第二部分课堂讨论
课堂讨论围绕特定的主题,共计8次,每次为3个学时。讨论过程为:首先个人或小组针对特定主题进行报告,报告进行中学生可以随时提问,报告者尝试回答问题,最后老师对讨论结果进行归纳、补充和答疑。讨论过程以学生为主体,老师控制讨论进程,引导讨论方向,提出深入的思考问题,特别是在发现有价值的待解决问题时需要激发学生深入挖掘的潜力,达到在讨论过程中引导学生分析甚至解决具体的科研问题。
第1次课堂讨论弱联系理论及应用(课堂3学时、课外2学时):阅读弱联系的经典论文,以及弱联系近年来在社交网络研究中的具体应用,讨论弱联系的理论背景,尝试深入探讨并解释为什么弱联系在社交网络中很重要。
第2次课堂讨论结构洞理论及应用(课堂3学时、课外2学时):阅读结构洞的经典论文,结合近年来关于结构洞应用的顶级论文,探讨结构洞的确定方法,结构洞对特定应用的影响度量,尝试深入讨论结构洞产生的原因。
第3次课堂讨论博弈论及在社交网络中的应用(课堂3学时、课外2学时):阅读社交网络中的博弈经典论文,并结合近年来博弈论和社交网络结合取得的代表性研究成果,讨论博弈和社交活动的关系,博士对社交网络演化的影响,分析博弈论可能给某些社交网络研究问题是否可能带来新的解决思路。
第4次课堂讨论网络链接分析和计算广告学(课堂3学时、课外2学时):深入学习Page Rank 和HITS算法原理,阅读对这两种链接分析方法的优缺点分析以及以其为基础的改进方法,理解大规模网络中链接分析的高效实现算法;深入学习计算广告学中的VCG机制及其各种改进方法。
第5次课堂讨论网络动力学探讨(课堂3学时、课外2学时):阅读关于幂率、长尾现象和小世界模型经典论文,探讨网络结构的宏观规律。学习对一个大规模的社交网络,如何有效确定它的动力学模型参数。
第6次课堂讨论社交网络数据分析——基础和应用(课堂3学时、课外2学时):了解社交网站数据的获取方法和存储手段。通过近年的研究论文,探讨能从社交网络数据中分析出的信息,并以总统选举预测等应用来总结社交网络背后蕴含的重要信息。
第7次课堂讨论社交网络数据分析——链接预测和实体消解(课堂3学时、课外2学时):阅读关于链接预测和实体消解的经典文献,前者是社交网络数据的重要研究问题,具有广泛的应用场景,后者则是社交网络数据清洗的重要步骤。
第8次课堂讨论课程论文点评和交流(课堂3学时、课外2学时):授课老师对各小组的课程论文进行点评,指出优点和不足,特别是要引导学生进一步深入解决具体问题,实现从研讨到解决科研问题并发表科研成果的目的。
第三部分课外准备
修课学生共10-16人左右,分成3-4个组,每组3-4人,自行组合。每个小组至少要做两次报告。小组成员共同阅读文献,在小组讨论基础上完成报告PPT,并为一些可能的问题进行准备。每次报告的基础文献控制在3-5篇,但授课老师应引导学生在这些文献基础上深入学习,通过搜索引擎和参考文献加上对该问题的理解,确保报告内容充分准备。
对于在学习中发现有价值科研问题的学生,授课老师提供比较的科研环境和进一步的深入指导,使得学生能在某些问题上进行创新性研究,最终发表学术论文。
教师在课外每周安排单独讨论时间,接受修课学生的咨询、质疑,弥补课堂上因时间紧迫而无法提出和解答的问题;此外,如有特殊需要,还可以另约时间作充分的讨论。