如何阅读一篇科研论文-以Spark作者的论文为例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何阅读与写作一篇科研论文-以Spark作者两篇经典论文1为例
——剖析英文论文阅读与写作
陈敏刚博士副研究员2016年6月13日
1.第一遍阅读题目、摘要、引言和结论
第一步是:快速浏览整篇论文,对其有个大概的了解。你也可以自己决定是否需要进一步阅读。这一步大概需要五到十分钟,有下面几个小节组成:
1)认真阅读题目、摘要、引言。
2)阅读标题和段落开头,除此之外一概不看。
3)瞥一眼数学部分(如果有的话),以确定其基本理论概况。
4)阅读结论部分。
5)瞥一眼引用,找一下是否有你读过的论文。
1.1题目:Spark:Cluster Computing with Working Sets
1.2 摘要
【实例分析】
This paper focuses on one such class of applications: those that reuse a working set of data across multiple parallel operations.
We propose a new framework called Spark that supports these applications while retaining the scalability and fault tolerance of MapReduce.
【英文写作】
1Spark:Cluster Computing with Working Sets,2010
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, 2012.
1.3 引言
问题所在
——论文首先分析了现有分布式计算系统(如MapReduce 、Dryad )的两个问题,即应对迭代式作业(机器学习算法)、交互式分析(SQL 查询)时导致效率损失。
本文贡献(本文主要工作)——提出并实现了弹性分布式数据集(RDD )、RDD 基于Lineage (血缘)的容错,基于Scala 解释器修改的交互式操作接口等。
This paper presents a new cluster computing framework called Spark, which supports applications with working sets while providing similar scalability and fault tolerance properties to MapReduce.
The main abstraction in Spark is that of a resilient distributed dataset (RDD), which represents a read-only collection of objects partitioned across a set of machines that can be rebuilt if a partition is lost.
1.4 结论(讨论和将来工作)
主要论点与主要工作:Spark provides three simple data abstractions for programming clusters: resilient distributed datasets (RDDs), and two restricted types of shared variables: broadcast variables and accumulators.
We have presented resilient distributed datasets (RDDs), a distributed memory abstraction for data-parallel applications on commodity clusters.
进一步研究方向:In future work, we plan to focus on four areas:
【英文写作】
顺带提一下,当你写一篇论文时,你可以设想大部分的审稿人(或读者)只
对你的论文使用第一步。小心地选择标题和子段落开头部分,摘要应该精确而且易理解。如果一个审稿人在第一步过后还不能理解你论文的主旨,那么很可能你的论文就不过关了。如果一个读者在五分钟内不能理解论文的突出部分,那么很可能以后这篇论文再也不会被捡起。正是由于这些原因,用一个“图示摘要”及一个精心选择的图形总结一篇论文是很棒的想法,以后会在科学杂志中越来越多。
2.第二遍仔细阅读论文核心内容
在第二遍中,要仔细阅读论文,但是诸如证明等信息要忽略掉。在阅读时你应该草记下重点,或者在论文空白处写点标注。尤其要仔细阅读文章中的图、表格和插图、例证。
第二遍对于有经验的读者来说,应该需要一小时左右的时间。经过以上步骤,你应该就了解了论文的整体内容。此时你应该能把论文的主要思想和相关论据讲给其他人听了。对于你感兴趣的论文,读到这个程度就可以了,但是对于那些在你研究领域内的论文来时,还远远不够。
2.2编程模型(Programming Model)
论文在编程模型部分描述了(1)数据抽象RDD,及创建RDD的四种方法;(2)RDD的操作;(3)两类共享变量,即广播变量及累加器。
2.3示例(Examples)
论文以文本搜索(交互查询)、Logistic回归(分类的机器学习算法,迭代优化)、交替最小二乘算法(基于协同过滤的推荐算法)。
2.4 实现(Implementation)
论文在实现部分,概要的描述了RDD对象接口的操作,RDD利用Lineage 容错,共享变量及Scala解释器的集成。
2.5 结果(Result)
论文在结果部分讨论了Logistic回归、交替最小二乘算法、文本搜索三个应用与Hadoop系统运行效率的比较,同时分析了其在迭代计算上的优势。
2.6相关工作(Related Work)
论文简述了分布式共享内存、集群计算框架、语言集成和数据溯源(Lineage)等相关技术,并说明了Spark的实现方法。
【英文写作】