如何阅读一篇科研论文-以Spark作者的论文为例

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何阅读与写作一篇科研论文-以Spark作者两篇经典论文1为例

——剖析英文论文阅读与写作

陈敏刚博士副研究员2016年6月13日

1.第一遍阅读题目、摘要、引言和结论

第一步是：快速浏览整篇论文，对其有个大概的了解。你也可以自己决定是否需要进一步阅读。这一步大概需要五到十分钟，有下面几个小节组成：

1)认真阅读题目、摘要、引言。

2)阅读标题和段落开头，除此之外一概不看。

3)瞥一眼数学部分（如果有的话），以确定其基本理论概况。

4)阅读结论部分。

5)瞥一眼引用，找一下是否有你读过的论文。

1.1题目：Spark：Cluster Computing with Working Sets

1.2 摘要

【实例分析】

This paper focuses on one such class of applications: those that reuse a working set of data across multiple parallel operations.

We propose a new framework called Spark that supports these applications while retaining the scalability and fault tolerance of MapReduce.

【英文写作】

1Spark：Cluster Computing with Working Sets，2010

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, 2012.

1.3 引言

问题所在

——论文首先分析了现有分布式计算系统（如MapReduce 、Dryad ）的两个问题，即应对迭代式作业（机器学习算法）、交互式分析（SQL 查询）时导致效率损失。

本文贡献（本文主要工作）——提出并实现了弹性分布式数据集（RDD ）、RDD 基于Lineage （血缘）的容错，基于Scala 解释器修改的交互式操作接口等。

This paper presents a new cluster computing framework called Spark, which supports applications with working sets while providing similar scalability and fault tolerance properties to MapReduce.

The main abstraction in Spark is that of a resilient distributed dataset (RDD), which represents a read-only collection of objects partitioned across a set of machines that can be rebuilt if a partition is lost.

1.4 结论（讨论和将来工作）

主要论点与主要工作：Spark provides three simple data abstractions for programming clusters: resilient distributed datasets (RDDs), and two restricted types of shared variables: broadcast variables and accumulators.

We have presented resilient distributed datasets (RDDs), a distributed memory abstraction for data-parallel applications on commodity clusters.

进一步研究方向：In future work, we plan to focus on four areas:

【英文写作】

顺带提一下，当你写一篇论文时，你可以设想大部分的审稿人（或读者）只

对你的论文使用第一步。小心地选择标题和子段落开头部分，摘要应该精确而且易理解。如果一个审稿人在第一步过后还不能理解你论文的主旨，那么很可能你的论文就不过关了。如果一个读者在五分钟内不能理解论文的突出部分，那么很可能以后这篇论文再也不会被捡起。正是由于这些原因，用一个“图示摘要”及一个精心选择的图形总结一篇论文是很棒的想法，以后会在科学杂志中越来越多。

2.第二遍仔细阅读论文核心内容

在第二遍中，要仔细阅读论文，但是诸如证明等信息要忽略掉。在阅读时你应该草记下重点，或者在论文空白处写点标注。尤其要仔细阅读文章中的图、表格和插图、例证。

第二遍对于有经验的读者来说，应该需要一小时左右的时间。经过以上步骤，你应该就了解了论文的整体内容。此时你应该能把论文的主要思想和相关论据讲给其他人听了。对于你感兴趣的论文，读到这个程度就可以了，但是对于那些在你研究领域内的论文来时，还远远不够。

2.2编程模型（Programming Model）

论文在编程模型部分描述了（1）数据抽象RDD，及创建RDD的四种方法；（2）RDD的操作；（3）两类共享变量，即广播变量及累加器。

2.3示例（Examples）

论文以文本搜索（交互查询）、Logistic回归（分类的机器学习算法，迭代优化）、交替最小二乘算法（基于协同过滤的推荐算法）。

2.4 实现（Implementation）

论文在实现部分，概要的描述了RDD对象接口的操作，RDD利用Lineage 容错，共享变量及Scala解释器的集成。

2.5 结果（Result）

论文在结果部分讨论了Logistic回归、交替最小二乘算法、文本搜索三个应用与Hadoop系统运行效率的比较，同时分析了其在迭代计算上的优势。

2.6相关工作（Related Work）

论文简述了分布式共享内存、集群计算框架、语言集成和数据溯源（Lineage）等相关技术，并说明了Spark的实现方法。

【英文写作】