大数据计算

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

李建中:大数据计算基本概念研究问题及部分解

作者:机房360出处:论坛2012-11-30 22:14

2012.11.30Hadoop与大数据技术大会(下午)

2012.11.30Hadoop与大数据技术大会(下午)

主持人:各位领导各位来宾下午好!欢迎大家参加Hadoop与大数据技术大会。我是本次大会的程序委员会主席之一,CSDN程序员杂志的主编刘江。首先我介绍一下这次大会是由中国计算机学会主办的、CCF专业委员会承办的大会。除了今天的全体会议之外,明天还有四个分论坛,希望大家不要错过。我们还有官方微博,如果有相关大方的发布信息可以从这里获取。另外微博评论注意加HBTC四个字母。

今天下午有来自各机构、公司的专家来分享技术。首先有请中国计算机学会大数据专家委员会副主席哈尔滨工业大学教授李建中老师为我们演讲,《大数据计算基本概念研究问题和部分解》。

李建中:非常高兴有机会和大家交流一下对大数据的理解。HIT是哈尔滨工业大学的缩写,所以我的理解可能和工业界有一点点的不同,请看一下我们学院式的对大数据的研究有什么样的看法。我讲三个问题:

第一,大数据的基本概念。

第二,大数据计算机其挑战。

第三,研究问题与部分解。

第一,大数据的基本概念。什么是大数据,实际上我的报告讲了很多了,为什么叫做描述?因为大数据实际上是结合了不可定义的概念,大是相对的,是相对目前的及拴系统计算能力来说的,今天的大数据明天就不是大数据,大数据有的人说三个V,有的人说四个V,V我也不详细说了。所以说,大数据存在已久。有一个会议叫SSDB是1983年创建的一个会议,这里面的论文就是在研究大数据,这个会议到现在已经有29年的历史了,现在为什么谈起来大数据呢?因为个时候大数据还没有那么普遍,涉及的领域很少,参加这方面研究的人也很有限,所以跟现在不同。现在的大数据和当时研究的不同主要有两点。

李建中CCF大数据专家委员会副主任哈工大教授

第一,大数据达到了无处不在的程度。因特网有很多的大数据,在科学研究领域、医疗领域、商业领域、制造业、智慧城市都有大量的数据。全世界的感知数据增长率是每年58%,全世界拥有的存储能力或者是存储总量的增长率是每年只有40%。到2007年是一个里程碑,到2007年全世界的感知数据已经超过了全世界所拥有的存储器的容量。到2010年的时候,全世界的感知数据是1.25千万PB,2011年产生的感知数据已经二倍于我们人类所拥有的存储器的容量。所以,我们可以得到这样的结论,大数据几乎无处不在,数据量远远超出了现有的存储能力。

第二,大数据计算及其挑战。

大数据的输入是大数据D,问题的解是f(D)。我们通常讲的时候总是讲查询、挖掘、分析,实际上已经远远地超出了这个范围。大数据是一个多学科大范围的研究领域,涉及到很多的学科。比如说在生物学、宇航学等各种领域里面都有它非常复杂的大数据的计算问题,但我们没有考虑到。大数据计算问题的空间有多大?可以把在大数据方面的活动区分成这样五个方面,一个是大数据的获取、一个是大数据的传输、一个是大数据的存储、一个是大数据的质量管理。最终,要支持大数据的问题求解。所有的五个阶段里面的问题集中起来,称之为大数据计算问题的空间。我们把求解这个空间里面的每一个问题的过程叫做大数据计算。对每个问题要研究什么呢?要研究它的可计算性、计算复杂性和求解算法。现在我们面临的挑战是四个方面。

第一,如何把现有的计算理论、现有的算法、设计方法和现有的计算系统scale to up。第二,usability的问题。如果大数据里面充满了错误,我们计算在好也不会得出正确的结论。第三,privacy的问题,如何在最大化确保privacy。第四,交叉学科的问题,如何实现多学科交叉,面临和解决大数据的领域问题,各个学科里面的大数据由于专业不同又没有能力处理这样大的数据,如何把多个学科交叉起来,然后来解决问题。所以我们面临的挑战是四个挑战。实际上大对计算的影响力是非常大的。我们在中型计算机上和64个节点的集群上做了两组实验,就在数据库里面的算法和数据苦里面的算法进行了计算。我们是用了1T到10T 的数据,这样的执行时间是从68个小时到89个小时。所以,大数据项我们提出了很多的挑战,同时现有的方法和技术已经不能有效的支持大数据计算了。

第三,研究问题与部分解。

现在考虑两个基础方面的、共性的研究问题。第一个问题是大数据的计算复杂性问题。大数据的计算复杂性测度,除了时间复杂性以外还要考虑能量复杂性。云计算出来之后或者是集群技术出来之后,能量测度复杂性非常高,我们学校集群的电费就是1000多万,所以能量的问题我们不得不考虑。这样,就要在这两个测度下来考虑。时间复杂性的问题上要充分考虑问题的复杂性分类。传统的复杂性理论是把问题分成P类和NP类。现在在P类问题里,数据量输入非常大的时候,N方算法就已经不合适了。甚至N算法都不合适了。在传统的理论里,我们认为多项式算法是可以接受的。的数据的前提下不一定合适,大数据问题的难解性的标准是什么可以重新考虑。第二是数据难解问题的判断性问题,这通常是用了一个归结的方法。假定线性和亚线性是我们能容忍的算法,现在考虑用归的办法来判定一个问题是不是难解的,我们用归就需要来解决多项线性和亚线性归的问题,这个做起来很困难,如果这条路走不通就需要探索新的路。

很多难解的问题怎么办?我们就想做算法,每个问题的复杂性我们要知道是不是难解的,这是需要解决的问题,同时难解之后我们要判定是不是有线性或者是亚线性的算法,是不是可近似性的。

对能量复杂性来说,我们首先要研究能量复杂性的模型,看看能量是怎么样来消耗能量,然后我们来研究和时间复杂性相似的问题,这是最基本的基础理论问题,现在我们正在做这方面的工作。另外一个问题是大数据的计算的算法设计的新方法,我们需要有新的思维,不然的话是很难取得突破性的进展的。现在各个企业和厂家都在宣布说我有什么什么工具,你有什么什么工具。但试想一下如果一个大数据问题到你那算的话都是N的平方算法的话是很难解决的。算法都没有解决工具何以生成?所以算法是我们面临的很大的问题。

现在多项式算法如果指数太多的话,是平方级以上对P数量级或者是E数量级的数据就不可能计算了,所以现在要有新的理念,要追求线性和亚线性计算的算法,这里面是n,logn、loglogn的算法了。排序问题有没有这样的算法?对基于比较的排序来说,nlogn也是没有算法的,但像基数排序的不依赖于比较的是有线性算法的,让它具有更一般性适合大数据的处理有很多的问题,很多的问题如果不具有线性和亚线性算法的时候,我们要考虑设计的新方法了。我们首先叫做doing more with less,我能不能用一部分的数据来解决整个数

相关文档
最新文档