陈国良-哈工程-大数据计算理论基础-精简版[2014-10]资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2ห้องสมุดไป่ตู้
目 录
1. 计算理论与计算复杂性
(1) 可计算性与计算复杂性 (2) 计算复杂类 (3) 复杂类关系
2.
大数据可计算性
(1) 可(能)解与不可(用)解 (2) 大数据可(能)解与不可(用)解问题
3.
大数据可计算原理
(1) 大数据统一化抽象表示:度量空间 (2) 大数据的划分
(3) 大数据NC-类计算 (4) 大数据计算模式 4. 结论
NC-算法:在PRAM模型上,一个求解问题的算法使用了多项式数目的处理器,花 费了对数多项式时间,则称此算法为NC-算法。 NC-归约:对于问题L1和L2,如果存在一个NC-算法,可将L1的求解转换成L2的求 解,则称L1可NC-归约到L2,简记为L1 ≤NC L2。 P完全(PC)问题:对于L∈P,且P中的任意L’均可NC-归约到L,则称L是P完全 的。
8

(2) 大数据可(能)解与不可(用)解问题
• •


3、大数据可计算原理
(1) 大数据统一化抽象表示:度量空间
• • 距离和度量:在数学上,度量空间是一个集合,集合中的元 素之间的距离(Distance)叫做度量(Metric)。 度量与度量空间: 设X为非空集合,d: X × X → R,(x, y) → d(x, y)为映射,如果∀x,y,z∈X满 足:
(1) 大数据处理应对策略 (2) 变革思维研究大数据
3
1、计算理论与计算复杂性
(1) 可计算性与计算复杂性
• 可计算性:对于一个问题,如果存在一个机械过程,对给定的输入,能 够在有限步内给出结果,则称此问题是可计算的。所谓机械的过程,系 指在描述计算的某种设备上(例如图灵机上),实施该计算过程,而给 出计算结果。 • • 计算复杂性:用数学方法研究各类问题计算的复杂性质。也可理解为利 用计算机求解问题的难易程度。通常用时空复杂性度量。 图灵计算模型:图灵机就是对一条两端可无限延长的纸带上的0和1执行 读写操作,一步一步地改变纸带上的0或1值,经过有限步骤最终得到一 个满足预先要求的符号串变换。 图灵可计算性:图灵的研究成果认为“可计算性 = 图灵可计算性”,即

任何在图灵机上可求解的问题都是可计算的!
4
1、计算理论与计算复杂性
(2) 计算复杂类
• • • • P类问题:在确定图灵机上多项式(Polynomial)时间内可求解的一类问题。 NP类问题:在非确定图灵机上多项式时间内可求解的一类问题(所有NP问题均必 须在有限步内是可判定的)。 NPC问题:对于L∈NP的问题,且NP类中的每一个L’均可在多项式时间内归约 (转换)到L,L’≤P L,则称L为NPC(NP完全)的(第一个被证明是NPC问题的 是布尔满足性问题:Boolean Satisfiability Problem,SAT)。 NPH(难)问题:一个问题H称为NP难的,当且仅当存在着一个NPC问题L,L可 在多项式时间内图灵归约(Turing-Reduction)到H。简记之为:L(NPC) ≤T H(NPH)。
NPH NP NPC P NP P NPC
当P≠NP时,NPH问题 不能在多项式时间内求解。
当P≠NP时,NPC问题 不能在多项式时间内求解。
5
1、计算理论与计算复杂性

• • •
NC-类问题:在PRAM模型上,使用多项式数目(Polynomial size)的处理器,运 行在对数多项式时间(Polylog time)内的一类问题。
大数据计算理论基础
Computing Theory Foundations of Big Data
陈国良,毛睿,陆克中 深圳大学计算机与软件学院
2014年10月
Version 1: 06/2014 ... Version 4: 10/2014
摘要: 大数据是当前 IT 信息技术研究和应用的热 点。但是,目前的研究多集中于系统和应用层面, 理论基础方面的探讨相对较少。本文以计算复杂性 理论为基础,着重研究大数据的可计算性及其可计 算原理:主要包括大数据的可解与不可解问题;大 数据统一化抽象表示;大数据划分技术;大数据 NC 类计算理论;大数据计算模式等。最后,根据 大数据的 4V 特性,提出大数据处理应对策略和变 革思维方法研究大数据。
EXPSPACE EXPTIME PSPACE
NP
P NC
7
2、大数据可计算性
(1) 可(能)解(Tractable)与不可(用)解(Intractable)
• • 可(能)解(Tractable: meaning “easily managed” )问题:经典定义是在多项式时 间内可以解决的问题。 不可(用)解(Intractable)问题:系指理论上能够解(在无限制时间内,have no limits),但实际上求解时间太长而无法用的问题。因此缺乏多项式时间解的问题 被视为不可(用)解的问题。 完全问题不可解性:在P≠NP时,NPC问题是不可(用)解的问题;在P≠NC时, PC问题是不可(用)解的问题。 在大数据时有些问题是可(能)解的,例如布尔选择查询;但很多问题是不可 (能)解的,例如图的宽度优先搜索[2] (是P完全的)。 在大数据时,传统的可(能)解问题,可能成为不可(用)解问题:例如采用速 度可达6Gbps的快速硬盘,线性扫描1EB(E=1018字节)的数据,这本是线性复杂 度的可(能)解问题,但实际需要长达5.28年时间,这就变成了不可(用)解问题 了。 大数据查询类可(能)解问题(Wenfei Fan) 对于数据库D中的查询Q,如果存在着一个多项式时间PTIME的预处理函数Π,使 得D’= Π(D),即将D分解成多项式数目个D’,在对数多项式时间(Polylogarithmic Time)内可完成对D’的并行查询,这就是所谓的大数据查询类的可(能)解问题。 在大数据时,串行多项式时间的算法所需的时间太长而不实用,变成不可解的了; 但在并行NC类计算时,因计算时间是对数多项式的,所以在大数据时,NC类计算 仍是可解的。
P NC
PC
当P≠NC时,PC问题 不能在多项式时间内求解。
6
1、计算理论与计算复杂性
(3) 复杂类关系
• • 串行空间与并行时间关系 Sequential-PSPACE = Parallel-PTIME 复杂类包含关系 NC ⊆ P ⊆ NP ⊆ PSPACE ⊆ EXPTIME ⊆ EXPSPACE
相关文档
最新文档