DHT网络的搜索技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

节点ID和其存放的对中的K存在着映射关系节点和其存放的<K, V>对中的存在着映射关系，因此和其存放的对中的存在着映射关系，可以由K获得存放该获得存放该<K, V>对的节点对的节点ID 可以由获得存放该对的节点
路由(Routing) 路由
在重叠网上根据节点ID进行路由，在重叠网上根据节点进行路由，将查询消息最终发送进行路由到目的节点。每个节点需要有到其邻近节点的路由信息，到目的节点。每个节点需要有到其邻近节点的路由信息，包括节点ID、等包括节点、IP等
结构化P2P 结构化
网络拓扑结构是有规律的
每个节点都随机生成一个标识(ID) 每个节点都随机生成一个标识
内容的存储位置与网络拓扑相关
内容的存储位置与节点标识之间存在着映射关系
P2P网络分类网络分类
在结构化P2P网络中，内容一般使用内容索引网络中，在结构化网络中来表示,内容索引包括内容索引包括key和value两部分其中两部分,其中来表示内容索引包括和两部分 key是内容的关键字是内容的关键字,value是存放内容的实际是内容的关键字是存放内容的实际位置,因此内容索引也表示为因此内容索引也表示为<key, value>对位置因此内容索引也表示为对
网络拓扑
拓扑结构由节点ID和其存放的对中的K之间的映射拓扑结构由节点和其存放的<K, V>对中的之间的映射和其存放的对中的关系决定拓扑动态变化，需要处理节点加入/退出退出/失效的情况拓扑动态变化，需要处理节点加入退出失效的情况
在重叠网上节点始终由节点ID标识，并且根据进行路由在重叠网上节点始终由节点标识，并且根据ID进行路由标识
Hash函数应用于函数应用于P2P的特性函数应用于的特性
唯一性：不同的输入明文，唯一性：不同的输入明文，对应着不同的输出摘要
将节点IP地址的摘要作为节点，保证了节点ID 将节点地址的摘要作为节点ID，保证了节点地址的摘要作为节点在P2P环境下的唯一性环境下的唯一性
SHA-1(“202.38.64.1”) =24b92cb1d2b81a47472a93d06af3d85a42e463ea SHA-1(“202.38.64.2”) =e1d9b25dee874b0c51db4c4ba7c9ae2b766fbf27
Lookup(K54) K54
N56 N1 N8
N51 N48
N14
N42
N21
N38 N32
m=6
Chord：指针表：
指针表
N8+1 N14 N14 N14 N21 N32 N42 N8+2 N8+4 N8+8 N8+16 N8+32
N56
节点S的第个指针节点的第i个指针的第 successor[n+2^(i-1)], 1≤i≤m
Chord：节点退出/失效：节点退出失效
中某个结点M退出失效时，当Chord中某个结点退出失效时，所有在指针中某个结点退出/失效时表中包含该结点的结点将相应指针指向大于M结表中包含该结点的结点将相应指针指向大于结的第一个有效结点即节点M的后继节点点ID的第一个有效结点即节点的后继节点的第一个有效结点即节点为了保证节点M的退出的退出/失效不影响系统中正在进为了保证节点M的退出/失效不影响系统中正在进行的查询过程，每个Chord节点都维护一张包括节点都维护一张包括r 行的查询过程，每个节点都维护一张包括个最近后继节点的后继列表。个最近后继节点的后继列表。如果某个节点注意到它的后继节点失效了，到它的后继节点失效了，它就用其后继列表中第一个正常节点替换失效节点
Chord：节点加入：
新节点N事先知道某个或者某些结点，新节点事先知道某个或者某些结点，并且事先知道某个或者某些结点通过这些节点初始化自己的指针表，通过这些节点初始化自己的指针表，也就是说，新节点N将要求已知的系统中某节点是说，新节点将要求已知的系统中某节点为它查找指针表中的各个表项在其它节点运行探测协议后，新节点N将被在其它节点运行探测协议后，新节点将被反映到相关节点的指针表和后继节点指针中新结点N的第一个后继结点将其维护的小于新结点的第一个后继结点将其维护的小于 N节点的的所有交给该节点维护；节点的ID的所有交给该节点维护；节点的的所有K交给该节点维护
DHT原理原理(4) 原理
索引发布和内容定位
(K1,V1)
K V K V K V K V K V K V
C
K V
K1=Hash(xyz.mp3) V1=128.1.2.3
K V
A 128.1.2.3
插入 (K1,V1)
K V
K V
查询(K 查询 1)
K V
B
DHT原理原理(5) 原理
定位(Locating) 定位
K=hash (key)=54 N56 N1 ID=hash (IP)=14 N8
N51 N48
N14
N42
N21
N38 N32
m=6
Chord：简单查询过程：
每个节点仅维护其后继节点ID、IP地址等信息、地址等信息查询消息通过后继节点指针在圆环上传递直到查询消息中包含的K 直到查询消息中包含的落在某节点ID和它的后继落在某节点和它的后继节点ID之间节点之间速度太慢 O(N)，N为网，为网络中节点数
Chord：基于指针表的扩展查找过程：
Lookup(K54)
K54
N56
指针表
N8+1 N8+2 N8+4 N8+8 N8+16 N8+32 N14 N14 N14 N21 N32 N42
指针表
N42+1 N42+2 N42+4 N42+8 N42+16 N42+32 N48 N48 N48 N51 N1 N14
Pastry：概述：
英国剑桥Microsoft研究院和研究院和Rice大学共同提出英国剑桥研究院和大学共同提出考虑网络的本地性,解决物理网络和逻辑网络的考虑网络的本地性解决物理网络和逻辑网络的拓扑失配的问题
基于应用层定义的邻近性度量,例如路由跳数、地理基于应用层定义的邻近性度量例如IP路由跳数例如路由跳数、距离、距离、往返延时等
Chord：拓扑失配问题：
O(LogN)逻辑跳数，但是每一逻辑跳可能逻辑跳数，逻辑跳数跨越多个自治域，跨越多个自治域，甚至是多个国家的网络重叠网络与物理网络脱节实际的寻路时延较大
Chord：总结：
算法简单可扩展：可扩展：查询过程的通信开销和节点维护的状态随着系统总节点数增加成对数关系 (O (log N)数量级数量级) 数量级存在拓扑失配问题
Update(K, new_V)
根据K更新相应的根据更新相应的V 更新相应的
Join(NID)
节点加入
Leave()
节点主动退出
Chord：Hash表分布规则：表分布规则
Hash算法算法SHA-1 算法 Hash节点地址－>m位节点IP地址节点地址－位节点ID(表示为表示为NID) 节点表示为 Hash内容关键字 >m位 Hash内容关键字－>m位内容关键字－ K(表示为 K(表示为KID) 表示为KID) 节点按ID从小到大顺序排节点按从小到大顺序排列在一个逻辑环上 <K, V>存储在后继节点上存储在后继节点上 Successor (K)：从K开：开始顺时针方向距离K最时针方向距离最近的节点
DHT原理原理(2) 原理
内容索引提取内容内容关键字key 内容关键字内容存储位置等信息 value K=Hash(key)
kv
内容索引电影夜宴电影、电影、夜宴
/ yeyan.avi
Hash表表 K=hash(电影夜宴电影, 夜宴) 电影 V = /
yeyan.avi
DHT原理原理(3) 原理
kv
规则? 规则
N1
K V
K V
K V
N32
K V
Chord、CAN、、、 Tapestry、Pastry 、
N8 N48
K V
N16 a. Hash表表 b. 分布式分布式Hash表表
在许多情况下,节点为节点地址的Hash摘要在许多情况下节点ID为节点地址的节点为节点IP地址的摘要
内容索引<夜宴内容索引夜宴, /yeyan.avi> 夜宴表示电影夜宴可以从 /yeyan.avi处获得处获得
2.Hash函数概述函数概述
Hash函数可以根据给定的一段任意长的消息计算出一个函数可以根据给定的一段任意长的消息计算出一个固定长度的比特串，通常称为消息摘要（固定长度的比特串，通常称为消息摘要（MD：Message ： Digest），一般用于消息的完整性检验。），一般用于消息的完整性检验），一般用于消息的完整性检验。 Hash函数有以下特性：函数有以下特性：函数有以下特性
指针表中有O (log N)个节点查询经过大约O (log N)跳
Chord：网络波动(Churn) ：网络波动
Churn由节点的加入、退出或者失效所引由节点的加入、由节点的加入起每个节点都周期性地运行探测协议来检测新加入节点或退出/失效节点失效节点，新加入节点或退出失效节点，从而更新自己的指针表和指向后继节点的指针
给定 P，易于计算出 MD（P），（） MD（P），），几乎无法找出只给出 MD（P），几乎无法找出 P 无法找到两条具有同样消息摘要的不同消息
Hash函数函数
MD5：消息摘要长度固定为128比特：消息摘要长度固定为比特 SHA-1：消息摘要长度固定为：消息摘要长度固定为160比特比特
3.DHT原理原理(1) 原理
将内容索引抽象为<K, V>对将内容索引抽象为对
K是内容关键字的Hash摘要是内容关键字的摘要
K = Hash(key)
V是存放内容的实际位置，例如节点IP地址等是存放实际位置
所有的<K, V>对组成一张大的对组成一张大的Hash表，因此该表存储了所有的对组成一张大的表所有内容的信息每个节点都随机生成一个标识(ID)，把Hash表分割成许多每个节点都随机生成一个标识，表分割成许多小块，按特定规则(即和节点之间的映射关系)分布到和节点ID之间的映射关系小块，按特定规则即K和节点之间的映射关系分布到网络中去，网络中去，节点按这个规则在应用层上形成一个结构化的重叠网络给定查询内容的K值可以根据K和节点和节点ID之间的映射关给定查询内容的值，可以根据和节点之间的映射关系在重叠网络上找到相应的V值系在重叠网络上找到相应的值，从而获得存储文件的节点IP地址地址
节点ID分布采用环形结构节点分布采用环形结构
Pastry： Hash表分布规则：表分布规则
Hash算法算法SHA-1 算法 Hash节点地址－>m位节点IP地址节点地址－位节点ID(表示为表示为NID) 节点表示为 Hash内容关键字 >m位 Hash内容关键字－>m位内容关键字－ K(表示为 K(表示为KID) 表示为KID) NID和KID是以 b为基的数是以2 和是以为基的数, 共有m/b个数位共有个数位
DHT网络的搜索技术网络的搜索技术
制作人：制作人：程达
主要内容
P2P网络的分类 P2P网络的分类 Hash函数概述函数概述 DHT原理 DHT原理几种典型的DHT网络几种典型的DHT网络 DHT 总结
1.P2P网络分类网络分类
非结构化P2P 非结构化
网络拓扑是任意的内容的存储位置与网络拓扑无关
4.Chord：概述：
Berkeley和MIT共同提出和共同提出采用环形拓扑(Chord环) 采用环形拓扑环应用程序接口
Insert(K, V)
将<K, V>对存放到节点为Successor(K)上对存放到节点ID为对存放到节点上
Lookup(K)
根据K查询相应的根据查询相应的V 查询相应的