第13章 万维网结构_875608944

合集下载

万 维 网

万 维 网
包含超级链接的页称为超文本页或超媒体页,它们的区别 在于文档内容。
页需要用称为浏览器的程序阅读,浏览器负责取回指定的 页,并按照指定的格式显示在屏幕上。
网页获取
Web采用客户/服务器模式工作,客户为浏览器软件,服务 器是运行在Web服务器上的一个软件程序。 服务器平时总在端口80上监听客户的连接请求,当用户点 击了一个超级链接后:
万维网
从用户的角度来看,Web是由数量巨大且遍布全球的文档组 成,这些文档称为Web页。 每个页除了包含普通数据外,还包含格式命令和指向其它 页的链接:
格式命令:指示如何显示文档中的数据 链接:指示如何获取另一个文件
包含链接信息的文本串或图形称为超级链接,当用户点击 某个超级链接时,该超级链接指向的页会被取回,并显示 在用户屏幕上。
1.2 超文本传输协议HTTP
HTTP规定了客户与服务器通信使用的命令及响应。 HTTP运行在TCP连接之上,使用端口80。 基本工作模式:浏览器向服务器发送HTTP请求, 服务器返回响应,然后释放连接。服务器不保留 以前的请求或会话的历史记录。HTTP/1.0使用这 种工作模式。
持久连接模式:一旦客户建立了和特定服务器的 TCP连接,该连接在多个请求和响应过程中一直 存在,直至客户或服务器关闭连接。HTTP/1.1的 默认方式为使用持久连接。
条件请求:
HTTP允许发送方有条件地请求。浏览器在头部说明响应请求的条

计算机-13WeekWorkAnswer

计算机-13WeekWorkAnswer

或者你才在上一个洞吞了柏忌,下一个洞你就为抓了老鹰而兴奋不已。

第13周思考题参考答案

(仅供参考,如发现错误或疑问,请在魔灯讨论区发贴)

1.什么是二进制,为何要使用二进制?8个二进制位能表示的正整数的范围是

什么?

答:(1)仅有0,1两个数元,逢2进1的数制。

(2)优点:便于用电信号表示。

(3)范围是0-255共256个数字。

2.冯诺依曼结构的特点是什么?该结构的优点是什么?问题是什么?

答:(1)存储加程序。

(2)进制制、程序顺序执行、程序以数据形式运算和存储。

(3)输入输出、存储、运算等的控制协调是该体系的局限。

3.Bit,Byte,KB,MB,GB,TB的关系是什么?

答:1Byte=8Bit, 1KB=1024Byte, 1M=1024KB,1GB=1024MB,1TB=1024GB

4.简述汉字编码方案,什么是内码、外码?

答:(1)为计算机处理汉字的一套汉字信息编码方案。该方案采用二进制编码,由于汉字数量从多,采用了外码、交换码、机内码等形式实现。

(2)内码也称机内码,每一个汉字都有了确定的二进制代码。在计算机内部进行汉字存储和运算时使用内码。

(3)外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。

5.在C语言中将一个很大的正整数赋值给一个int类型变量a,输出a时有时会

只有凭借毅力,坚持到底,才有可能成为最后的赢家。这些磨练与考验使成长中的青少年受益匪浅。在种种历练之后,他们可以学会如何独立处理问题;如何调节情绪与心境,直面挫折,抵御压力;如何保持积极进取的心态去应对每一次挑战。往往有着超越年龄的成熟与自

万唯计算机试题及答案

万唯计算机试题及答案

万唯计算机试题及答案

[正文]

第一节:计算机体系结构

1. 计算机的基本组成部分是什么?简要描述各个组成部分的功能和作用。

计算机的基本组成部分包括中央处理器(CPU)、内存、输入设备和输出设备。

中央处理器(CPU)是计算机的大脑,负责接收、解析和执行计算机指令,控制计算机的运算和操作。CPU由控制单元和算术逻辑单元组成,控制单元用于控制指令的执行流程,算术逻辑单元用于进行数值计算和逻辑运算。

内存是计算机的临时存储器,用于存储运行程序和数据。内存分为主存和辅存,主存通常指的是RAM(随机存取存储器),辅存则指硬盘、固态硬盘等。

输入设备用于将外部数据输入到计算机中,如键盘、鼠标、扫描仪等。输出设备用于将计算机处理后的数据输出到外部,如显示器、打印机、投影仪等。

2. 解释冯·诺依曼体系结构,并描述其特点。

冯·诺依曼体系结构是一种计算机体系结构,也被称为存储程序计算机。

其特点包括:

- 指令和数据以同等地位存储于内存中,通过地址进行寻址。

- 指令和数据使用相同的数据格式。

- 指令按照顺序存储于内存中,并按照程序计数器(PC)的指示被

顺序执行。

- 存储程序的能力,使得计算机可以执行不同的程序,实现多样的

计算任务。

- 可以通过修改存储在内存中的指令和数据来改变计算机的行为,

具备一定的灵活性。

3. 请简要描述冯·诺依曼体系结构下的计算机工作原理。

在冯·诺依曼体系结构下,计算机的工作原理可概括为以下几个步骤:

1) 将程序和数据加载到内存中。

2) 根据程序计数器(PC)指示,取出指令并执行。

3) 根据指令确定需要的数据,并通过地址定位到内存中取出数据,

西北工业大学847计算机原理及网络考研精编资料

西北工业大学847计算机原理及网络考研精编资料

2020 年西北工业大学847 计算机原理及网络考研精品资料

一、重点名校考研真题汇编及考研大纲

1.重点名校:计算机网络(含计算机组成原理) 2014-2018年考研真题汇编(暂无答案)

2 . 西北工业大学 847计算机原理及网络考研大纲

①2018年西北工业大学847计算机原理及网络考研大纲。

②2019年西北工业大学847计算机原理及网络考研大纲。

二、 2020年西北工业大学 847计算机原理及网络考研资料

3 .唐朔飞《计算机组成原理》考研相关资料

( 1)唐朔飞《计算机组成原理》[笔记+课件+提纲]

①西北工业大学 847计算机原理及网络之唐朔飞《计算机组成原理》考研复

习笔记。

②西北工业大学847计算机原理及网络之唐朔飞《计算机组成原理》本科生课件。

③西北工业大学847计算机原理及网络之唐朔飞《计算机组成原理》复习提纲。

4 .谢希仁、吴功宜《计算机网络》考研相关资料

( 1)谢希仁、吴功宜《计算机网络》[笔记+课件+提纲]

①西北工业大学 847计算机原理及网络之谢希仁、吴功宜《计算机网络》考

研复习笔记。

②西北工业大学847计算机原理及网络之谢希仁、吴功宜《计算机网络》本科生课件。

③西北工业大学847计算机原理及网络之谢希仁、吴功宜《计算机网络》复习提纲。

5 .西北工业大学 847计算机原理及网络之计算机组成原理考研核心题库

(含答案)

①西北工业大学 847计算机原理及网络考研核心题库之计算机组成原理选择

题精编。

②西北工业大学847计算机原理及网络考研核心题库之计算机组成原理简答题精编。

③西北工业大学847计算机原理及网络考研核心题库之计算机组成原理计算题精编。

计算机系统结构(第三版)张晨曦 课后答案

计算机系统结构(第三版)张晨曦 课后答案

ww w. kh
da w
.c o
m
IC 。为了执 M
IC IC 条指令,需要执行 N 条第一级的指令对其进行解释,所以对于第二级 M M IC ⎤ K ⎡ IC T2 = ⎢ M + N M ⎥ ⎣M ⎦ IC N⎤ ⎡ = ⎢1 + ⎥ K ⎣ M⎦
而言,等效程序的执行时间是:
计算机体系结构 • 第一章 • 第2页
3
按照同样的逐层递推关系,不难求得第四级等效程序的总的执行时间为:
1.2 传统存储程序计算机的主要特征是什么?存在的主要问题是什么?目前的计算机系统 是如何改进的? 存储程序计算机在体系结构上的主要特点: (1) 机器以运算器为中心。 (2) 采用存储程序原理。程序(指令)和数据放在同一存储器中,并且没有对两者加 以区分。指令和数据一样可以送到运算器进行运算,即由指令组成的程序自身 是可以修改的。 (3) 存储器是按地址访问的、线性编址的空间。 (4) 控制流由指令流产生。 (5) 指令由操作码和地址码组成。操作码指明本指令的操作类型,地址码指明操作 数和操作结果的地址。 (6) 数据以二进制编码表示,采用二进制运算。 传统存储程序计算机体系结构存在的主要问题及其改进: (1)分布的 I/O 处理能力 存储程序计算机以运算器为中心、 所有部件的操作都由控制器集中控制, 这一特 点带来了慢速输入输出操作占用快速运算器的矛盾。 为了克服这一缺点, 人们先后提出 各种输入/输出方式。 (2)保护的存储器空间 把指令和数据放在同一存储器中有优缺点。现在绝大多数计算机都规定:在执行 过程中不准修改程序。 (3)存储器组织结构的发展 按地址访问的存储器具有结构简单、价格便宜、存取速度快等优点。但是在数据

万维网介绍课件

万维网介绍课件

D
隐私泄露:用户个人信息 在网络上的泄露和滥用
E
网络诈骗:利用网络进行 诈骗,如网络购物诈骗等
F
网络安全法规:各国对网 络安全的法律法规要求
隐私保护措施
01
使用安全浏览器:选择 具有隐私保护功能的浏 览器,如Chro源自文库e、 Firefox等。
02
启用HTTPS:访问网 站时,尽量选择使用 HTTPS协议的网站, 以加密传输数据。
法律法规要求企业在 收集、处理和使用用 户数据时,必须遵循 一定的原则,如告知、 同意、目的限制等。
法律法规还规定了企 业在发生数据泄露或 其他安全事件时,需 要及时向用户和监管 部门报告,并采取措 施减轻损害。
06
谨慎分享个人信息:在 社交媒体上分享个人信 息时,谨慎选择分享的 内容和对象,以降低隐 私泄露的风险。
法律法规保障
各国政府制定了相关 法律法规,如美国的 《隐私法》和欧盟的 《通用数据保护条例》 (GDPR)等,以保护 用户的隐私和信息安 全。
互联网服务提供商 (ISP)和用户都需要 遵守相关法律法规, 以确保万维网的安全 与隐私。
03
等,用户可分享、获取信息 电子商务:如Amazon、淘宝等,
04
提供在线购物和商品信息检索
电子商务
01
网上购物:消费者可
以在线购买商品,方
便快捷

《万维网概述》课件

《万维网概述》课件

源点服务器 因特网
校园网的高速缓存 (代理服务器)
3. HTTP 的报文结构
HTTP 有两类报文: ●请求报文——从客户向服务器发送请求报文。 ●响应报文——从服务器到客户的回答。
HTTP 的报文结构(请求报文)
空格
回车换行
开始行
方法
URL
版 本 CRLF
首部字段名 : 值 CRLF

首部行
首部字段名 : 值 CRLF
上提供的服务。
请求一个万维网文档所需的时间
万维网客户
万维网服务器
发起 TCP 连接 RTT
HTTP 请求报文 RTT
整个文档收到 时间
传输文档的时间 时间
持续连接
(persistent connection)
●HTTP/1.1 协议使用持续连接。 ●万维网服务器在发送响应后仍然在一段时间
内保持这条连接,使同一个客户(浏览器) 和该服务器可以继续在这条连接上传送后续 的 HTTP 请求报文和响应报文。 ●这并不局限于传送同一个页面上链接的文档, 而是只要这些文档都在同一个服务器上就行。 ●目前一些流行的浏览器(例如,IE 6.0)的 默认设置就是使用 HTTP/1.1。
● 超 文 本 标 记 语 言 HTML (HyperText Markup Language)使得万维网页面的设计者可以很方便 地用一个超链从本页面的某处链接到因特网上的 任何一个万维网页面,并且能够在自己的计算机 屏幕上将这些页面显示出来。

万维网浏览_大学计算机基础_[共2页]

万维网浏览_大学计算机基础_[共2页]

227 送到收件人所在地的邮局,那么对方取包裹的时候就必须去这个邮局才能取出。同样,当发送电子邮件时,这封邮件是由邮件发送服务器发出,并根据收信人的地址判断对方的邮件接收服务器而将这封信发送到该服务器上,收信人要收取邮件也只能访问这个服务器才能完成。工作原理如图

7-36所示。

图7-36 电子邮件服务工作原理

4.电子邮箱及其地址形式

电子邮箱即为在电子邮件服务器上为用户分配的一个存储空间,或者说一个邮箱账号。目前有许多网站都提供免费的电子邮箱,如国内的163和126、国外的Gmail 等。

电子邮箱的地址形式如下:用户标识符@邮件服务器域名。

例如:jack@ ,其中用户标识符代表用户邮箱的账号,对于同一个邮件服务器来说,这个账号必须是唯一的;“@”是分隔符;邮件服务器域名为提供邮箱服务的服务器的名字,用以标识邮箱的位置。

7.3.2 万维网浏览

1.万维网的起源与发展

万维网是World Wide Web 的缩写,也叫3W 、W3、Web 等,中文译为万维网,是Internet 上最受欢迎、最为流行的服务。Internet 上的客户使用浏览器只要简单地单击鼠标,即可访问分布在全世界范围内Web 服务器上的网页。

1989年,瑞士日内瓦CERN(欧洲粒子物理实验室)的科学家Tim Berners Lee 首次提出了万维网的概念,采用超文本技术设计分布式信息系统。到1990年11月,第一个万维网软件在计算机上实现。一年后,CERN 就向全世界宣布万维网的诞生。1994年,Internet 上传送的万维网数据量首次超过文本传输协议(FTP )数据量,成为访问Internet 资源的最流行的方法。近年来,随着万维网的兴起,在Internet 上大大小小的Web 站点纷纷建立,势不可挡。当今的万维网成了全球关注的焦点。为网络上流动的庞大资料找到了一条可行的统一通道。

第13章 Web系统的多层结构总结

第13章 Web系统的多层结构总结
用户表示层(实现 WebForm13-1.aspx 网页) 业务逻辑层(实现 DbOp 类) 数据访问层(实现 Database 类)
数据库 Stud
② 数据访问层DAL设计。在Myaspnet网站的ch13文件夹 中添加一个名称为WebForm13-1的空网页。单击“网站”中 的“添加新项”菜单命令,选中“类”选项,建立的类文件 为DAL(放在App_Code文件夹中),对应的代码如下:
public DataSet GetDataset(string mysql) //返回数据集 { DataSet myds = new DataSet(); SqlDataAdapter myda = new SqlDataAdapter(mysql, myconn); myda.Fill(myds); return myds; } }
用户表示层(UI)
业务逻辑层用于做一些有效性验证 的工作,以更好地保证程序运行的健壮 性。如完成数据添加、修改和查询业务 等。 数据访问层用于专门跟数据库进行 交互。执行数据的添加、删除、修改和 显示等。
业务逻辑层(BBL) 数据访问层(DAL)
数据源
Βιβλιοθήκη Baidu
优点:采用分层有利于系统的开发、维护、部署和扩 展。采用“分而治之”的思想,把问题划分开来各个解决, 易于控制,易于延展,易于分配资源。
using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Security; using System.Web.UI; using System.Web.UI.WebControls; using System.Web.UI.WebControls.WebParts; using System.Web.UI.HtmlControls; using System.Data.SqlClient;

2024版《计算机网络基础》完整版课件全书电子教案pdf

2024版《计算机网络基础》完整版课件全书电子教案pdf

根据网络覆盖的地理范围进行分类,计算机网络可分为局域网(LAN)、城域网(MAN)和广域网(WAN)。 局域网是一种在小范围内实现的计算机网络,城域网是一种在中等范围内实现的计算机网络,广域网是一种在大 范围内实现的计算机网络。
2024/1/29
5
计算机网络的功能与应用
要点一
计算机网络的功能
计算机网络具有数据通信、资源共享、分布式处理等功能。 其中,数据通信是计算机网络最基本的功能之一,它使得不 同地理位置的计算机之间能够相互交换信息;资源共享使得 网络中的计算机可以共享硬件资源、软件资源和数据资源; 分布式处理使得网络中的计算机可以协同工作,共同完成一 项任务。
TCP的可靠传输机制
通过确认应答、超时重传、流量控制等机制 实现。
26
UDP协议
UDP协议的特点
无连接、不可靠传输、基于数据报。
UDP的适用场景
适用于实时性要求高、可容忍少量丢包的应 用,如音视频通话、实时游戏等。
UDP的报文格式
UDP的传输效率
包括源端口号、目的端口号、长度和校验和 等字段。
由于没有TCP的确认应答等机制,UDP的传 输效率相对较高。
2024/1/29
6
02
网络体系结构
Chapter
2024/1/29
7
网络协议与层次结构
网络协议的定义

万维网信息构建的过程和方法研究

万维网信息构建的过程和方法研究

万维网信息构建的过程和方法研究

信息构建是一个多学科的交叉领域,万维网的信息构建更是涉及一些复杂的过程和众多的方法。目前,国内外对这些过程和方法的研究都非常重视,也已经有较多的成果问世,其中的一些著作相当有影响力,比如万维网信息构建的组织、标识、导航和搜索系统的构筑方法;IA的自顶向下和自底向上的设计方法;一些研究相当有创意,比如DanWillis设计的IA产品开发工具图等。本文对该问题进行研究,希望学界和业界藉此进一步深刻理解和勾勒万维网信息构建的过程,为开发更为有效的万维网信息构建工具,为系统成熟的万维网信息构建方法和工具而努力。1万维网信息构建的一般过程XX

自从“信息构建"概念的出现和在世界范围内广为流传后,很多学者对信息构建所包括的内容和过程进行了研究。信息科学技术学会2000年的IA峰会的讨论结果是:信息构建的元素包括导航工具和图标、浏览层次、地图、类目矩阵、、特别兴趣指南。此外还有:用户测试和标准、提供丰富的多存取点的浏览和搜索以及提供详细类目、信息目标的标识、信息结构中令人感兴趣的和有创新意义的形象化的概念、超链接的连接作为信息的多样化入口等问题。

John Shiple先生在谈论自己的因特网咨询从事信息构建的工作时认为,信息构建过程是设计时最先要开展的工作,好的信息构建的效果会令人难以置信,了解IA的过程能节省时间和金钱.的信息构建的第一步是定义的目标、收集客户或协作伙伴的看法并将它们按照协调性和重要性次序集合在一起;第二步是在弄清你的观众是谁之后,开始组织你的未来需要有的内容和功能页;第三步是富有创造性的,一个架构、选择你的隐喻,制定导航系统、生成规划图、设计框架和模型并开始建造。也可以按照系统设计的基本流程,将信息构建过程分为:研究、策略、设计、实施和管理五个阶段。

万维网

万维网
第三章 因特网的基本服务
沂水三中 nlanp
因特网的服务类型有很多,那么咱同学们回想一下,平时自己上网 的时候会用到那些因特网的服务呢 ?或者说,因特网为我们提供了 哪些基本的服务呢 ?(同学们讨论后总结) 以上我们同学对因特网的基本服务做了积极的响应,那么我们就一起 来总结一下。基本的服务主要有:万维网、电子邮件、远程登录、 万维网、 万维网 电子邮件、远程登录、 文件传输等主要四种。我们本章就逐个介绍他们的工作原理和他们的 文件传输 使用方法。 首先,我们本节课先看下万维网跟电子邮件。
3.2.1电子邮件原理 电子邮件原理 1.电子邮件采用客户机/服务器工作模式 2.电子邮件中使用的两个重要的协议:简单邮件 传输协议SMTP和电子邮局协议第三版POP3. 3.电子邮局的客户机/服务器有脱机、联机和断连 三种工作方式。Pop3协议只支持脱机工作方式。 4.电子邮件源于阿帕网ARPA。
课堂小结
本节课主要学习了万维网、电子邮件两个 知识点。其中的一些概念、原理(网页, 统一资源定位器,超文本传输语言)及 Outlook Express的操作是本节课的重点。 另外,关于Outlook Express的基本操作是 难点,需要认真反复练习。
Outlook Express
Outlook Express添加邮件账号的步骤: 1.输入账号 2.填写电子邮件地址 3.选择邮件服务类型 4.填写邮件服务器地址 5.填写账号名和密码 具体步骤看p34“实践与体验”

万维网的结构

万维网的结构

一组网页之间构成的 一个有向图示例 *具体与抽象
从有向图的角度看,Web宏观上是个什么样 子(“形状”)?
对于由巨量元素构成的事物,人们往往希 望能得到对其整体性态的有意义的刻画
“领结”:Web信息结构的一种概貌
1999,Andrei Broder等发现万维网包含一个超大强连通分量SCC,加上其他部分,
IN(链入)=BS-SCC
OUT(链出)=FS-SCC 基于G和G’,FS和BS,进一步集合运算可得到卷须和游离
从一个具体例子入手
{1,3,4,8,9,13,14,15,18}; {2},{5},{6},{7},{10},{11},{12},{16}, {17}
有 向 图 的 “ 领 结” 表 示
基本方法:广度优先搜索
计算领结结构的方法(算法)
输入:有向图G 第一步:生成图G的“反向图”G’ 第二步:选择一个在最大强连通子图中的节点A(tricky?) 第三步:以A为出发节点,在图G中宽度优先搜索直到没有新的节点发现,得节点集合FS 第四步:以A为出发节点,在图G’中宽度优先搜索直到没有新的节点发现,得节点集合 BS 结果 SCC=FS和BS的交集,即共同元素
万维网的结构
Web信息的基本结构特征
以网页为组成单位,每个网页对应一个网址 每个网页上可能有多个链接,每个链接指向另一个网页 由此,我们可以体会到 – 给定网页A和B,有可能通过一个个相继的链接,经过一些中 间网页,从A到达B – 如果可以如此从A到达B,也可以从B到达A,中间经过的网页 很可能是不一样,路径的长度也就可能是不一样的

7 万维网结构

7 万维网结构
• We may consider each search engine has a random subset of the Web, different SEs have different subsets. Through a set of queries, x can be figured out from the returned urls (pages) by each search engine.
– 超链接(hyperlink)
• A包含一个指向B的超链通常意味着A对B的一种“认可”
• 基本优势:可扩展性
几篇网页之间的链接关系
• 注意,不仅信息所处的位置可以相距很远,其中的主题也可 能“漂移”很远;不奇怪,人的思维也如此。
学术文章之间 引用关系构成 信息网络
“链接”不仅 用于表达网页 之间的关系
– CNNIC – China Internet Network Information Center – 阎宏飞,李晓明,“关于中国Web的大小、形状和结构”,《计算机研究 与发展》,第39卷,第8期,2002年8月,第958-967页。 – 李晓明,“对中国曾有过静态网页数的一种估计”,《北京大学学报》 (自然科学版),第39卷,第3期,2003年5月,394-398。
• 杜威分类体系,目录树,文件夹,关联链接
Web信息的组织方式
• 信息单元:网页
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SCC=FS和BS的交集,即共同元素 IN(链入)=BS-SCC OUT(链出)=FS-SCC
16
基于G和G’,FS和BS,进一步集合运算可得到卷须和游离
计算领结结构的算法
从一个具体例子入手
FS={1, 3,4,5,
8,9,10, 13,14,15,16, 18} BS={1, 3,4, 6,7,8,9, 11,12,13,14,15, 18} 17
13 万维网结构 The Structure of the Web
1
万维网(Wan Wei Wang) World Wide Web
定义 The World Wide Web, is a system of interlinked hypertext documents accessed via the Internet. With a web browser, one can view web pages that may contain text, images, videos, and other multimedia, and navigate between them via hyperlinks. (Wikipedia) The web was developed between March 1989 and December 1990 by Tim Berneers-Lee. 起源 1989年3月,李撰写了《关于信息化管理的建议》一文,文中提及 ENQUIRE 并且描述了一个更加精巧的管理模型 1991 年 8 月 6 日,他在 alt.hypertext 新闻组上贴了万维网项目简介 的文章。这一天也标志着因特网上万维网公共服务的首次亮相
计算领结结构的算法
FS={1, 3,4,5,
8,9,10, 13,14,15,16, 18} BS={1, 3,4, 6,7,8,9, 11,12,13,14,15, 18} SCC=FS∩BS= {1, 3,4, 8,9, 13,14,15, 18} IN=BS-SCC={6,7,11,12} OUT=FS-SCC={5,10,16} 2和17是卷须
结果: 自相似、层次性
21
本章要点
Web组织形式 尤其是对于表达信息之间的“引用关系”(“认可”关 系) 将万维网看成有向图 有向路径 强连通分量 万维网的“领结”结构 “领结” 领结结构的计算方法
• 广度优先搜索,基本集合运算
22
Q/A
23
2
万维网 World Wide Web
3
万维网 World Wide Web
万维网原始构想和设计包含的两个基本特征 网页(web page),资源以网页的形式创建和存储 浏览器(browser),访问网页的方式
4
Web组织形式
以网页为组成单位,每个网页对应一个网址 每个网页上可能有多个链接,每个链接指向另一
以成为共享,他人只要键入建立链接的作 者的索引代码,就可以追溯到这些关联
9
将万维网看成有向图
节点:网页(可能用网址标识) 有向边:表示从一个节点到另一个节点的直接链
接关系;节点的出向边与入向边 有向路径:两节点之间边的方向一致的路径
节点A到B的距离:从A到B最短有向路径的长度 注意,从A到B的距离不一定等于从B到A的距离
能“漂移”很远;不奇怪,人的思维也如此
6
超文本的技术雏形
社会学的论文引用
三元闭包,小世界
现象,结构平衡, 同质性
7
超文本的技术雏形
Wiki中博弈论文章
的交叉引用
8
Vannevar Bush and the Memex
Vannevar Bush 曼哈顿计划的发起者 发起建立NSF Memex(Memory-Extender) 1945年,Vannevar Bush在《大西洋月刊》

强连通有向图:任何两节点之间都存在两个方向
的有向路径(不一定经过相同节点)
强连通分量:尽可能大的节点子集,其中每个节
点都有到其中任何另一节点的有向路径
10
一组网页之间 构成的一个有 向图示例
*具体与抽象
A
B
11
将万维网看成有向图
寻找强连通分量
下图是强连通有向图吗?
• 强连通分量 – 节点子集,其 中每个节点都 有到任何其他 节点的有向路 径 – 不存在真包含 这个集合的连 通分量
15
计算领结结构的算法
输入:有向图G 第一步:生成图G的“反向图”G’ 第二步:选择一个在最大强连通子图中的节点A(tricky?)
第三步:以A为出发节点,在图G中宽度优先搜索直到没有
新的节点发现,得节点集合FS 第四步:以A为出发节点,在图G’中宽度优先搜索直到没有 新的节点发现,得节点集合BS 结果
12
从有向图的角度看,Web宏观上是 个什么样子(“形状”)?
对于由巨量元素构成的事物,人们往往希 望能得到对其整体性态的有意义的刻画
13
万维网的“领结”结构
1999,Andrei Broder等发现万维网包含一个超大强
连通分量SCC,加上其他部分,显示出一种形象的结 构

链入,链出,卷须(管道),游离
14
万维网的“领结”结构
给定一个网络结构,如何得到强连通分量? 显然不一定就一个。强连通分量的划分性 以最大的强连通分量为基础,如何描述其他部分
与它的关系?

链入,链出,卷须(管道),游离
为了回答第一个问题,我们问一个更具体些的问 题:给定一个节点,如何确定包含它的强连通分 量?
基本方法:广度优先搜索
18
计算领结结构的方法算法
有向图的“领结”表示
19
一次计算中国Web结构的实践
2006 年 1 月,孟涛同学用 16 台服务器并行工作,
北大网络实验室完成了一次中国Web 的网页搜集, 得到了8亿3千多万网页 基于这些网页,构造了一个巨大的有向图,8 亿3 千多万个节点,数据占用磁盘容量400GB+
个网页 由此,我们可以体会到
给定网页A 和B,有可能通过一个个相继的链接,经过 一些中间网页,从A到达B 如果可以如此从A到达B,也可以从B到达A,中间经过 的网页很可能是不一样,路径的长度也就可能是不一 样的

5
Web组织形式
几篇网页之间的链接关系示意
注意,不仅信息所处的位置可以相距很远,其中的主题也可
在这个有向图数据上,实现了前述算法,一个程
序(在16 台机器上)运行了一周,得到了有关结 构形状的参数
20Leabharlann Baidu
网页: http://.../....html, (完整地址) 网站: http://.../*, 对应例如大学的一
个系
机构: http://*..../*, 对应例如一所大
学所有院系网站的集合
上 发 表 了 一 篇 文 章 《As We May Think》,提出一种信息机器的构想 机器内部用微缩胶卷存储信息,也就是自 动翻拍,可以不断添加新的信息;桌面上 有阅读屏,用来放大阅读微缩胶卷;还有 许多个按钮,每一个按钮代表一个主题, 按一下,相应的微缩胶卷就会显示

读者可以建立指向某些微缩胶卷片段的链 接,并依照自己的喜好形成新的线性顺 序,甚至加上自己的补充或评论。这些可
相关文档
最新文档