网页及数据库的工作原理

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网页提取的工作原理：

网络爬虫是网页检索的核心部分。

网络爬虫定义有广义和狭义之分，

狭义上的定义为利用标准的http协议根据超级链接和web文档检索的方法遍历万维网信息空间的程序；

而广义则是所有能利用http协议检索web文档的软件都称之为网络爬虫。

网络爬虫是一个功能很强的自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要部分。它通过请求站点上的HtML文档访问某一个站点。它遍历web空间，不断从一个站点移动到另一个站点，自动建立索引，并加入到网页数据库中。网络爬虫进入某个超级文本时，它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL 地址，可以完全不依赖用户干预实现网络上的自动“爬行”搜索。

浏览器的工作原理：

（1）浏览器通过HTML表单或超链接请求指向一个应用程序的URL。

（2）服务器收到用户的请求。

（3）服务器执行已接受创建的指定应用程序。

（4）应用程序通常是基于用户输入的内容，执行所需要的操作。

（5）应用程序把结果格式化为网络服务器和浏览器能够理解的文档，即我们所说的HTML网页

（6）网络服务器最后将结果返回到浏览器中。

ASP的工作原理：

（1）用户调出站点内容，默认页面的扩展名是.Asp

（2）浏览器从服务器上请求asp文件。

（3）服务器端脚本开始运行ASP。

（4）Asp文件按照从上到下的顺序开始处理，执行脚本命令，执行HTML内容。

（5）页面信息发送到浏览器。

SQL工作原理：

（1）SQL语句执行顺序：

1、FROM子句组装来自不停数据源的数据。

2、Where子句基于指定的条件对记录进行筛选。

3、Group by子句将数据划分为多个分组。

4、使用聚集函数进行计算。

5、使用having子句筛选分组。

6、计算所有的表达式。

7、使用order by对结果集进行排序。

数据库：

（1）长期储存在计算机内，有组织的、可共享的数据集合。

（2）数据库中的数据不是孤立的，数据与数据之间是相互关联的。

（3）数据库中的数据具有较小的冗余度、较高的数据独立性和易扩展性。

数据库管理系统（DBMS）:是在操作系统的支持下为用户提供数据库建立、数据操纵、数据库维护的管理软件

功能：

1）数据定义。

2）数据操纵功能。

3）数据库的运行管理

4）数据库的建立与维护功能。

数据库系统= 数据库+ 数据库管理系统

计算机系统= 计算机（硬件）+ 计算机管理系统（操作系统）

实体与属性：

实体：客观存在并可以相互区分的事物称为实体

属性：实体所具有的某一特性。

联系：就是实体与实体之间的联系。

T-SQL语言由下面4部分组成：

1）数据库控制语言（DCL）：进行安全性管理；如：授权（GRANT）、回收（REVOKE）2）数据库定义语言（DDL）：执行数据库任务，创建数据库及其对象；如：创建（CREATE）、修改（ALTER）、删除（DROP）

3）数据库操纵语言（DML）：操纵数据库中各对象；如：查询（SELECT）、插入（INSERT）、修改（UPDATE）、删除（DELETE）

4）附加的语言元素：包括变量、运算符、函数、流程控制语句和注释等。