网页及数据库的工作原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网页提取的工作原理:
网络爬虫是网页检索的核心部分。
网络爬虫定义有广义和狭义之分,
狭义上的定义为利用标准的http协议根据超级链接和web文档检索的方法遍历万维网信息空间的程序;
而广义则是所有能利用http协议检索web文档的软件都称之为网络爬虫。
网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要部分。它通过请求站点上的HtML文档访问某一个站点。它遍历web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL 地址,可以完全不依赖用户干预实现网络上的自动“爬行”搜索。
浏览器的工作原理:
(1)浏览器通过HTML表单或超链接请求指向一个应用程序的URL。
(2)服务器收到用户的请求。
(3)服务器执行已接受创建的指定应用程序。
(4)应用程序通常是基于用户输入的内容,执行所需要的操作。
(5)应用程序把结果格式化为网络服务器和浏览器能够理解的文档,即我们所说的HTML网页
(6)网络服务器最后将结果返回到浏览器中。
ASP的工作原理:
(1)用户调出站点内容,默认页面的扩展名是.Asp
(2)浏览器从服务器上请求asp文件。
(3)服务器端脚本开始运行ASP。
(4)Asp文件按照从上到下的顺序开始处理,执行脚本命令,执行HTML内容。
(5)页面信息发送到浏览器。
SQL工作原理:
(1)SQL语句执行顺序:
1、FROM子句组装来自不停数据源的数据。
2、Where子句基于指定的条件对记录进行筛选。
3、Group by子句将数据划分为多个分组。
4、使用聚集函数进行计算。
5、使用having子句筛选分组。
6、计算所有的表达式。
7、使用order by对结果集进行排序。
数据库:
(1)长期储存在计算机内,有组织的、可共享的数据集合。
(2)数据库中的数据不是孤立的,数据与数据之间是相互关联的。
(3)数据库中的数据具有较小的冗余度、较高的数据独立性和易扩展性。
数据库管理系统(DBMS):是在操作系统的支持下为用户提供数据库建立、数据操纵、数据库维护的管理软件
功能:
1)数据定义。
2)数据操纵功能。
3)数据库的运行管理
4)数据库的建立与维护功能。
数据库系统= 数据库+ 数据库管理系统
计算机系统= 计算机(硬件)+ 计算机管理系统(操作系统)
实体与属性:
实体:客观存在并可以相互区分的事物称为实体
属性:实体所具有的某一特性。
联系:就是实体与实体之间的联系。
T-SQL语言由下面4部分组成:
1)数据库控制语言(DCL):进行安全性管理;如:授权(GRANT)、回收(REVOKE)2)数据库定义语言(DDL):执行数据库任务,创建数据库及其对象;如:创建(CREATE)、修改(ALTER)、删除(DROP)
3)数据库操纵语言(DML):操纵数据库中各对象;如:查询(SELECT)、插入(INSERT)、修改(UPDATE)、删除(DELETE)
4)附加的语言元素:包括变量、运算符、函数、流程控制语句和注释等。