搜索引擎工作原理 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SEO基础
搜索引擎工作原理
课程目标
认识搜索引擎的工作原理记忆搜索引擎的工作流程
目录
1
网页收集预处理检索服务
2
3
网页收集
搜索引擎是如何收集互联网中的网页的？蜘蛛程序抓取例如：http://www.chinamaofa.com
认识蜘蛛
什么是蜘蛛？网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取互联网中网页的程序或者脚本
蜘蛛的工作方式蜘蛛是通过链接进行爬行并抓取网页的
认识种子站点
种子站点蜘蛛起始的抓取站点，这类站点具有一定的权威性和导航性，如新浪、hao123等
搜索引擎收集机制
收集机制根据网站的更新周期
定期定量的收集三天打鱼两天晒网
原始数据
原始数据库蜘蛛抓取的页面所要储存的位置百度快照
目录
4. 计算网页重要度积分制计算
通过被指向链接计算网页的原创性
认识索引
5. 建立索引索引是建立关键词与网页之间的对应表，建立索引的最大好处在于可快速获取对应的数据
页面1 ↓ 旅游
页面2 ↓
美容
页面3 ↓
旅游
页面1 旅游页面3
页面关键词
正排索引
关键词页面
倒排索引
认识索引
索引示意图
网站A 关键词C 网站B
中文分词
2. 中文分词分词
分词是搜索引擎特有的步骤，把网页中提取的文字按照词组进行划分例：百度联盟可拆分成百度联盟百度联盟
消噪
对内容没有任何影响却大量出现的词，如：的、地、得、啊、哦、呀、不但、而且等
去除重复页面
3. 去除重复页面镜像网页
内容完全相同，网址不同
倾向原创
计算网页重要度
1
网页收集预处理检索服务
2
3
思考
什么是预处理？蜘蛛抓取的原始页面并不能直接用于查询排名，需要对其进行一定的处理
预处理的工作流程
提取文字中文分词
1
分析链接
2 3
去除重复页面
6
建立索引ห้องสมุดไป่ตู้
预处理 5 4
计算网页重要度
提取文字
1. 提取文字
搜索引擎是以文字内容为基础的，从网页文件中去除标签、程序，提取出可以用于排名的网页文字内容
2
3
思考
提问
如何展现用户所搜索的关键词？
查询词的处理获取倒排索引
4305
检索服务
查询词的处理搜索词进行分词获取排序获取倒排索引
总结
网页收集
认识蜘蛛、种子站点、收集机制、原始数据库
预处理
提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接
检索服务
查询词处理获取排序
总结
原始数据库蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
正排索引
关键词C
正排索引
关键词C
提取链接
6. 提取链接根据页面中存在的链接继续抓取
预处理
小结
提问
搜索引擎的预处理包含哪些工作？
提取文字中文分词去除重复网页计算网页重要度建立索引分析页面中的链接
4305
小结
原始数据库蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
目录
1
网页收集预处理检索服务