搜索引擎工作原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SEO基础
搜索引擎工作原理
课程目标
认识搜索引擎的工作原理 记忆搜索引擎的工作流程
目录
1
网页收集 预处理 检索服务
2
3
网页收集
搜索引擎是如何收集互联网中的网页的? 蜘蛛程序抓取例如:http://www.chinamaofa.com
认识蜘蛛
什么是蜘蛛? 网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动的抓取互联网中网 页的程序或者脚本
蜘蛛的工作方式 蜘蛛是通过链接进行爬行并抓取网页的
认识种子站点
种子站点 蜘蛛起始的抓取站点,这类站点具有一定的权威 性和导航性,如新浪、hao123等
搜索引擎收集机制
收集机制 根据网站的更新周期
定期定量的收集 三天打鱼两天晒网
原始数据
原始数据库 蜘蛛抓取的页面所要储存的位置 百度快照
目录
4. 计算网页重要度 积分制计算
通过被指向链接计算 网页的原创性
认识索引
5. 建立索引 索引是建立关键词与网页之间的对应表,建立索 引的最大好处在于可快速获取对应的数据
页面1 ↓ 旅游
页面2 ↓
美容
页面3 ↓
旅游
页面1 旅游 页面3
页面 关键词
正排索引
关键词 页面
倒排索引
认识索引
索引示意图
网站A 关键词C 网站B
中文分词
2. 中文分词 分词
分词是搜索引擎特有的步骤,把网页中提取的文字按 照词组进行划分 例:百度联盟 可拆分成 百度 联盟 百度联盟
消噪
对内容没有任何影响却大量出现的词,如:的、 地、 得、啊、哦、呀、不但、而且等
去除重复页面
3. 去除重复页面 镜像网页
内容完全相同,网址不同
倾向原创
计算网页重要度
1
网页收集 预处理 检索服务
2
3
思考
什么是预处理? 蜘蛛抓取的原始页面并不能直接用于查询排名,需 要对其进行一定的处理
预处理的工作流程
提取文字 中文分词
1
分析链接
2 3
去除重复页面
6
建立索引ห้องสมุดไป่ตู้
预处理 5 4
计算网页重要度
提取文字
1. 提取文字
搜索引擎是以文字内容为基础的,从网页文件中去除标 签、程序,提取出可以用于排名的网页文字内容
2
3
思考
提问
如何展现用户所搜索的关键词?
查询词的处理 获取倒排索引
4305
检索服务
查询词的处理 搜索词进行分词 获取排序 获取倒排索引
总结
网页收集
认识蜘蛛、种子站点、收集机制、原始数据库
预处理
提取文字、分词、去除重复页面、计算重要度、建立索 引、提取链接
检索服务
查询词处理 获取排序
总结
原始数据库 蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
正排索引
关键词C
正排索引
关键词C
提取链接
6. 提取链接 根据页面中存在的链接继续抓取
预处理
小结
提问
搜索引擎的预处理包含哪些工作?
提取文字 中文分词 去除重复网页 计算网页重要度 建立索引 分析页面中的链接
4305
小结
原始数据库 蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
目录
1
网页收集 预处理 检索服务
搜索引擎工作原理
课程目标
认识搜索引擎的工作原理 记忆搜索引擎的工作流程
目录
1
网页收集 预处理 检索服务
2
3
网页收集
搜索引擎是如何收集互联网中的网页的? 蜘蛛程序抓取例如:http://www.chinamaofa.com
认识蜘蛛
什么是蜘蛛? 网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动的抓取互联网中网 页的程序或者脚本
蜘蛛的工作方式 蜘蛛是通过链接进行爬行并抓取网页的
认识种子站点
种子站点 蜘蛛起始的抓取站点,这类站点具有一定的权威 性和导航性,如新浪、hao123等
搜索引擎收集机制
收集机制 根据网站的更新周期
定期定量的收集 三天打鱼两天晒网
原始数据
原始数据库 蜘蛛抓取的页面所要储存的位置 百度快照
目录
4. 计算网页重要度 积分制计算
通过被指向链接计算 网页的原创性
认识索引
5. 建立索引 索引是建立关键词与网页之间的对应表,建立索 引的最大好处在于可快速获取对应的数据
页面1 ↓ 旅游
页面2 ↓
美容
页面3 ↓
旅游
页面1 旅游 页面3
页面 关键词
正排索引
关键词 页面
倒排索引
认识索引
索引示意图
网站A 关键词C 网站B
中文分词
2. 中文分词 分词
分词是搜索引擎特有的步骤,把网页中提取的文字按 照词组进行划分 例:百度联盟 可拆分成 百度 联盟 百度联盟
消噪
对内容没有任何影响却大量出现的词,如:的、 地、 得、啊、哦、呀、不但、而且等
去除重复页面
3. 去除重复页面 镜像网页
内容完全相同,网址不同
倾向原创
计算网页重要度
1
网页收集 预处理 检索服务
2
3
思考
什么是预处理? 蜘蛛抓取的原始页面并不能直接用于查询排名,需 要对其进行一定的处理
预处理的工作流程
提取文字 中文分词
1
分析链接
2 3
去除重复页面
6
建立索引ห้องสมุดไป่ตู้
预处理 5 4
计算网页重要度
提取文字
1. 提取文字
搜索引擎是以文字内容为基础的,从网页文件中去除标 签、程序,提取出可以用于排名的网页文字内容
2
3
思考
提问
如何展现用户所搜索的关键词?
查询词的处理 获取倒排索引
4305
检索服务
查询词的处理 搜索词进行分词 获取排序 获取倒排索引
总结
网页收集
认识蜘蛛、种子站点、收集机制、原始数据库
预处理
提取文字、分词、去除重复页面、计算重要度、建立索 引、提取链接
检索服务
查询词处理 获取排序
总结
原始数据库 蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
正排索引
关键词C
正排索引
关键词C
提取链接
6. 提取链接 根据页面中存在的链接继续抓取
预处理
小结
提问
搜索引擎的预处理包含哪些工作?
提取文字 中文分词 去除重复网页 计算网页重要度 建立索引 分析页面中的链接
4305
小结
原始数据库 蜘蛛 WWW
网页分析器
索引器
索引数据库
检索器
用户
百度
目录
1
网页收集 预处理 检索服务