搜索引擎核心技术解密

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎核心技术解密
经过十几年的发展,搜索引擎已经成为互联网的重要入口之一,全球互联网上访问量最大的十个网站之一Twitter联合创始人埃文.威廉姆斯提出了“域名已死轮”:好记的域名不再重要,因为人们会通过搜索进入网站。

搜索引擎的排名对于中小网站流量来说至关重要了,了解搜索引擎简单界面背后的技术原理其实对很多人都很重要
授课对象:
一、对搜索引擎核心算法有兴趣的技术人员
1、搜索引擎的整体框架是怎样的?包含哪些核心技术?
2、网络爬虫的基本架构师什么?常见的爬取策略是什么?什么是暗网爬取?如何构建分布式爬虫?百度的阿拉丁计划是
3、什么是倒排索引?如何对倒排索引进行数据压缩?
4、搜索引擎如何对搜索结果排序?
5、什么是向量空间模型?什么是概率模型?什么是BM25模型?什么是机器学习排序?它们之间有何异同?
6、PageRank和HITS算法是什么关系?有何异同?SALSA算法是什么?Hilltop算法又是什么?各种链接分析算法之间是什么关系?
7、如何识别搜索用户的真实搜索意图?用户搜索目的可以分为几类?什么是点击图?什么是查询会话?相关搜索是如何做到的?
8、为什么要对网页进行去重处理?如何对网页进行去重?哪种算法效果较好?
9、搜索引擎缓存有几级结构?核心策略是什么?
10、什么是情境搜索?什么是社会化搜索?什么是实时搜索?
二、对云计算与云存储有兴趣的技术人员
1、什么是CAP原理?什么是ACID原理?它们之间有什么异同?
2、Google的整套云计算框架包含哪些技术?Hadoop系列和Google的云计算框架是什么关系?
3、Google的三驾马车GFS、BigTable、MapReduce各自代表什么含义?是什么关系?
4、Google的咖啡因系统的基本原理是什么?
5、Google的Pregel计算模型和MapReduce计算模型有什么区别?
6、Google的Megastore云存储系统和BigTable是什么关系?
7、亚马逊公司的Dynamo系统是什么?
8、雅虎公司的PNUTS系统是什么?
9、Facebook公司的Haystack存储系统适合应用在什么场合?
三、从事搜索引擎优化的网络营销人员及中小网站站长
从事搜索引擎优化的网络营销人员及中小网站站长
搜索引擎的反作弊策略是怎样的?如何进行优化避免被认为是作弊?
搜索引擎如何对搜索结果排序?链接分析和内容排序是什么关系?
什么是内容农场?什么是链接农场?它们是什么关系?
什么是Web 2.0作弊?有哪些常见手法?
什么是SpamRank?什么是TrustRank?什么又是BadRank?它们是什么关系?咖啡因系统对网页排名有何影响?
课程大纲:
第一课:初识搜索引擎,了解其技术架构
1、按照各大搜索引擎商业公司使用的技术为依据对搜索引擎进行时代划分
2、讲解搜索引擎的三大实现目标
3、讲解搜索引擎的三大核心问题及技术发展
4、详细讲解搜索引擎的技术架构
第二课:讲解网络爬虫
1、讲解通用爬虫框架
2、讲解通过哪些特征来判断一个网络爬虫是否优秀
3、详细讲解网络爬虫的抓取策略
4、详细讲解网络爬虫对网页更新策略
5、详细讲解网络爬虫的暗网抓取
6、详细讲解分布式爬虫
第三课:讲解搜索引擎索引
1、讲解单词--文档矩阵、倒排索引基本概念、倒排索引简单实例
2、讲解单词词典:哈希加链表、树形结构、
3、讲解两遍文档遍历法、排序法、归并法、动态索引
4、讲解索引更新策略:完全重建策略、在合并策略、原地跟新策略、
5、讲解查询处理:一次一文档、一次一单词、跳跃指针、多字段索引
第四课:讲解索引压缩
1、讲解词典压缩
2、讲解倒排列表压缩算法
3、讲解文档编号重排序
4、讲解静态索引裁剪
第五课:检索模型与搜索排序
1、讲解布尔模型
2、讲解向量空间模型
3、讲解概率检索模型
4、讲解语言模型方法
5、讲解机器学习排序
第六课:讲解链接分析
1、讲解web图
2、讲解随机游走模型、子集传播模型、链接分析算法之间的关系
3、讲解PageRank算法
4、讲解HITS算法
5、讲解SALSA算法
6、讲解主题敏感PageRank
7、讲解Hilltop算法
第七课:云存储与云计算
1、讲解云存储与云计算概述
2、讲解CAP原理
3、讲解Google的云存储与云计算架构
4、讲解google文件系统GFS
5、讲解BigTable存储模型
6、讲解Map/Reduce云计算模型
第八课:讲解网页反作弊
1、讲解内容作弊
2、讲解链接作弊
3、讲解网页隐藏作弊
4、讲解Web 2.0作弊方法
5、讲解反作弊技术的整体思路
6、讲解通用链接反作弊方法
7、讲解专用链接反作弊技术
第九课:讲解用户查询意图分析
1、讲解搜索行为及其意图
2、讲解搜索日志挖掘
3、讲解相关搜索
4、讲解查询纠错
第十课:讲解网页去重
1、讲解通用去重算法框架
2、讲解Shingling算法
3、讲解I-Match算法
4、讲解SimHash算法
5、讲解SpotSig算法
第十一课:搜索引擎缓存机制
1、讲解搜索引擎缓存系统架构
2、讲解缓存对象
3、讲解缓存结构
4、讲解缓存淘汰策略
5、讲解缓存跟新策略
第十二课:讲解搜索引擎的发展趋势
1、讲解个性化搜索
2、讲解社会化搜索
3、讲解实时搜索
4、讲解移动搜索
5、讲解地位位置感知搜索
6、讲解跨语言搜索
7、讲解多媒体搜索
8、讲解情景搜索
第十三课:实战讲解怎么构建一个搜索引擎01(使用java开发)
1、准备搜索引擎开发环境、提取HTML文件内容:结构化信息提取、网页架构相似度计算、正文提取工具FireBug、NekoHTML的使用
2、提取txt、pdf、word、execl、PowerPoint等文件内容、流媒体文件内容提取(音频文件、视频文件)
3、Lucene中的中文分词、Lietu中文分词的使用、理解Lucene的索引库结构、设计一个简单的索引库
4、自动分类的SVM方法实现、K均值聚类方法、K均值实现、拼音转换、语义搜索
第十四课:实战讲解怎么构建一个搜索引擎02(使用java开发)
1、索引优化、查询优化、实现时间加权排序、实现字词混合索引、定制Similarity、定制Tokenizer
2、Lucene搜索接口、搜索页面设计、实现搜索接口
3、实现关键字高亮、实现多维视图、实现相似文档搜索、实现AJAX自动完成
4、使用Solr实现分布式搜索:Solr服务器端的配置与中文支持、Solr索引库的查找、Solr 搜索优化、SolrJ查询分析器、Solr的.net客户端、Solr的php客户端
收获预期:
对搜索引擎的原理掌握,对搜索引擎相关技术掌握
课程环境:
java开发环境
讲师介绍:
本次课程将由zouhg讲师完成。

zouhg讲师从2010年开始,从事大型web站点的运维工作,曾经任职多家互联网担任资深运维工程师的职位,对大型web站点运维有相当丰富的经验。

相关文档
最新文档