FAST企业搜索平台

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

微软(中国)有限公司2010/2/23
目录
第一章FAST简介 (2)
第二章FAST系统概述 (3)
2.2 主要模块概述 (3)
2.2.1 FAST ESP(互联网和企业海量信息智能搜索平台) (3)
2.2.2 FAST Unity(联合搜索解决方案) (4)
2.2.3 FAST Recommendations(个性化推荐平台) (4)
第三章FAST搜索引擎功能概述 (5)
3.1 信息采集和索引 (5)
3.1.1 采集多种数据源的信息 (5)
3.1.2 信息索引机制 (7)
3.2 信息加工处理 (8)
3.2.1 信息加工处理流水线 (8)
3.2.2语言学处理及分词断句 (9)
3.2.3 实体提炼 (11)
3.2.4 分类引擎 (11)
3.2.5 人工关联 (12)
3.3 确保内容相关性 (12)
3.4 搜索结果处理 (13)
3.5 用户体验 (15)
3.6 管理和监测 (20)
第一章FAST简介
FAST是新一代企业搜索技术与资讯革命的中心,我们的创新将继续推进市场的转变,改变组织营运的方法与策略,将企业搜索转变成IT架构里的重要组件,并让搜索成为每个重要应用的核心引擎。

FAST的客户群分布于各个行业,以搜索科技领先竞争对手。

* FAST目前是微软的子公司。

研究表明,企事业单位的数据量以每年两倍的速度成长,数据格式种类也不断地多元发展,除了透过关系数据库存取的结构化数据,非结构化数据更是大幅增加,如:文件、日志、邮件、网页等。

对于企事业单位内部应用来说,多已完成办公、管理等系统的建设,但这些系统其实仅处理了占数据总量20%的结构化数据,占80%之非结构化数据的管理与搜索仍然缺乏妥善的解决方案,若要同时搜索结构化与非结构化数据更是加倍困难,而这却是组织取得正确、完整数据以进行有利决策的必要条件。

对于企事业单位外部应用来说,为客户群提供更好的服务,吸引新客户、留住老客户,将获取自数以百计的数据源的信息进行整合、统一展现,让访问量最大限度的转化为盈利都成为日渐紧迫的任务。

因此,要真正将所有数据转化成为帮助企业提高生产力与获利的资产,关键下一步就是“企业搜索-Enterprise Search”。

透过企业搜索,组织内部的用户得以快速从庞大而多元的数据集中获得有用的解答,组织外部的用户更因优异的使用体验,进而提高忠诚度与贡献,而真正的企业搜索平台必须具备:提高生产力——高效能搜索平台要能以最低成本,在最短时间内搜索最大量且精确数据。

FAST透过单一平台即可搜索结构与非结构化等各类型数据,并藉由语言学技术,建立索引,提供精准、符合企业背景与特性的搜索结果,而非一般无差别的搜索方式,FAST ESP更具备比数据库快数十倍的查询效能,大幅降低机器和数据库软件购买的成本,并减轻DBA(数据库管理员)的维护工作,同时FAST ESP带来的准确、快速、更佳的用户体验都能提高企业的运作效率。

提供盈利方案——搜索要转化为广告点击率、交易金额与促销成功率,才能带来实质获利,透过FAST ESP,您可结合客户搜索数据、浏览网页的习惯以及其个人配置(profile)数据,提供更符合需求的推荐商品或更能引起兴趣的广告呈现,使搜索与获利得以紧密结合。

根据Gartner于2009年9月对企业搜索市场的研究报告指出,微软凭借FAST ESP在企业搜索需求的前瞻性、涵盖度和实现能力,已成为该行业的全球领导者。

第二章FAST系统概述
微软FAST提供搜索引擎的应用方案,将不同来源的所有信息内容整合在一
起并以易用的形式再现给用户,为用户提供高度相关的搜索结果和个性化的搜索体验。

微软FAST致力于为每个接入终端(PC、手机等)都提供最好的用户体验。

从功能上描述,主要实现以下功能:
信息采集和索引:从多种资源获取信息内容,包括数据库,文本文件和现有的网站,并对所有内容建立索引。

信息加工处理:提供语言学和其他文本分析工具,这些工具不仅能分析数据库数据还能分析现有的网页信息,并将信息以易用的形式再现给用户。

个性化搜索及推荐:提供先进的移动搜索方式,可以帮助终端用户简单准确直观的获取内容和信息。

管理和统计:提供丰富的基于Web的管理界面,用于创建、配置和管理搜索集合,监测和控制系统的组成部分。

系统对用户的搜索行为作详细和全面的日志记录,以日志文件的形式存在,也可以将日志信息转存到数据库作进一步分析使用,便于进行全面的业务统计。

2.2 主要模块概述
微软FAST不仅仅是一个搜索解决方案,它涵盖了搜索、推荐、联合检索、上下文相关广告、电子商务应用等众多方面,能够为用户带来整套的盈利方案。

在这里,我们先介绍一些能够实现这些功能的主要模块。

2.2.1 FAST ESP(互联网和企业海量信息智能搜索平台)
FAST ESP是FAST整套解决方案中的核心模块,可以为您提供一个海量信息的智能搜索平台,包括对组织内部及外部互联网信息的搜索。

FAST ESP主要实现信息采集、信息处理和信息搜索等功能。

FAST ESP通过独具特色的高级语言学处理(同义词、去除无用词、歧义纠正、实体提炼等)、智能化搜索(智能纠错、下拉提示、个性化搜索等)、搜索结果分类导航及动态钻取等功能为用户提供体验更好、相关性和准确度更高的结果,从而大大提升用户的搜索满意度。

在提供强大功能的同时,FAST ESP还具有优异的性能特性,可支持上亿级的文档数量实现毫秒级的响应,它支持线性扩展,支持负载均衡的分布式体系结构,使低成本的硬件仍然能实现高性能,能够处理每秒数以百计的更新,每秒数以千计的查询,同时仍能保持亚秒级的响应速度。

2.2.2 FAST Unity(联合搜索解决方案)
FAST Unity是一个联合搜索的解决方案,能够将由FAST构成的本站搜索引擎和外部流行的搜索引擎,如12580、Google、Yahoo、Baidu等联合实现对用户的全方位搜索体验。

图FAST Unity——联合搜索平台
2.2.3 FAST Recommendations(个性化推荐平台)
FAST Recommendations是一个全方位的基于用户行为和喜好的个性化推荐解决方案,包括相关产品、信息、新闻推荐和社交推荐(推荐有同样喜好的人)。

FAST Recommendations由三个核心产品组件组成:一个配置引擎,一个数据挖掘引擎和一个推荐引擎。

它通过跟踪多种具体的和不具体的客户喜好事件(即搜索,页面浏览,内容预览,购买,点击率等)产生唯一的客户配置文件,然后再对这些配置文件进行数据挖掘,建立起内容间的联系、内容与人的联系及人与人的联系,从而根据这些联系实现丰富多样的推荐特性。

FAST推荐平台使在线服务提供更个性化的用户体验,从而促进产品销售、增加广告收入和建立客户忠诚度。

第三章FAST搜索引擎功能概述
3.1 信息采集和索引
3.1.1 采集多种数据源的信息
对于一个规模较大的企事业单位来说,搜索业务中所涉及的数据源多种多样,如站内数据库、第三方提供的数据及其他网站等。

微软FAST可以采集多种数据源的信息,对搜索结果进行逻辑集合,形成索引。

结果集可以来自一个或多个信息源,多种信息源可以存在于独立的物理索引中。

在搜索端,可以同时搜索一个或几个位于一台或更多机器上的物理索引。

为处理不同的内部或者外部信息源,微软FAST提供了各种结构数据的采集工具,能够抓取结构化、非结构化及富媒体的数据源。

微软FAST为文件系统、网页(http、ftp、https等协议访问的)、关系型数据库(Oracle、DB2、SQL Server 及其它类型的jdbc数据库)、MS Exchange、Lotus Notes、SAP、MS SharePoint等几百种系统提供连接器。

并且,还提供了一个定制连接器的API,可以定制连接器,如果用户需要哪些连接器,可以被快速而有效的创建。

微软FAST提供了数据库连接器、网络爬虫(Web Crawler)、文件遍历器等工具来实现多种数据源信息内容的采集。

3.1.1.1 文件系统遍历器
文件系统遍历器的特点:
✓支持超过370种格式的文档,包括常见的Microsoft Office,text和Adobe PDF
✓支持XML文件,并根据XML文件的定义将其中的条目以可搜索的条目对待
✓提供图形方式和命令行行方式运行
✓支持本地文件夹和网络文件夹的访问
✓支持以登录名和密码方式确定用户身份,以遍历相应的文件夹
✓支持定义单个最大文件和批量文件总大小
✓支持定义某个时间戳,使能只遍历在该时刻之后产生的文件
✓命令行方式下支持管道过来的文件列表
✓支持遍历所有格式(后缀)的文件
✓支持增量索引,通过计算校验和的方式
支持用Python语言对文件遍历器进行功能扩展
3.1.1.2 FAST数据库连接器
FAST通过JDBC连接器进行数据采集,该连接器具有以下功能特点:
能使数据库数据记录和其他类型的文档获得同样的搜索能力;
所有合法的SQL语句都支持,包括多表连接;
支持对二进制大字段中存储的文件进行索引和搜索;
支持数据库和文件系统混合的索引和搜索;
支持增量索引,通过使用校验和,时间戳或用户数据库表中的标志字段;
支持数据索引前、索引后操作;
支持数据库字段到ESP字段的自动映射和人工配置的映射;
自动合并相同主键的记录;
可以利用ESP数据库连接件内置的http服务器直接接收发生在数据库中的更新操作;
支持数据库数据到文件,然后再将文件导入搜索引擎,这有利于系统诊断;
支持图形界面和命令行;
支持多线程
图FAST的数据库连接器
FAST使用文件系统连接器、网站连接器、数据库连接器采集和处理常见的信息系统,除此之外,ESP还支持企业内的其它系统如内容管理系统,邮件系统和门户系统。

3.1.1.3 FAST网络爬虫
FAST网络爬虫(Web Crawler)的功能是从网络中抓取网页,尤其擅长以一种可控并且合理确定的方式从机构或公司内部网络中获取数据,同时也可扩展至从整个互联网中抓取相关信息。

爬虫工作时在许多方面很像一个网页浏览器从网络服务器上下载内容,但又不像浏览器那样只回应用户通过鼠标的点击或键盘输入,查询网页时爬虫必须遵循一套规则,这些规则包括在查询页面之间等待多长时间(查询速度)和在搜寻新/更新页面之前等待多长时间(刷新间隔)。

对于爬虫下载的每一个网页,都会产生一个所有链接到其他页面的链接网址清单,然后检查这些链接是否违背规则,包括主机,域名或允许获取的路径。

FAST网络爬虫是高度配置的,有超过100多项的配置选项和规则设置。

爬虫还包含了许多软件插件点,可以执行代码或脚本作为抓取进程的一部分。

爬虫能够在特定环境中执行网页上的Flash和Java脚本,使Flash / Java脚本产生Url。

FAST网络爬虫是当今世界上可配置性最强的网络爬虫之一。

FSAT网络爬虫具有150多项用户配置特性,一些主要的爬虫特性包括:
把页面储存在一个本地的FAST抓取页面储存器中,允许核对页面是否需要被再次下载;
详细模拟一个完全的浏览器环境(包括支持菜单或点击操作的Java脚本);
控制网页或网络内容下载(网页,协议如HTTPS,图片类型);
控制HTTP URLs抓取--即只抓取来源于指定网址的内容;
可调节的抓取速度——可以高速或低速抓取网站;
Logging,extensive rate 控制功能;
如需要可进行登录设置(来进入需要用户登录才可获取信息的站点);
支持RSS feed。

除此之外,ESP还支持企业内的其它系统如内容管理系统,邮件系统和门户系统。

3.1.2 信息索引机制
FAST搜索平台提供的内容编程接口,使用XML-远程调用的协议向内容分派器请求,内容分派器将内容交给一个或者多个文档处理器。

文档处理器负责转换,规范化,分类,标签等工作,最终,经文档处理器处理过的对象被分别交给实时
搜索和预警引擎。

支持增量式的索引更新,智能的增量式索引能及时反映源数据中的增删改,对于不同的数据源,连接器在技术实现上稍微有所不同。

简单来说,当前时刻数据源中所有文档的状态被维护在连接器中,包括文档的唯一标志和最后一次被发现的时刻。

在连接器对数据源进行增量更新期间,它会比对数据源中文档的状态和保存在连接器中的最后一次更新时文档的状态,因此,连接器就可以判断: 哪些文档是新增加的还是被更新过的
哪些文件被删除了
如果数据源的更新非常频繁,也可以利用内容编程接口直接对FAST搜索平台进行数据的增加,修改和删除。

支持多种类型的文档,产品内置支持225种文档类型,包括XML,HTML,PDF,ASCII Text和MS Office格式(Word、PowerPoint、Excel…)。

另外,各个文档集合可以配置独立的文档处理方式和流程。

支持XML文档的索引,FAST搜索平台支持对XML文档进行字段级的索引,支持可客户化的数据结构映射,能对任何XML进行搜索。

其中包括一个XSLT转换的阶段,它使用简单易用的编程规则。

并且,FAST的文件系统连接器能直接分析,处理和索引XML文件。

同一个引擎支持多个数据源的索引和搜索,FAST搜索平台将采集来的信息以集合为单位进行存储和管理,一个集合可以包含一个或多个数据源的信息。

在单个节点上可以支持多个文档的索引集合,前端的搜索应用则可以对一个集合或多个集合进行搜索,而无需关注集合所处的物理节点。

同时支持对文档的索引和检索,FAST搜索平台为单一逻辑索引维护多个索引文件,使能索引更新在临时目录,而同时还能提供搜索服务。

索引的大小、索引的文档数量无限制,除非物理存储空间有限制,FAST搜索平台没有任何索引的大小限制。

也没有任何索引文档数量的限制。

3.2 信息加工处理
3.2.1 信息加工处理流水线
在将各种数据获取到FAST系统之后,我们通过管道处理流水线来实现信息的处理,在这个基础上保证搜索的准确度,并能进行分类导航、分类聚类、排名控制等功能。

FAST的文档处理过程由不同的阶段组成。

每一个阶段表现为一个可插入的
模块,这个模块由FAST 提供来完成一个特定任务(如Language Detector-语言探测器)。

过程的最终阶段是对实时搜索引擎的访问。

下图是一个FAST ESP 管道处理模型的概念性图解:
图 FAST 的信息处理流水线
FAST 信息处理流水线的部分功能如下:
语言学处理及分词断句
实体提炼
分类引擎
歧义纠正
人工关联
搜索提示
智能纠错
对于这些功能,分别在下文进行具体描述。

3.2.2语言学处理及分词断句
微软FAST 拥有强大的语言学处理功能,常用的包括拼写检查、智能纠错、词形还原、词干化、搜索提示、同义词、去除无用词等。

拼写检查:提供对单个词语依据该语言特定的词典进行拼写检查。

拼写检查阶段将检查单个单词的错误拼写问题。

FAST 可以检查和校正一些语种的单词和短语的错拼,目前主要包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、匈牙利语、波兰语、瑞典语、芬兰语和挪威语等。

智能纠错:提供的一个常见方法是,向用户的原始请求提供一个可选(可能更准确)的链接。

如果用户输入的搜索请求拼写错误,它可以提供一个正确的词让用户点击,然后再执行搜索。

分类
标签
规范化
语义分析……
Index ing / 客户化的文档处理逻辑
词形还原:可以将词语与其所有的变形(不同的语法形式)进行匹配并提高查全率,同时它还将不规则变形考虑在内。

FAST ESP 的缺省配置包括名词单数和复数形式的常态化。

词形还原词典还可用于形容词和动词的常态化。

但词形还原只发生在同一词性内,如动词仅与动词而不会与名词进行匹配,反之亦然。

FAST词形还原功能还提供对国家拼写差异和处理分歧的支持,如拉美西班牙语和欧洲西班牙语之间的不同。

如果能够在搜索前端提供控制功能,则终端用户可以在每次查询中选择启用或关闭词形还原。

词形还原目前已可用于近20种语言的文档,其他语种的也可按照需求加入相应词典来实现词形还原功能,并且在FAST的语言学处理系统中,所有语言的词形还原词典都可以进行修改和维护。

词干化:提供对通配符的支持,FAST支持星号('*')和问号字符('?'),两者分别用于表示多词和单词通配符,即星号“*”表示“任意字母”,问号“?”表示“任意一个字母”;并且FAST支持在查询词的前端、后端或中间使用通配符,如,text*、*text、te?t,等等。

词干化和词形还原的方法功能相似,通常来说,对于常用词语或有词典的情况下优先选用词形还原,而对于非常用词语或没有词典的情况下可选用词干化方法。

搜索提示:默认支持基于特定语言的词典为搜索输入框提供下拉式自动提示,在用户输入过程中自动提示相关搜索建议。

另外,自动提示的词典可按照客户的需求进行客户化定制。

同义词:同义词通常包括替换词或词组全称/缩写,例如,“mobile phone”被认为与“cell phone”相同。

FAST ESP Synonym and Thesaurus(FAST ESP同义词与主题词典)架构实现了查询或索引文档在同义词和拼写差异方面的扩展。

查询端的扩展在实际匹配前就为查询添加了同义词和拼写差异。

该解决方案非常灵活,其中词典更新时可以无需重作内容索引。

FAST ESP 还通过Search Business Center(搜索商务中心)——一种图形化用户界面(GUI)系统——提供对于同义词表的管理。

SBC允许管理员用户批准一种编辑/发布模式用以管理同义词,即同一组织内不同部门的用户可以管理他们自己的同义词表,并拥有独立的“编辑”帐号来批准并发布这些拟更改的同义词。

同义词有两种类型:
单向同义词,指从一个词映射另一个词,但并未建立起相反的关系;
双向同义词,指两个词互相映射对方。

每个搜索配置文件都使用特定的同义词表,因此,某个搜索配置文件下生成的搜索可能与另一搜索配置文件下生成的
搜索使用的同义词是不相同的。

最后,文档处理端将同义词作为索引的单独一部分来对文档进行扩展。

在查询时,同义词可以采用与词形还原(含变形词的词干化)相同的控制方法。

也可以将这两种方案结合起来。

用于管理同义词的基于网络的GUI工具SBC,令企业用户及管理员等易于确保终端用户可以获得其所查询的结果,即便是他们所键入的词没有出现在索引内容里。

去除无用词:FAST ESP 支持去除停止词以及分析和去除无用词,这能去除对查询没有价值的词(组)或降低其权重。

例如"是什么","谁是","哪里可以","个","的",等等。

与FAST ESP的许多其功能类似,这一功能客户也可以很容易的进行定制,以制订出基于本地用户或公司且与之相关的适用的停止词表。

例如:查询"谁是李明?"被缩减为"李明"。

比起整句初始查询,缩减后的关键词语的搜索方法通常能得到更准确的答案。

去除无用词与停止词(stop words)的概念密切相关。

然而,比起停止词,去除无用词的特点在于并非去除单个词而是去掉整个词组。

去除单个词可能面临着去掉了那些恰好与停止词相同的重要词的风险。

但词组的歧义较小,从查询中去除也更保险些。

因此,FAST ESP装载的去除无用词词典不含单个词。

当然如果需要的话,也可以用词典维护模式将单个停止词加入到去除无用词词典中。

3.2.3 实体提炼
FAST现有的语言学功能和FAST文档处理流水线可以进行大范围的实体提炼和文本分析功能。

FAST文档处理流水线有超过130个可配置的实体提炼和文本处理阶段。

每一个阶段完成一个不同的文本处理任务,例如辨别:
人名
日期/时间
公司名称
实体提炼产生的结果可以应用在搜索中形成导航,这样就便于用户更容易的发现自己关心的内容。

3.2.4 分类引擎
FAST提供用以自动进行文本分类的工具——FAST分类器。

它采用监督式的机器学习技术,允许在ESP文档处理流水线中创建分类词表及对文档进行自动分类。

FAST分类器自动创建监督式分类的常规程序模式。

输入这一进程的主要是一系列已经分门别类的文档。

这些文档被称之为训练文档。

训练文档应组织成一个
目录结构,其中目录名称与所分类别名称相同。

文档被设定为只隶属于一个目录,而目录设置为树形结构模式,可展开或折叠。

3.2.5 人工关联
人工关联通常用于对词典进行人工维护,包括同义词词典和用于拼写检查及智能纠错中的词典。

管理员在对搜索行为的日志文件进行查看和分析后,可以发现用户搜索过程中经常出现的错误搜索词和新出现的一些搜索词,然后人工将这些词与词典中已有的相关词关联起来,从而达到终结“零搜索”的目标。

3.3 确保内容相关性
在对信息进行加工处理后,为了保证检索结果与用户的搜索需求更相关,FAST ESP还提供了几种调整相关性的方法:
相关度:应用设计人员可以调整相关性排序算法,通过评估各种静态和动态属性的相关性。

静态相关属性,和文件的内容有关,而和检索条件无关,如文档的最后更新或访问时间,文档的连接数等
动态属性依赖于检索条件,如文档点击率,词汇出现频率和近似词。

结合静态和动态属性的相关联的大小数值(应用中生成的一个分数值),即得到“相关度”。

应用开发人员可以创建一个或几个权重。

在一次检索的基础上,用户可以指定哪些相关属性用于计算排序的相关分数,并能设定具体的数值以控制相关性排序结果。

检索语言:FAST检索语言(FQL),能够使终端用户通过输入条件控制结果的相关度排序机制,例如,布尔操作,强制的纳入或排除某些结果项。

终端用户也可以选择忽略相关性排序,使结果只按文件其他的属性排序,如创建日期,标题或作者,前提是这些属性是存在的。

字段加权:FAST ESP对文档内的某些字段进行加权,使这些字段的权重高于其他字段。

举例来说,点击一篇文档的标题要比点击内容重要10倍。

字段的权重值可设定任何数值或合并到已经存在的索引字段中。

搜索商务中心:FAST的搜索商务中心载有一项工具,可以让管理者控制哪些文件最优先排序,如果有必要,甚至不用管用户输入的检索条件。

这已应用于大多搜索领域,通过将该文档置于搜索结果排序的最前端以体现其重要性并推荐给用户,它一般的应用是基于某种环境中某一特定网页被认为是某种条件检索的最权威页面。

例如,奥运会期间要查找“篮球比赛”则应把奥运会的官方主页放在排序首位。

相关文档
最新文档