垂直搜索引擎系统介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SOPI垂直搜索引擎系统介绍

SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。

SOPI垂直搜索引擎系统的应用特点

●外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容

更新。SOPI 系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。

●高应用扩展性,可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机

搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。

●极少量的人工干预,系统管理员仅通过管理界面即可自动实现各类信息的搜索。大部分

工作由系统自动完成。

●自动生成对网站的配置,提高工作效率及降低工作难度,垂直搜索引擎对不同网站进行

不同配置是必然的,本系统应用自动化技术将人工工作降到最低,将工作人员的技术要求降至最低。

●可以从多个界而采集信息,系统进行自动合并,如从一个页面搜索产品信息,另一个网

页搜索公司信息,将两个页面的内容自动合并。

●站内搜索引擎:可以轻松将内部网站的内容进行索引,为企业提供企业知识管理,或为

网站用户提供自身网站的搜索服务。

●SOPI 搜索系统采用先进的索引机制,高效对全文进行索引及搜索,可以产生与百度和

GOOGLE 相同的准确结果,而且快速;

SOPI搜索引擎系统的技术特点

●使用与GOOGLE相同的数据库系统Oralce Berkeley DB嵌入式数据库,千万级数据状况

下操作数据仍保持在毫秒级,与使用ORACLE或SqlServer数据库性能提升数百倍。●系统结构的合理分离有利于分布式架构,适应未来大量的搜索工作,可以轻易在多服务

器环境中进行应用。

●各子系统相互独立,任一子系统的停止运行不影响其他系统,有效保证稳定性;

●先进的文章及图片指纹技术,超低重复率。由于不同网站有大量重复信息,如果不能有

效辨别文章是否存在将会有大量重复信息存在,图片一样会有大量重复存在。SOPI 系统采用先进的文章和图片识别系统有效保障超低重复率;

●对文章和图片的超强提取能力,系统可以在各种复杂的网页中提取标题正文和时间等参

数,可以高智能的提取有用的信息,过虑无用信息;

●高性能的分词组件,字典词库高质量,保证索引和搜索的准确性;

●优秀的管理平台,可以方便管理进行信息采集的站点列表,及对下载的层级进行自定义;

●可便捷对系统进行扩展,以满足不同的需求

系统架构图

SOPI垂直搜索引擎子系统

WEB管理主要功能

功能说明

分析类型管理定义分析类型

自动匹配管理定义自动匹配分类及定义分类项

域搜索信息类型管理定义域要搜索的信息类型(可自动生成表达式)

相关文档
最新文档