【CN110134851A】一种基于领域内网的搜索引擎系统及构建方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910367379.2

(22)申请日 2019.05.05

(71)申请人 北京科技大学

地址 100083 北京市海淀区学院路30号

(72)发明人 阿孜古丽 杨石兵 贾麒 张德政 

谢永红 夏超 

(74)专利代理机构 北京市广友专利事务所有限

责任公司 11237

代理人 张仲波

(51)Int.Cl.

G06F 16/953(2019.01)

G06F 16/951(2019.01)

G06F 16/31(2019.01)

G06F 16/332(2019.01)

(54)发明名称一种基于领域内网的搜索引擎系统及构建方法(57)摘要本发明提供了一种基于领域内网的搜索引擎系统及构建方法,用以解决现有技术无法满足搜索引擎的专业化、个性化需求的问题。所述构建方法,通过爬虫策略抓取原始网络信息数据并存储到构建的大数据存储平台中,再从网络信息数据中抽取资源信息,而后基于临时表的同步机制,将资源信息索引到检索集群中;再基于中文分词组件和领域词表的搜索策略,提高信息检索的速度与精度。本发明的搜索引擎系统及构建方法,基于通用搜索引擎系统的一般框架模式,为面向特定领域的轻量级内网搜索引擎系统的构建开辟了一条新的思路,能够自动获取给定内网网络中的各种信息资源并建立索引,提供搜索服务,具有专业性和较高的搜索效率,同时可灵活

应用于各种领域。权利要求书3页 说明书9页 附图1页CN 110134851 A 2019.08.16

C N 110134851

A

权 利 要 求 书1/3页CN 110134851 A

1.一种基于领域内网的搜索引擎系统的构建方法,其特征在于,所述方法包括如下步骤:

步骤S1,构建大数据存储平台和检索集群;

步骤S2,构建网络爬虫子系统,自动抓取所述领域内网的网络信息数据,并存储于所述大数据存储平台;

步骤S3,构建信息资源抽取子系统,从存储于大数据存储平台的所述网络信息数据中自动抽取资源信息数据;

步骤S4,构建基于临时表机制的同步子系统,对步骤S3所自动抽取到的资源信息数据进行自动索引;

步骤S5,构建基于中文分词组件和领域词表的检索子系统,结合所述检索集群,处理检索关键词并返回检索结果;

步骤S6,构建用户接口子系统,接收用户的检索请求并展示返回的检索结果。

2.根据权利要求1所述的构建方法,其特征在于,所述构建的大数据存储平台和检索集群,进一步包括:

步骤S11,基于Hadoop平台以及Hbase数据库,构建分布式大数据平台;

步骤S12,基于ElasticSearch搜索服务框架,构建分布式检索集群。

3.根据权利要求1所述的构建方法,其特征在于,所述构建网络爬虫子系统,进一步包括:

步骤S21,手工整理所述领域内网范围内的网络地址作为网络爬虫启动时的初始种子集;

步骤S22,以所述初始种子集为基础,利用开源网络爬虫(Nutch)完成抓取基本数据;

步骤S23,根据所述开源网络爬虫生成的日志文件人工整理过滤规则库,过滤所述基本数据中的无意义网页;

步骤S24,根据领域内网的网络数据特点,设计增量更新策略,选取过时的网页数据信息进行重新抓取更新。

4.根据权利要求3所述的构建方法,其特征在于,所述步骤S23中过滤规则库的生成,至少遵循以下四点:

R231,网页本身不能通过内网访问;

R232,网页本身没有意义;

R233,网页内容与领域内容关联程度较低;

R234,网页占用资源过大。过滤规则以正则表达式的形式组织。

5.根据权利要求1所述的构建方法,其特征在于,所述步骤S3中自动抽取资源信息数据,包括全表抽取和实时抽取;其中,

所述全表抽取基于Hbase行主键的资源抽取策略,一次性对Hbase表中的全部网络数据进行抽取;所述实时抽取基于时间戳步长的资源抽取策略,对Hbase表中的新增网络数据进行增量抽取。

6.根据权利要求5所述的构建方法,其特征在于,所述基于Hbase行主键的全表抽取,包括以下步骤:

步骤S311,反向扫描Hbase表获取当前表中最后一条记录的行主键作为本次全表资源

2

相关文档
最新文档