一种元搜索引擎框架模型的设计_郭晔

合集下载

元搜索引擎简介

著名元搜索引擎
8、ByteSearch （）搜索速度快，可检索资源丰富，搜索范围包括Web、城市信息、公司名录、域名、FTP 网站、多媒体、新闻组、包裹跟踪等，并提供新闻浏览、URL提交、最新的20个检索浏览、联机商店等内容方面的服务。支持完全匹配（All）、部分匹配（Any）、短语检索（Phrase）等特性检索功能，没有搜索引擎列表，不能控制源搜索引擎的选择。
著名元搜索引擎
7、MetaCrawler （） 1995年由华盛顿大学推出，1997年被InfoSpace购买。支持调用12个独立搜索引擎，提供涵盖近20个主题的目录检索服务。其检索特性非常丰富，包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中，高级检索模式可实现：搜索引擎的选择调用，基于域名、地区或国家的检索结果过滤，最长检索时间设置，每页可显示的和允许每个搜索引擎返回的检索结果数量的设定，设定检索结果排序依据（包括相关度、域名、源搜索引擎）等。以上内容均可作为定制检索的个性化选项并予以保存。另外，检索结果中包括一个以1000为最大值的相关度指标。
著名元搜索引擎
1、InfoGrid （ /）提供与主要搜索网站的直接连结和目录检索，具有强大的元搜索和新闻搜索功能。 2、Infonetware RealTerm Search （ /）原为检验网络分类技术而设计。它以元搜索引擎知名，但具有强大的对搜索结果进行主题分类的功能。与众不同的是，用户可选择不同的主题，并得到来自所有主题搜索结果，而不是仅仅把搜索结果限制在一个主题范围之内。
元搜索引擎简介
相关定义：
元搜索引擎（Meteasearch Engine),是一种调用其他独立搜索引擎的引擎，亦称“搜索引擎之母（The Mother of Search Engines)”.在这里，“元” （Meta）为“总的”、“超越”之意，元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎，可被利用的独立搜索引擎称为“源搜索引擎”（Source Engine)或“搜索资源”（Searching Resources），整合、调用、控制和优化利用源搜索引擎的技术，称为“元搜索技术”（Meta-searching Technique)，元搜索技术是元搜索引擎的核心。

第2章-信息检索模型

▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如：文档总数为1000，出现关键词k1文档为100
篇，出现关键词k2文档为500篇，出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式： idfi = log(N/ni) ，可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达为： q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中： (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc，他们是一组向量，由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如：文档旳统计特征
▪ 顾客要求一种词项(term)集合，能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间，一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳，3个索引项构成一种三维空间，n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn)，其中n就代表了检
索字旳数量。
▪ 特征项权重Wk（Term Weight）：指特征项tn能够代表文档

一种基于Lucene的中文全文检索系统

—94—一种基于Lucene 的中文全文检索系统苏潭英1，郭宪勇2，金鑫3（1. 解放军信息工程大学电子技术学院，郑州 450004；2. 北京飞燕技术公司，北京 100072；3. 解放军通信指挥学院，武汉 430010）摘要：在开源全文索引引擎Lucene 的基础上，设计了一个中文全文检索系统模型，该模型系统由7个模块组成，索引模块、检索模块是其中的核心部分。

论述了模型的整体结构，分析设计了索引及检索模块，通过具体的索引技术和检索技术来提高整个系统的检索效率。

该系统增加了加密模块，实现对建立的全文索引进行加密处理，增强了信息的安全性。

关键词：全文检索；Lucene ；倒排索引Chinese Full-text Retrieval System Based on LuceneSU Tan-ying 1, GUO Xian-yong 2, JIN Xin 3(1. Institute of Electronic Technology, PLA Information Engineering University, Zhengzhou 450004; 2. Technology Company of Beijing Feiyan,Beijing 100072; 3. Institute of PLA Communication Command, Wuhan 430010)【Abstract 】This paper proposes a model of Chinese full-text retrieval system based on Lucene which is an open source full-text retrieval engine,and expatiates its frame. This model is composed of seven modules, among which the index module and the search module are the core parts. It designs them concretely, and improves the search efficiency of the full-text retrieval system with index technology and search technology. The system model concludes an encryption module to encrypt the index and increases the system security. 【Key words 】full-text retrieval; Lucene; inverse index计算机工程Computer Engineering 第33卷第23期Vol.33 No.23 2007年12月December 2007·软件技术与数据库· 文章编号：1000—3428(2007)23—0094—03文献标识码：A中图分类号：TP3911 中文全文检索系统全文检索技术是一个最普遍的信息查询应用，人们每天在网上使用Google 、百度等搜索引擎查找自己所需的信息，这些搜索引擎的核心技术之一就是全文检索。

【搜索引擎（三）】检索模型

【搜索引擎（三）】检索模型检索模型的⽬的现实中搜索引擎的检索策略复杂多变，但是分析起来，核⼼的⽬的就两个，为了: 1. 越相关的结果越靠前; 2. 查询的结果是完整的。

经典检索模型经典信息检索模型有三类： 1.布尔模型 2.向量模型 3.概率不看内部，查询的模型是：查询->查询模型->返回结果，⼀个查询是⼀组关键字，返回结果是⼀组⽂档 1.布尔模型：返回包含⼀个查询中的n个关键字的⽂档, 即包含w1，w2，w3的⽂档的交集 2.向量模型：考虑到布尔匹配的局限性太强，⽽提出的⼀个部分匹配的⽅法。

通过对查询和⽂档中的索引赋予⾮布尔权重，最后⽤来计算⽂档和⽤户查询之间的相似度。

向量d表⽰⽂本，向量q表⽰查询，它们的长度是⼀样的，d.length = q.length = 索引项总个数。

当然可以⽤类似cosine，Jaccard的⽅法来计算相似度，并对结果进⾏排序。

尽管它并不是最好的，但是在评测检索策略的时候经常作为baseline（基准）。

3.概率模型：这个概念有些复杂，其实看起来就好像是潜在语义的分析，对⽤户的输⼊进⾏⼀些分析，推测潜在属性，最后给出⼀个在假设下为，给出最⼤概率是⽤户想要⽂档的⽂档（拗⼝）。

同时有⼀个虚拟的概念叫理想⽂档，就是恰好只包含⽤户想要的结果的⽂档。

实现的⽅法：⽤朴素贝叶斯推断。

可以想象在A属性下⽤户给出Q查询的概率，以及⽬前已有的过往查询中某个属性A下最终得到的概率，就应该知道它跟贝叶斯⽅法的推导有⼀些关系了。

这个模型的缺陷在于⼏乎没有办法给定样本集。

评测它的准确度也不是那么容易。

集合论模型 1.基于集合的模型基于集合的模型是⼀种较新的⽅法，结合了集合论与向量空间模型的排序。

它包含了布尔模型的特征（布尔=集合，向量=代数）。

，我们把它看成布尔模型。

主要的特点是利⽤项集建⽴索引，⽽⾮普通的索引。

所谓项集，是⽂档中索引项的⼦集。

⼀个集合可以有2^t个项集，但是实际⽤到的不会这么多。

个性化元搜索引擎模型的研究与设计

ＲｅｅｒｈａｄＤｅｉｎｏｒｏａｉｅｅａｓａｃｇｎｅＭｏｌｓａｃｎｓｇｆＰｅｓｎｌｚｄＭｔ－ｅｒｈＥｎｉｄｅ
Ｌｎｊｎ，ＤＮｕｈｉＵＡ－ａｇＯＧＸ —ｕｉ
ｍｅａｓａｃｎｉｅＯｌｈｎｏｍａｉｎｃｌｃｉｎａｄｐｏｅｓｎｒｃｓ．Ｔｅｐｒｏａｉｅｔ— ｅｒｈｅｇｎａｅｔｉｐｌｔ—ｅｒｈｅｇｎｉｔｅｉｆｒｔｏｌｔｎｒｃｓｉｇｐｏｅｓｈｅｓｎｌｄｍｅａｓａｃｎｉｅｈｓａｃｒｎａｐｉｏｅｏｚａ —
（ｅａｔｅｔｆｏｕｅＳｉｃｎｆｒａｉ，ｕｚｏｎｖｒｔ，ｕｙｎ５０５ＣｉａＤｐｒｎｏＣｍｐｔｃｎｅａｄｈｏｍｔｎＧｉｕＵｉｓｙＧｉｇ０２，ｈｎ）ｍｒｅｏｈｅｉａ５
Ａｂｓｒｃ：ｉｈｐｏｌＳｃｎｉｕａｌｎｒａｉｇｄｍａｄｆｓａｃｆｃｅｃｎｍｐｏｉｇｑｕｌｔｆｒｑｕｒｍｅｔｔａｔＷｔｅｐｅ’ ｏｔｎｌｙｉｃｅｓｎｅｎｓｏｅｒｈｅｉｎｙａｄｉｒｖｎａｉｙｏｅｉｅｎｓ，ｔｅｔａｉｉ — ｉｈｒｄｔｏｎａｅｒｈｅｇｎｓｈｖｅｅｕａｌＯｉｅｏｅ’ ｅ．Ｔｏｓｈ，ｔｉｐｏｌ，ｔｓｐａｅｎｒｄｕｅｔ —ｅｒｈｅｇｎｌｓａｃｎｉｅａｅｂｎｎｂｅｔｎｅｔｐｅｐｌＳｎｅｄｓｏｅｈｓｒｂｅｍｈｉｐｒｉｔｏｃｓｍｅａｓａｃｎｉｅｔｃｎｏｏａｅｓａｉａｉｎｔｃｎｏｏｙ，ａｄｔｏｂｎｉｎｏｈｗｏｆｃｓｓｏｎｔｅｐｒｏａｌｅｎｔｓａｃｎｉｅｍｏｌｅｈｌ￣ｎｄｐｒｏｎｌｚｔｏｅｈｌｇｎｈｅｃｍｉａｔｆｔｅｔｏｕｅｈｅｓｎｉｄｌｅａ—ｅｒｈｅｇｎｄｅ，ｏｚｉｃｕｉｅｓｎｌｚｄｍｅａｓａｃｎｇｎｖｒｌｓｓｅａｃｉｅｔｒｕｅｎｅｅｔｍｏｌａｄｔａｉｔｕｔｒｏｅｓｎｌｔｎｌｄｎｇｐｒｏａｉｅｔ— ｅｒｈｅｉｅｏｅａｌｙｔｍｒｈｔｃｕｅ，ｓｒｉｔｒｓｄｅｎｈｅｂｓｃｓｒｃｕｅｆｐｒｏａｉｙ

一个元搜索引擎的设计与实现

引擎与专门搜索 “ｎｉｂｂ的检索工具相结ＩｖｉｅＷｅ ” ｓｌ合，采用高效的融合处理算法对它们的检索结果进行分析处理后，按各记录表现的主题进行分类，同时通过跟踪分析用户的搜索行为，各主题与用户可将能最感兴越的主题的记录返回给用户。
ＫｅｒｓＳｅｉｉｅｅｃｎｉｅＴｐｃｄｓｌｔｎ；ｐｃａｉｅｉｔｎｒＩｖｓｂｅＷｅｙｗｏｄ：ｐｃａｚｄｓａｈｅｇｎ；ｏｉｉｔｌｉＳｅｉｌｄｄｃｉａｙ；ｎｉｌｂｌｒｉａｏｚｏｉ
ＸＡＯＧｕＩｏ—ｑａｇＺｉｎ，ＨＡＮＧＦｎａｇ
（ｅａｔｅｔｆＣｍｕｒｃｎｅａｄＴｃｎｌｙＷｕａ３０４Ｃｉ）Ｄｐｒｎｏｐｔｉｃｎｅｈｏｇ，ｈｎ４０７，ｈｎｍｏｅＳｅｏａ
ＡｂｔａｔＩｈｓｐｐｒａｍｅａ — ｓａｃｎｉｅｂｓｄｏｐｃａｉｅｅｒｈｎｎｉｅｉｉｔ－ｓｒｃ：ｎｔｉａｅ，ｔｅｒｈｅｇｎａｅｎｓｅｉｌｄｓａｃｉｇｅｇｎｓｎｒｚｏ
ｇａｅｐｒａｈＴｅｒｓｌｔｒｅｄｐｅｗｙｏｓｂｉｉｇｐｆｓｉｎｌｄｃｏａｙｔｘｒｃｒｔｄａｐｏｃ．ｈｅｕｔｒｕｄａｏｔｔａｆｅｔｌｈｎｒｅｓｏａｉｔｎｒｏｅｔｔｓｅｎｈａｓｏｉａ
ｄｃｄＰｏｓｉａｓａｃｎｎｉｅｍａｅｉｐｃａｚｄｓａｃＩｖｓｌＷｅ ”ｓａｃｏｓｎｅｕｅ．ｒｅｓｎｅｈｅｇｅｗｌｂｄｔｓｅｉｉｒｈ“ｎｉｂｅｂｅｒｔｌｉ — ｆｏｌｒｉｌｗｈｌｅｅｉｈｏｔ

元搜索引擎优化的研究

文档。元搜素能够分散处理负载，增加检索范围。元搜素具有较好的扩展性，可以加入多个成员搜索引擎，它
使得各个成员搜苏引擎规模变小，性能更好。检索相应时间短，
还可使得检索的内容保持最新。有些ｗ站点的内容不能用数据采集器抓取，检索更有ｂｅ效，用户为了找到满意的检索结果可能访问多个搜索引擎，直到找到合适结果，而元搜索引擎可以帮助用户自动完成这个任
输出给用户；
负责实现用户的检索要求，检索内容可以是单个关键词、短语，也可以是句子，可以由用户选择搜索引擎组合，也可以由默认的搜索引擎搜索，还可以由用户选择单个搜索引擎进行搜索。（）检索接口代理二由于各个独立的搜索引擎所采用的搜索算法和数据库存在很大差异，需要将用户检索的请求转化成各个成员搜索引擎所要求
来的事信息焦虑。用户对信息的需求各不相同，于是搜索引擎逐
渐成为ｗｅｂ用户不可或缺的工具。
元搜索引擎（ｔｓａｃｎｉ，简称ＭＳ）为一个新的搜ｍｅｅｒｅｇｅａｈｎＥ作索技术的研发领域，已经在实践中初步显示了其便捷性和重要性。虽然目前元搜索的研究有不断的发展，但是由于依赖各个独立的
工程技术
就元搜索引擎技术本身来说，如何实现和完善元搜索引擎的智能化，个性化，专业化，将是信息检索研究的着重点，而中文

个性化元搜索引擎的研究与设计的开题报告

个性化元搜索引擎的研究与设计的开题报告一、选题背景随着互联网技术的不断发展，人们获取信息的方式也面临着巨大变革，搜索引擎作为互联网上广泛应用的工具之一，其作用不可替代。

目前，全球最著名的搜索引擎Google、百度、搜狗等对于搜索结果的评价都已经相对稳定，都是根据大众需求进行个性化的分析进行搜索结果呈现、筛选的。

但是在这种情况下，一些个性化的信息将会被忽略，很多用户会发现他们也许并非需要最流行的搜索结果，而更需要切实符合他们要求的搜索结果。

因此，本文主要研究个性化元搜索引擎的研究与设计。

二、研究目的为了更好地满足用户的信息需求，提高搜索结果的准确性，本文拟研究并设计一种个性化元搜索引擎，以满足用户的个性化需求。

三、研究内容和方法1.研究目标本文的研究目标是设计一种个性化元搜索引擎，以满足用户对需求的多维度搜索。

主要实现以下目标：①探索元搜索引擎的原理和应用;②研究并设计用户需求模型，确立多维度搜索需要考虑的因素;③研究并设计个性化搜索算法，提高搜索结果的准确性;④实现并优化个性化元搜索引擎，并进行测试和评估。

2.研究方法本文拟采用以下方法开展研究：①文献调研和分析，深入了解元搜索引擎、个性化搜索和相关技术等领域的最新研究成果；②面向用户需求，设计用户需求模型，分析多维度的搜索因素；③研究并设计符合用户需求模型的多维度搜索算法，提高搜索准确性；④设计并实现个性化元搜索引擎原型，对其效果进行测试和评估。

四、预期成果本文预期的成果为：1.设计并实现一种个性化元搜索引擎，实现多维度搜索；2.优化设计的搜索算法，提高搜索结果准确性；3.实现个性化搜索和推荐功能，提高搜索结果的个性化和针对性；4.对所设计的个性化元搜索引擎进行测试和评估，并得出结论。

五、研究意义1.现实意义：通过研究和设计个性化元搜索引擎，提高用户的搜索准确性和满意度，更好的满足用户的信息需求。

2.学术意义：通过研究个性化算法及实现其搜索效果，可以探讨如何改进现有搜索引擎，提高搜索结果的准确性和时间效率。

元搜索引擎简介

元搜索Байду номын сангаас擎简介
相关定义：
元搜索引擎（Meteasearch Engine),是一种调用其他独立搜索引擎的引擎，亦称“搜索引擎之母（The Mother of Search Engines)”.在这里，“元” （Meta）为“总的”、“超越”之意，元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎，可被利用的独立搜索引擎称为“源搜索引擎”（Source Engine)或“搜索资源”（Searching Resources），整合、调用、控制和优化利用源搜索引擎的技术，称为“元搜索技术”（Meta-searching Technique)，元搜索技术是元搜索引擎的核心。
著名元搜索引擎
7、MetaCrawler （）
1995年由华盛顿大学推出，1997年被InfoSpace购买。支持调用12个独立搜索引擎，提供涵盖近20个主题的目录检索服务。其检索特性非常丰富，包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中，高级检索模式可实现：搜索引擎的选择调用，基于域名、地区或国家的检索结果过滤，最长检索时间设置，每页可显示的和允许每个搜索引擎返回的检索结果数量的设定，设定检索结果排序依据（包括相关度、域名、源搜索引擎）等。以上内容均可作为定制检索的个性化选项并予以保存。另外，检索结果中包括一个以1000为最大值的相关度指标。
著名元搜索引擎
6、Mamma （）
1996年面世，自称为“搜索引擎之母”的并行元搜索引擎，可同时调用7个最常用的独立搜索引擎，并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好，检索选项丰富，主要包括：可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外，Mamma支持常用检索语法在不同搜索引擎中的转换，还提供了专门检索页面文件标题的特殊检索服务，以及通过E－mail传输检索结果的特色功能。检索结果以相关性排序，内容包括网页名称、URL、文摘、源搜索引擎。

一种元搜索引擎框架模型的设计

元搜索引擎是一个搜索其他引擎的搜索引擎。一个元搜索引擎以用户输入的查询关键字作为输入，然后将该关键字同时提交给多个成员搜索引擎，将这些搜索引擎的返回结果按照一定的算法重新排序并
并反馈给用户。元搜索引擎是用来提高单个搜索引擎的查准率（ｒｉｏ）Ｐｅｓｎ和查全率（ｅａ）出现的一ｃｉＲｃｌ而１
种新的搜索模式。
１搜索引擎的实现难点
由于元搜索引擎环境所特有的一些特征，给创建高效的元搜索引擎带来一定困难。
１１成员搜索引擎的自治性．
元搜索引擎的成员搜索引擎通常都是独立建造的，个搜索引擎自己决定该索引哪类文本集为用户每提供服务，自己决定文本如何表示、引及更新索引的时间，索自己决定相似函数的计算，文本与给定查而
文章编号：６２— ３５２０）３— ４８一ｏ１７９１（０７００４４
一
种元搜索引擎框架模型的设计
郭晔，李建廷，浩鸣王
（西安财经学院计算机科学系，陕西西安７０６）１０１
摘要：索引擎是搜索引擎之上的搜索引擎。用户递交检索请求，元搜元搜索引擎接收该请求后，它提交给多个预先选定的搜索引擎成员，中所有的查询结果并以统一的格式返回给用把集户。首先概述了元搜索引擎的原理和现状，分析了当前研究元搜索引擎的难点所在，并提出改进方案。在此基础上，设计了元搜索引擎的总体框架，出了查询代理、索代理、提搜运算代理三大功

带有聚类功能的个性化元搜索引擎的设计

ｓａｈｒｕｔｔｅａｅｃｓｒｒｃｓｎｎｕＵｅｆａｒｓｌＴｅｃｎｔｕｅｏｕｔｎｕｔｍａｌｓｒｎｎｎｒ— ｅｒｅｌ，ｈｎｉｍｋｓｌｔｏｅｉｇａｄｐｔｔｈｎｌｅｕ．ｈｏｓｔｔｆｌｓｒｇｃｓｃｓｓｔｕｅｐｓＯｔｉｔｉｃｅｉｏｂａｃｅｇｅｉｉｔｅｅｈｉｓｏ
ｔｒｔｔｅｔｄｔｎ１ｅｒｈｅｇｎｓａｏａｓｉｎｅ．ｎｔｉｐｐｒｕｔｍｚｄｓａｈｅｇｅｏｕｔｎｔｎｉｉｒｄｃｄｅｓ；ｈｒｉｏａｓｃｎｉｅｃｎｎｔｔｆｔｓｅｄＩｈｓａｅａｃｓｉｅｅｒｎｎｆｃｓｒｕｃｏｎｏｕｅ．ｅｓａｉａｓｉｙｈｏｃｉｌｅｆｉｓｔＦｒ，ｈｇｓａｏｓｍｏｔｎｓａｒｕｈｔｅｅｉｒｉｎｎａｇｒｅｔｅｐｌａｔｉｔｄｆｒｎｓｏｐｏｃｅｔｉｔｔｅｒｉｔｔｎｓｔｂａｓｅｄｔｔｏｇｉｒｇｔｔｓｄｃｔｏｚｓｈｓａｐｉｎｓｎｏｉｅｔｅｇｕｓｒａｓｅｒｉｙｅｉｕｒｅｈｈｒｓａｏａｅｉｅｃｅｕｒｒｔｅｕｅｕｔｍ．ｈｈｄｌｇｍｏｕｆｅｒｈｅｇｅｓｅｔｔｅａｐｏｒｔｓｒｎｉｙｔｅｓｒｏｓｕｔｍｂａｕｔｆｅｓｃｓｒｏＴｅｓｅｕｉｄｌｏａｎｎｌｓｈｐｒｐａａｃｅｇｎｂｏｆｅｃｓｃｎｅｓｃｉｅｃｉｅｅｈｅｈｔｕｒｏｔｏｔｎｃｓｎｚｄＯｉｏｉ

基于本体的网络安全个性化搜索引擎模型设计

收稿日期：２０１６ — ０７ — ２１
摘
要：针对搜索引擎查找准确率低、检索效果差的问题，提出了基于本体的搜索引擎．该搜索引擎首先构
建相关主题本体知识库，再利用网络爬虫下载网页内容和网页结构特征，并对内容进行智能识别，找出与本体相关内容识别为相关本体，通过与本体知识库内容对比，筛选特定的统一资源定位器（ＵＲＬ）地址及与计算机网络
第４６卷第２期２０１７年３月
内蒙古师范大学学报（自然科学汉文版）
ＪｏｕｒｎａｌｏｆＩｎｎｅｒＭｏｎｇｏｌｉａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）
的最终数据来源．实验结果表明，本体可提高搜索引擎的查准率，减少冗余信息，从而提高查询精度．关键词：本体；搜索引擎；个性化；网络安全
中图分类号：ＴＰ３９１．３文献标志码：Ａ文章编号：１００１－８７３５（２Ｏ１７）Ｏ２一Ｏ２７３一Ｏ５
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１．－８７３５．２０１７．０２．０２７
目前的主流搜索引擎可分为专业搜索引擎和通用搜索引擎，专业搜索引擎是针对某一单个行业或者专业抽取信息，通用型的搜索引擎虽然比较实用，但是提供了千篇一律的检索结果，搜索出的结果中存在“ 信息过载” 问题．人们迫切需要一种针对个人需求提供精确查找的搜索工具，个性化搜索引擎由此而生．目前搜索引擎中实现个性化搜索的方法有多种，除了挖掘用户的Ｗｅｂ日志和神经网络学习机制以外，基于本体的主

一种模糊的海洋信息元搜索引擎结果融合算法

关键词：结果融合；搜索引擎；ＷＡ；ＷＡ元ＷＯＯ
１引言、
近年来．元搜索引擎领域的研究得到广泛关注。在ＷＷＷ
２２基于ＷＯ．ＷＡ算子的结果合成算法元搜索引擎的每个底层成员引擎可以看作模糊多准则决策
２１００年第６期
福
建电
脑
１ｌ
一
种模糊的海洋信息元搜索引擎结果融合算法
吴远红
（浙江海洋学院数理与信息学院浙江舟山３６０）１０４
摘要：果融合问题是元搜索引擎研究的一个重要方面。文章在模糊多准则决策理论的基础上，出了一种加权Ｏ结提ＷＡ算子结果融合模型．可将成员引擎的结果列表根据查询不同赋予不同的权重，出了成员引擎的权重计算方法。此模型应用给将于海洋信息元搜索引擎中．并利用ＴＥＲＣ数据集对模型进行了实验比较，实验结果表明该ＷＯＷＡ模型是有效的。
每问题求解变为应用中．搜索是从公共数据集合（ｅ）多个索引源检索、元Ｗ－￣ｂ合系统的一个准则，个引擎有一个隶属的权重，并信息的过程。常，个搜索引擎的检索结果是与查询条件相求文档（选方案）足搜索引擎（则）程度。结果合成过程通一备满准的关的文档的排序列表。元搜索引擎系统中，果合成问题就是如下：在结将多个成员引擎的检索结果计算融合成一个 ” 一致 ” 的排序列１户通过查询接口向元搜索引擎提交查询．询分发给．用查表。底层成员引擎，个引擎返回基于网页评级（ｎ）每ｒｋＩ索列表，ａ￣许多文献提出了结果融合算法．主要有：率模型 … 用户反即备选方案集合Ｎ一个排序Ｔ概．的。馈主客观影响因子结合结果归并Ｉ模糊积分算法１投票模型排－２＂１．３１．２计算ｋ成员引擎返回列表中的文档位置排名（。ｋ．个ｄ）Ｔ（序合成算法Ｈ线性组合的相似度融合Ｉ．Ｓｌ文对基于０。本ＷＡ算子的计算公式：

适度设计_中国联合工程公司国机研发中心设计_姜传鉷_郭晔_黄征

国机研发中心电梯设计采用人数指标豪华级即 <250 人 / 台的标准作为参考，同时考虑公司自用的特点即早、午餐和上、下班这 4 个高峰期特别集中的情况适当修正。指标设定上采取 200 人 / 台的标准，同时 75%
电梯采用大容量电梯，每栋大楼合计设置 8 台电梯。在交通核设置方式上，考虑到自用办公楼装修基本上一次到位的因素，其消防兼服务电梯使用情况良好的特点加配一台普通电梯形成次交通核心筒，标准层形成双交通核心筒分置的模式。每栋大楼主交通核心筒 6 台高速电梯 ( 载客数 21 人、速度 3.5m/s)，次交通核心筒 2 台电梯 ( 载客数 15 人、速度 2.5m/s)。目的在于：让员工在高峰期能有较短的候梯时间；在平时能按额定载客量 70% 容量使用时则具有更好的乘梯环境。从目前使用来看，基本上达到设计预期，但在午餐和下班这两个高峰期有时仍需约 5min 候梯时间。在后期的使用管理上尚需与电梯厂商合作，运行软件设计以体现大楼实际情况的高峰用梯模式，进一步缩短候梯时间和平峰时段的经济运行模式以实现运行节能的理念。 3.2 结构新材料、技术的综合应用
在高度方向，两板楼加连接体形成“凹”形实体空间的体量；两层通高的水平柱廊与连接体长 45m、宽 18m、高 14m 南北通透的门厅形成“凸”形虚体空间。虚、实空间的结合构筑了良好的空间秩序，
次出入口
1 建
业
路
1 总平面
0 10 20m
3 主入口
2
4
滨安路
时
河
代
道
大
道
1 A楼 2 B楼 3 门厅 4 运动配套楼
有一定的“特殊性”，建筑师也是业主，设计中从“自己”和“业主”的两个角度出发，对建筑的高效与灵活、健康与人文关怀等方面做了些探索。实际上，当建筑师打破与使用者之间的藩篱，建立起设身处地的设计语境，更容易设计出具有针对性的好作品。 2.1 高效空间

Internet中的页面价值快速算法模型研究

Internet中的页面价值快速算法模型研究
郭晔
【期刊名称】《微电子学与计算机》
【年(卷),期】2007(24)8
【摘要】分析了普遍搜索引擎不能为用户提供具有个性化服务的原因,提出了基于页面内容与链接的页面价值快速算法,给出了算法的基本思想及对应的模型,并通过计算以转移概率矩阵为系数方程的特征值得到页面的价值。

结果表明,新的模型能够以较少的计算量达到类似TFIDF算法的查全率。

【总页数】3页(P139-141)
【关键词】个性化模型;类关键词;转移概率矩阵;页面价值
【作者】郭晔
【作者单位】西安财经学院计算机科学系
【正文语种】中文
【中图分类】TP31
【相关文献】
1.基于 PLSA 模型的 Web 页面语义标注算法研究 [J], 王云英
2.基于页面分块模型的PageRank算法研究 [J], 白似雪;刘华斌
3.快速成形制造中基于模型连续性的快速分层算法研究 [J], 朱君;郭戈;颜永年
4.基于Internet的交互系统中多媒体同步模型及算法 [J], 田友胜;侯义斌;朱玉慧
5.基于Internet的VRS/RTK定位算法模型及实验研究 [J], 黄丁发;周乐韬;刘经南;熊永良
因版权原因，仅展示原文概要，查看原文内容请购买。

基于双样本学习与单维搜索改进的精英麻雀搜索算法

基于双样本学习与单维搜索改进的精英麻雀搜索算法
贾凯烨;董砚
【期刊名称】《计算机科学》
【年(卷),期】2023(50)2
【摘要】针对麻雀搜索算法初始种群分布不均匀,种群间信息交流少,易陷入局部最优,收敛速度慢等不足,提出了一种基于双样本学习与单维搜索改进的精英麻雀搜索算法。

首先,采用Hammersley低差异序列与反向学习相结合产生精英初始种群,增强个体质量和多样性;然后,通过双样本学习策略,改进追随者的位置更新公式,加强种群间的信息交流,提高算法跳出局部最优的能力;最后,在算法迭代后期采用单维搜索模式,增强算法在后期的深度挖掘能力,提高算法的精度。

通过对时间复杂度进行分析,证明了该改进未增加算法的时间复杂度。

选取12个不同特征的测试函数进行寻优,测试结果表明,与其他算法相比,该算法在收敛速度、精度和稳定性上都有明显的优越性。

【总页数】7页(P317-323)
【作者】贾凯烨;董砚
【作者单位】河北工业大学人工智能与数据科学学院;河北工业大学电气工程学院【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于改进麻雀搜索算法-核极限学习机耦合算法的滑坡位移预测模型
2.基于多种改进策略的改进麻雀搜索算法
3.基于莱维飞行扰动策略的麻雀搜索算法
4.基于改进麻雀搜索算法和核极限学习机的电站锅炉燃烧优化
5.基于精英反向学习策略的麻雀搜索算法
因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于知识图谱的工程教育持续改进模型

一种基于知识图谱的工程教育持续改进模型
常言说;李翠;陆伟;郭晔;马春燕
【期刊名称】《电脑知识与技术》
【年(卷),期】2024(20)1
【摘要】为了更好地实现工程教育的持续改进机制,提出一种基于知识图谱的持续改进模型,并引入智能教学系统的培养过程数据,使得该模型具有:(1)在改进培养过程的同时可以通过三个自改进循环持续改进模型本身;(2)减小了用户的工作量;(3)实现在“评价”环节之前改进;(4)在权限管理的前提下提高专业内、课程内数据的共享。

【总页数】4页(P140-142)
【作者】常言说;李翠;陆伟;郭晔;马春燕
【作者单位】西安财经大学信息学院;西北工业大学
【正文语种】中文
【中图分类】G642
【相关文献】
1.一种基于知识图谱的警用统一对象描述模型及其应用
2.KSN:一种基于知识图谱
和相似度网络的Web服务发现模型3.基于知识图谱和麻雀算法改进的图卷积网络推荐模型4.一种基于知识图谱的分布式云安全画像和风险预警模型研究
因版权原因，仅展示原文概要，查看原文内容请购买。

基于自适应互动式的元搜索引擎

基于自适应互动式的元搜索引擎
王继生;王一莉
【期刊名称】《计算机工程与设计》
【年(卷),期】2009(030)007
【摘要】搜索引擎用户个性化的研究是搜索引擎优化的一个研究热点.一些检索系统不能满足用户的需求,提出了一种基于自适应互动式的元搜索引擎,系统借助于用户在和元搜索引擎交互的过程中用户的行为记录为用户动态的生成其偏好的查询接口,用户与元搜索引擎交互的过程中动态更新用户行为模型,自适应的满足不同检索动机的用户的信息需求,利用CC4神经网络在时网页的相关行进行判断对返回结果重新排序.
【总页数】5页(P1656-1659,1663)
【作者】王继生;王一莉
【作者单位】南京工业大学,信息科学与工程学院,江苏,南京,210009;南京工业大学,信息科学与工程学院,江苏,南京,210009
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于用户体验的互动式导向APP与非互动式导向APP的对比研究 [J], 石梅;汤程心;薛朝晖
2.基于BP网络的农业主题元搜索引擎研究 [J], 全志薇;陈晓玲;周康
3.基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究 [J], 聂琰
4.基于Agent的个性化元搜索引擎 [J], 石建国;薛玉倩;石彦芳
5.基于元搜索引擎的数字图书馆网络信息资源检索系统设计 [J], 王玉琼
因版权原因，仅展示原文概要，查看原文内容请购买。

一种适合于专题式元搜索引擎的信息检索策略

一种适合于专题式元搜索引擎的信息检索策略
吕传宇;李华;耿虎
【期刊名称】《重庆大学学报：自然科学版》
【年(卷),期】2004(27)7
【摘要】现有的元搜索引擎技术是基于关键词的信息检索,在查找某一专业知识时,简单的关键词组合不能真实地反映用户的检索意图,导致在检索中大量无关的信息被返回,专题式的元搜索引擎较好地解决了这一问题。

本文通过对现有的元搜索引擎技术、领域知识库等研究,提出了一种适合于专题式元搜索引擎的信息检索策略,提高了检索的效率与精度。

本文着重介绍了该检索策略的核心思想及其关键技术。

【总页数】5页(P90-93)
【关键词】专题式;元搜索引擎;搜索引擎;检索策略
【作者】吕传宇;李华;耿虎
【作者单位】重庆大学计算机学院;省泰兴市黄桥电视台
【正文语种】中文
【中图分类】TP393
【相关文献】
1.基于元搜索引擎的个性化信息检索系统 [J], 田晓珍;张敏
2.基于元搜索的专题式Web搜索引擎的实现 [J], 马瑞民;李建平;王浩畅
3.基于元搜索引擎的专业式智能网络信息检索系统 [J], 盛宪锋;山岚
4.一种适合于宽带卫星网络的均滑式慢启动策略 [J], 杨征;吴玲达
5.基于元搜索引擎的维吾尔文信息检索处理系统 [J], 曹毅;袁保社
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第27卷　第3期2007年9月西安科技大学学报J OURNAL OF XI′AN UN I V ERSI T Y OF SC I E NCE AND TE CHNOL OGYV o.l27　N o.3Sep t.2007 文章编号:1672-9315(2007)03-0448-04　一种元搜索引擎框架模型的设计*郭　晔,李建廷,王浩鸣(西安财经学院计算机科学系,陕西西安710061)摘要:元搜索引擎是搜索引擎之上的搜索引擎。

用户递交检索请求,元搜索引擎接收该请求后,把它提交给多个预先选定的搜索引擎成员,集中所有的查询结果并以统一的格式返回给用户。

首先概述了元搜索引擎的原理和现状,分析了当前研究元搜索引擎的难点所在,并提出改进方案。

在此基础上,设计了元搜索引擎的总体框架,提出了查询代理、搜索代理、运算代理三大功能模块,并阐述各代理的功能流程。

关键词:搜索引擎;元搜索引擎;信息检索中图分类号:TP311.5 文献标识码:AA fra m e work m odel desi gn f or m et a-search engi neGUO Ye,LI Jian-ting,WANG H ao-m ing(Dept.of Co mputer Science,X i′an Un i versity ofF i nance and Econo m i cs,X i′an710061,China)Abstract:M e ta-sea r ch eng ine is t h e set o f co mm e r c ial search eng ines.It takes the r equest fro m the us-er and sends it to t h e m e m ber search eng i n es.And retrieved results got fr o m diffe r ent search eng i n es ar ei n teg r a ted into one unified fo r m at and presented to the users.The principles and ac t u alit y of t h e m eta-search eng i n e are discussed.The difficu lties o fm aking t h e m e ta-sea r ch eng i n esm ore po w e r are pointed ou.t Based on this d iscussion,w e dr a w up so m e m e t h ods fo r i m prov ing t h e pe rfor m ance o f i.t The fra m e w ork is designed,which incl u des t h ree modu l e s:enquir y agent,search agent and opera tion agen.t Key w ords:search eng ine;m e ta-search eng i n e;info r m ation retrieva l元搜索引擎是一个搜索其他引擎的搜索引擎。

一个元搜索引擎以用户输入的查询关键字作为输入,然后将该关键字同时提交给多个成员搜索引擎,并将这些搜索引擎的返回结果按照一定的算法重新排序并反馈给用户。

元搜索引擎是用来提高单个搜索引擎的查准率(Precision)和查全率(Recall)而出现的一种新的搜索模式。

1搜索引擎的实现难点由于元搜索引擎环境所特有的一些特征,给创建高效的元搜索引擎带来一定困难。

1.1　成员搜索引擎的自治性元搜索引擎的成员搜索引擎通常都是独立建造的,每个搜索引擎自己决定该索引哪类文本集为用户提供服务,自己决定文本如何表示、索引及更新索引的时间,自己决定相似函数的计算,而文本与给定查*收稿日期:2007-04-20基金项目:陕西省自然科学基金项目(2005F08),陕西省教育厅专项基金项目(06J K300,SV J YB06278)作者简介:郭　晔(1961-),女,陕西泾阳人,副教授,主要从事海量数据环境中的信息检索、数据挖掘的研究.DOI牶牨牥牣牨牫牳牥牥牤j牣cn ki牣xakjdxxb牣牪牥牥牱牣牥牫牣牥牪牰询的相似度是通过相似函数计算得到的[1]。

通常,很多商业搜索引擎认为自己的相似函数及其它一些信息是保密的,不愿对公众提供足够的关于其引擎的设计和统计信息,目前尚没有足够有效的方法能够独立地找到这些商业搜索引擎的有关信息[2]。

1.2　成员搜索引擎之间的相异性各基本成员搜索引擎之间存在诸多的不同,具体而言,不同的搜索引擎采用不同的方法来确定标识一篇文本的关键字,具有不同的索引方式;采用不同的关键字权值的确定方法;以不同的相似函数来确定查询和文本之间的相似度[1]。

同时,它们可能索引了页面的不同版本,有可能同一个页面在不同的搜索结果中差异性很大。

1.3　元搜索引擎的全局结构与成员搜索引擎间的相异性全局结构与成员搜索引擎之间存在相异性[3]。

具体表现在:元搜索引擎的全局接口使用自己的特定的相似函数(全局相似函数)来计算文本的全局相似度,而各成员搜索引擎的局部相似函数很可能与之不同;另外,元搜索引擎全局接口计算关键字的方法可能与成员搜索引擎上的计算方法也不同。

2　元搜索引擎的改进结合目前元搜索引擎的研究现状,在充分考虑元搜索引擎实现难点的基础上,可以采用下面的方法对元搜索引擎设计进行改进:1)一般元搜索引擎得到的返回结果很多,降低了查准率。

可以考虑在用户输入界面上询问用户所需要查询的范围,如工业、文学、新闻……,确定用户的兴趣所在,对于每一个范围都对应有若干个在该领域较出色的成员搜索引擎,使查全率和查准率有所提高。

2)元搜索引擎在收到用户的查询请求后,最简单的方法是向所有的成员搜索引擎广播该请求,但这实际上是不一定可行的,应该采用一定的搜索引擎调度机制来选择对于用户查询有潜在用处的成员搜索引擎。

3)针对元搜索引擎收集的成员搜索引擎过少,增加新的引擎困难,可将基本成员搜索引擎的查询语法、请求格式放入知识库,当要发送查询请求时,从知识库读取信息产生的查询请求。

这样如果引擎的语法发生变化或者要新增引擎时,只需更改或增加知识库中的信息即可。

4)有些成员搜索引擎不能或不能很好地支持布尔操作,对于它们将分别发送独立关键字,然后对返回的结果在数据库中进行布尔操作,得到所需结果。

图1　元搜索引擎的总体设计框架F ig .1　F ra m ewo rk o f me ta -sea rch eng ine5)对于从多个成员搜索引擎返回的结果,采用一定的措施和算法,去除不必要的、重复的链接与信息,尽可能将有效的结果反馈给用户。

6)每个用户对信息资源有各自不同的兴趣,所以利用元搜索引擎为各个用户提供适合其特点的个性化信息服务,不仅能减轻用户的搜索负担,而且能增强软件对用户的亲和感,提高用户的查询效率。

3　元搜索引擎总体框架设计元搜索引擎的总体设计框架如图1所示,主要由查询代理、运算代理、搜索代理三部分组成,其支持的后台数据库则由个性数据库、关键词数据库、搜索规则数据库、网页数据库、索引数据库等组成,有关各数据库的功能描述(图1)。

网页数据库:收集基本搜索引擎的查询结果,包括最新查询时间、关键词、下载状态等基本信息。

索引数据库:记录各关键词的查询结果,包括网页标题、网页简要、网页内容、网页地址、连接状态、网449第3期郭　晔等:一种元搜索引擎框架模型的设计页相关度等信息。

搜索规则库:记录各基本搜索引擎对关键词的查询响应情况,包括返回结果数量、响应时间、用户评价值等。

关键词数据库:记录查询关键词的查询频率。

用户个性数据:记录用户查询关键词的历史清单;记录用户对关键词的点击情况;记录用户查询癖好信息;记录用户信息定制需求情况。

3.1　搜索代理搜索代理根据运算代理的要求,通过调用搜索规则库,向成员搜索引擎发出提取网页的指令,接收成员搜索引擎的查询结果,并将搜索的网页结果保存到网页数据库中。

搜索代理能自动识别各成员搜索引擎的响应情况,如果在限定时间内没有得到成员搜索引擎的响应,则降低该成员搜索引擎的查询响应评价值。

3.1.1　元搜索引擎数据源的选择搜索代理作为元搜索引擎与成员搜索引擎的唯一查询接口,实现向成员搜索引擎发出查询指令,以及提取和解析它们的查询结果。

目前,各种元搜索引擎在选择数据源上的方法不尽相同,首先确定搜索引擎的重复度问题,即如果搜索引擎A 的搜索结果与搜索引擎B 的搜索结果极为相似,则优先选择响应时间最短的搜索引擎。

3.1.2　元搜索引擎搜索规则库的确定为了能够实现“自动为用户选择召回率最高、响应速度最快的搜索引擎数据源”,则要求建立搜索规则库,在该规则库中设定“提取比重”和最近“平均搜索时间”参数,以便为用户提供最佳搜索结果。

搜索规则库的模型如表1所示。

假设经过用户选定共有n 个搜索引擎S 1,S 2,S 3,…,S n ,它们各自的提取比重为W 1,W 2,W 3,…,W n ,最近提取10个结果的“平均搜索时间”为T 1,T 2,T 3,…,T n ,则需要考虑如何根据召回率和最新平均查询响应时间来确定向各基本搜索引擎提取的链接数量。

表1　元搜索引擎搜索规则库建立模型Tab .1　R u l es of search i n g by m eta -search eng i ne序号基本搜索引擎提取比重最近“平均搜索时间”设定提取记录数量设定提取网页时间1搜索引擎S 1W 1T 1N 1ST 1=T 1*N 12搜索引擎S 2W 2T 2N 2ST 2=T 2*N 23搜索引擎S 3W 3T 3N 3ST 3=T 3*N 3………………n搜索引擎S nW nT nN nST n =T n *N n 设每个成员搜索引擎提供m 个搜索结果,故各基本搜索引擎提供的总结果记录数为m ×n 个记录,因此,提取的总记录数Reco rd =m ×n =∑ni =1N i =N 1+N 2+N 3+…+N n第i 个基本搜索引擎提取的记录数为N i =W tW 1+W 2+…+W n×Reco r d由此可以得到第i 个基本搜索引擎提取记录所需时间为:ST i =N i ×T i ,则元搜索引擎系统的最大提取时间为ST max =MAX {ST 1,ST 2,…,ST i ,…,ST n }将这个时间设定为当前元搜索引擎系统的最大限定时间,当某成员搜索引擎在搜索过程中,超出了该最大提取时间还没有输出搜索结果,则取消该搜索进程[4,5]。