关键词搜索引擎组关键词搜索引擎组

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词搜索引擎组
织体系研究
北京大学信息管理系马张华
mzhua@
2006-9-22
关键词搜索引擎组织体系研究
一. 问题的提出
二. 关键词搜索引擎的结构特点
三.构成成分
四.组织要素
五.小结
一. 问题的提出
为什么要讨论关键词搜索引擎或者说文本检索系统的组织体系问题?
因为对关键词搜索引擎或文本检索系
统的组织系统,它的特点、成分、要素以及相互关系等缺乏讨论,影
响对其规律的认识。

一. 问题的提出
信息资源组织是一种根据信息资源特
点、用户需求、应用环境,对信息资源进行处理,使其序化,并按用
户需要的方式加以提供的活动。

所谓组织体系,是序化的,并以一定
方式提供的系统。

一. 问题的提出
早期分类法、标题法的组织体系,一直是比较清楚的。

但是信息组织体系是随着处理对象、需求、应用环
境的变化,而变动的:
–处理对象:从传统形式-电子资源、网络资源
–使用环境:手工-文献数据库-网络搜索引擎
–用户需求:图书馆用户-社会用户、网络用户
一. 问题的提出
组织和检索系统的变化:
早期分类法、标题法的组织体系,检索语言和它的结果是一致的;
特点:先组、直观、线性,可以浏览了解其体系的。

叙词法,文本检索,其组织系统的特点,检索语
言只提供了成分和基本联系,
特点是:后组、隐含、多维的。

无法了解它的全
部系统。

先组与后组检索特点的变化
分类法、标题法组织体系的特点:先组、直观、线性,可以浏览了解其体系的。

先组与后组检索特点的变化水污染污染治理
统计资料
先组与后组特点变化
后组式检索系统研究中的问题:
–如何在观念上适应和认识这一新的组织体系?应如何对它分析、研究?
–起作用的组织成分和要素究竟是哪些?特点
如何?
–各种成分和要素相互关系是怎样的?如何发生作用和影响的?
–如何有效进行研究,我们应该做一些什么?
缺乏应有的讨论。

不利于对规律的了解和研
究改进。

为什么要选择讨论关键词搜索
引擎的组织系统?
•关键词搜索引擎是一种以网络资源为对象,通过文本匹配的方式检索的系统,是网上主流检索工具。

•选择它的原因是:
1.它是典型的后组式的系统;
2.发展比较充分,一些特点比较定型,
反映了发展的水平。

返回
二.关键词搜索引擎组织特点和构成
如何了解关键词搜索引擎的组织体
系?
应该根据其组织特点确定
研究内容!
二.关键词搜索引擎组织特点和构成
•传统系统的特点是先组、定组和显性。

•以等级列举式分类法为例,其类目体系是
用户检索以前预先已经组配好的,结构固
定,并完整地显示的。

•因此,了解传统分类法的体系,可通过对
分类结构的浏览,了解其规律,包括:分
类标准、引用次序、排列次序、横向关
系、类目索引等。

1.关键词检索系统的组织特点
关键词检索系统的组织特点是:
•后组。

没有预先建立的系统展示的浏览体系。

•隐含。

组织系统是隐含的,检索后才能显示。

•自由组配。

存在多种检索和提供的可能。

•从理论上讲,文本检索系统存在无限多的检索和展示的可能性,但在实际使用中,这一系统
只显示与检索相对应的部分内容,并不对其组
织体系进行完整显示。

关键词检索系统的组织特点
基本认识:
•不能采用传统的方式去了解,必须了解它的构成
成分和要素。

–组织的成分和要素、究竟是哪些;
–相互的影响和作用;
–一些应该关注的问题等。

本文不讨论搜索引擎技术方面的内容。

•在这样的系统中组织和检索是结合在一起的。

关键词搜索引擎结构图
二.关键词搜索引擎组织特点和构成
组织特点-后组。

根据检索需要实时组配显示,没有预先建立的完备显示的系统。

-自由组配。

存在多种组织系统。

-隐含。

组织系统是隐含的,检索后才能显示。





-采集机制。

采集方式。

采集器。





二.关键词搜索引擎组织特点和
构成
与传统系统相比的扩展
–采集和检索部分的纳入;


多种相关要素,如链接、用户因素等的纳
三.关键词搜索引擎组成成分
1.基础成分。

采集器。

2.基础结构。

索引,词表等相关工
具。

3.检索机制。

检索界面和提供形
式。

4.检索优化机制。

检索优化形式。

1. 基础成分:采集器
•传统系统中一般采集,搜索引擎扩大了组织系统的外延。

•发展了分布式环境下的采集方式:
–a,人工提交。

如Yahoo!提交服务要求提供名称,URL,地区,描述等数据;
–b,使用搜索软件。

发展了分布式环境下的采
集技术。

如crawlers,spiders or robots
等。

搜索软件工作机制、要点
•搜索软件如何访问和采集网页?
–可以从一组范畴名开始,访问主页;
–根据主页的链接,访问更多的网页;
–保持一访问过和需要继续访问的地址表。

•采集要点


•功能和相关:为存储、索引提供资源,并根据检索需求、索引能力调整搜索对象、范围。

2.基础结构:索引与词表索引类型含义特点
顺排索引顺序记录资源的文本。

通常是全文。

倒排索引词后记录记录网页ID,和位置信息,利用标识语言,记录附加信息,例如,粗体字(within <B> tags)
,标题(within <H1> or <H2>tags),包括锚定文本传统系统不包括锚定文本、URL中的词
结构索引传统系统中一
般不包括。

检索日志
词典
2. 基础结构:索引与词表
–顺排索引。

通常是全文。

–倒排索引。

利用标识语言,记录附加信息,例如,粗体字(within <B> tags),标题(within <H1> or <H2>tags),包括锚定文本、URL中的词等。

–结构索引(链接索引)。

传统文本检索系统中未包括。

–实用索引(utility index):根据查询引擎的特点和排序模块使用的信息类型确定。

–检索日志。

记录用户查询操作,可用来优化检索提供。

–词典。

收入索引中的词,建立控制词集等。

返回
功能和相关:检索提供的基础。

在采集的基础上,结合使用需要构建。

3.检索机制:检索界面和提供形

1)网络关键词检索界面;
2)检索排序;
1)检索机制:检索界面
检索界面具有规定组织提供可能性的作用。

关键词搜索引擎提供:
•简单检索。

供直接输入检索词匹配查询。

•高级检索。

为复杂检索设计的界面。

通常根据逻辑检索需要文本框和选择,通过检索词填写,进行检索。

•专类检索。

特定资源对象的检索,例:图像检
索、新闻检索、论文检索等。

Google的专类检索
网络关键词检索的形式
基本上继承了数据库文本检索技术。

常见的包括:•基本检索。

•布尔检索。

逻辑检索。

结合组配符号或检索框。

•限定检索语言、日期、文献类型。

、站点内的检索

功能与相关:规定了组织和检索提供的可能性。

以索
引为基础同时又对索引提出要求。

2)检索机制:检索排序显示
•排序显示的意义:在返回检索数量的同时,采用检索匹配加权的形式进行排序显示,可以在保障检全率的情况下,将符合检索要求的对象排列在检索结果的前列,提高检准率。

传统文本检索的排序常用的方法
•词频加权。

•结合词位加权。

•结合反文献频率。

•结合引文加权。

(使用较
少)
网络资源数据与文献数据处理中的
相关因素比较
网络资源因素文献数据库对应因素说明
HTML标记文献结构数据
URL发表来源、地址
链接
anchor text
南中类目数据
检索日志
网络关键词检索技术的特点与
传统文本检索的不同
主要表现在:
1.重视查准因素,忽略检全因素。

2.扩大了检索算法的应用范围。

3.扩大了结合多种因素的结合应用能力。

4.更加重视易用性。

功能与相关:检全同时提高检准,索引基础上实
现,并对索引提出要求。

文本检索排序方法的特点
•匹配加权排序模式,可以在提高检全率的同时提高检准率。

•检索算法存在利用知识组织成果的问题。

需要人类知识劳动的成果、人工智能等改进应用:
–将概念关系引入检索和检索支持;

3.4.检索优化机制
•检索优化的含义与必要性
•检索优化的常见形式
检索优化的含义和必要性
检索优化指对用户检索提问提供选择方案,以交互的方式,优化检索查询,改进检索效果。

优化的原因:
–找不到准确表达检索内容的词汇。

–表达不够专指。

未确切表达出用户潜在需求。

–用户不了解逻辑表达式的书写方法。

–检索深化的问题。

调查表明,多数检索只用一个
词。

–检索调整。

改变检索方向,相关查找的需要。

–多种要素检索。

用户很难同时照顾到。

部分常用检索优化的形式
•在检索界面包括了多种检索优化形式,如检索限定的提供、过滤检索等。

•检索纠错功能。

•Similar to。

•利用用户检索查询,提供查询优化。

•在返回结果的基础上聚类,作为二次检索依据。

即采用二
次重组。

功能与相关:改进检索效果,在索引等基础上进行。

并对索引等有要求。

百度的检索优化功能
自动聚类基础上的检索帮助
自动聚类作为二次检索
三.关键词搜索引擎组成成分:
段落小结
•组成成分由多个部分构成,包括采集、索引、检索界面、检索优化等部分,是一个完备的结构。

•与传统组织相比,搜索引擎中组成成分的扩展和变
化。

–采集加入。

–索引中增加链接索引等
–检索的加入。

检索界面、显示形式的定型化、适
用性;检索优化形式的发展,二次重组的采用等
三.关键词搜索引擎组成成分:
段落小结
•各个部分有各自的功能,同时又相互影响。

•例,索引是检索的基础,检索界面的
功能和检索优化等都是在索引的基础上提供的,但采集以及这些部分的要求也同时影响了索引的构建。

•同时,检索要素对索引的建立具有重
要影响。

返回
四.组织要素
•词汇控制:词法、句法
•链接控制等相关因素
•用户因素
•算法的设置
1.词汇控制
1)词法:索引词汇单元的选择;
2)句法
3)词间关系控制的应用-同义词控制、等
级控制、相关控制
1)词法:关于索引单元的选择
•倒排文档中通常以词这一语义单元作为索引单元。

•由于中文文字的特点,中文索引编制中的的两个问题:
–基本存储单单元问题。

选择何种单元。

字、
词、短语?
–汉语中词的获取问题。

•获取来源;
•获取方法;
•词组的获取问题。

•功能:影响速度和相关性。

词汇索引单元的选择和使用索引、取词方案特点使用情况
在索引单元上单汉字索引非语义单元,加大
存储空间和计算量
基本词汇为基础较高检全率使用
词汇取
2)检索句法包含的内容,在检
索中的实际价值是什么。

•任务:解决复杂主题的检索,提高检准率。

使得多种检索成为可能,容易使用。

•句法形式。

-A,确定默认句法形式。

简单检索中增加易用性;
-B,逻辑组配。

规定检索模式。

高级界面是其形式;
-C,确定转换句法。

后者用于用户输入自然语言检索短
句的转换。

•功能:影响组织的可能性和有效性。

受索引影响并作用于索引的编制。

搜索引擎中对检索查询的分解转换
例如:输入“我要检索中文信息动态自动聚类系
统的资料”
转换句法通常排除没有实质意义的词,并进行
分解转换:
例如,识别、排除“我要检索”“的”等无实际检
索意义的词
对“中文信息动态自动聚类系统资料”确定匹配
层次,确定相应权值。

如:
中文信息、动态聚类系统、资料
中文信息、动态聚类、系统、资料
中文、信息、动态、聚类、系统、资料
搜索引擎中对检索查询的分解转换
分解转换中通常关注的问题:
–识别非实质性意义的词,加以排除或降低其重要
性;
–区分匹配层次,使得可以结合层次加以提供,可以
提高检准率;
–应保证检出所有符合条件的检索对象,保证检全
率。

建议使用搜索引擎进行检索调查,分析它们的处理特
点和问题。

3)搜索引擎中词间关系控制
同义控制。

搜索引擎通常不直接结合采用同义词检索的方法。

同义词控制的应用,如:
–作为检索扩展的选项。

如检索“北京大学”,提供北大、pku、peking university等扩展项;
–作为容错检索手段。

–作为检索优化处理的依据,如在进行动态聚类中对同义词进行控制,在概念的层次上实施聚类操作;
等级控制。

相关控制。

–等级聚类和显示。

–检索扩展、二次检索。

相关文档
最新文档