第四章网络信息检索(1)(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提 问转成逻辑表达式。是最常用的一种方法。许多网络搜索引擎都 使用了些种方法。 (1)逻辑与:“AND” 或“*” 用于交叉概论或限定关系的组配,以缩小检索范围,提高查 准率。 A AND B 或 A*B:同时满足条件A和B的,才算命中。
(2)逻辑或:OR 或 +
百度图片
• 搜索把搜索范围限定在特定网页中: • 把搜索范围限定在特定站点中: 范冰冰 site:163.com • 图片格式的选择:关键词.文件格式(长城.bmp) jpg:图像颜色逼真 gif:图像所占面积小 bmp:图像大 png:最佳选择图像小且逼真,但技术较新,使用不广 泛
百度网站
• 是一个类似于图书馆分类方式的主题目 录,百度网站导航也采用主题分类的方 法,人工维护、更新,及时为您推荐最 优秀的网络资源,是您在互联网上查找 信息的快速指南。目前百度网站导航总 共分为 5 个大类, 70 多个子类目。
• Near :与with含义相似,但连接的两个 检索词的先后位置可以互换。例:信息 near管理:信息管理,管理信息
• nNear:
邻近检索的表达方式 • With Near • (With) (Near) •W N • “” • “包括以下的完整关键词”
字段检索
限制检索词出现在记录中某一字段范围的方法。
用于并列概念的一组组配,用来表示相同概念的词之间的关 系,可扩大检索范围,有利于提高查全率。 A OR B 或 A+B:只要符合条件A 或B,即算命中。 (3)逻辑非:NOT 或 – 从原来的检索范围内排除不需要的概念,以缩小命中文献范 围,增强检索的准确性。 A NOT B 或 A-B:凡含A不含B的文献为命中。
• 信息分散无序,但关联程度高
• 信息价值差异大、难于管理
自动采集:robots,crawl
• 信息采集机制
人工采集
人员选取
人工提交
• 标引机制:定义检索点并对之标引,建立索引文档
• 搜索机制
基本检索技术: 布尔检索、邻近检索等 新型检索技术: 相关反馈、加权检索等
• 用户界面 :用户友好性
信息搜索
加拿大 日本 英国 韩国 法国 中国 俄罗斯
CA JP UK KR FR CN RU
意大利 新加坡 澳大利亚 德国 美国 香港 台湾
IT SG AU DE US HK TW
• • • •
商业机构 学术机构 网络中心 社会组织
COM AC NET ORG
教育机构 EDU 政府机构 GOV 军事部门 MIL 主机或服务器 HOST
• 百度MP3搜索 是百度在天天更新的数十 亿中文网页中提取MP3链接从而建立的 庞大 MP3歌曲链接库。百度MP3搜索拥 有自动验证链接有效性的卓越功能,总 是把最优的链接排在前列,最大化保证 用户的搜索体验。 百度歌词搜索 ,通过歌曲名或是歌词片 断,都可以用来搜索您想要的歌词
• 百度个性化新闻是可以根据您的兴趣和 习惯设置新闻内容的个性化平台。您可 以设置自己关心的相关主题关键词新闻 (如:篮球、刘德华、旅游等),还可 以选择您关心的地区新闻,例如:定制 北京地区新闻。这是一个完全由您自己 设计的新闻页面,每一个定制的关键词 的摆放顺序完全由您自己选择。
IP(Internet Protocol)是网际协议 TCP/IP协议是互联网得以存在的技术基础,它们使信息 以数据报文的形式在网络上传输。 TCP/IP协议是一组协议集合的名称,其中TCP和IP是集合 中最重要的协议,此外,还有FTP、POP、HTTP协议等。
IP地址
是网络位置的唯一标识,一般用十进制数字表示,如: 202.199.165.1
括号内的内容不 可被拆分; 书名号作为 内容被检索 出来
《》
同左
包括以下全部的 关键词 空格 (near语法) 没有中英文状态的区 别
吸星大法 易筋经
同左
百度格式 域搜索 关键词 site:域名
谷歌格式
位置限定:标题
位置限定:正文 位置限定:网址
intitle:关键词
allintext:关键词 inurl:关键词(win 7 inurl:jiqiao)
文件格式限定
关键词 filetype:文件格式后缀名(pdf,doc,ppt,rtf,xls)
• • • • • •
仔细阅读搜索引擎的帮助信息 明确主题 选择适当的网络检索工具 善用高级检索 选择恰当的关键词 善于分析检索结果
百度
网页搜索
• A:搜索结果标题。点击标题,可以直接打开该结果网页。 B:搜索结果摘要。通过摘要,您可以判断这个结果是否 满足您的需要。 C:百度快照。“快照”是该网页在百度的备份,如果原 网页打不开或者打开速度慢,可以查看快照浏览页面内容。 百度快照只会临时缓存网页的文本内容,所以那些图片、 音乐等非文本信息,仍是存储于原网页。
百度 含义 逻辑或 逻辑与 逻辑非 被引的内容不可 拆分 表达式 A空格︱B “” A空格-(B) “” 例子 吸星大法 ︱易筋经 “吸星大法 易筋经” “吸星大法” -(“易筋 经”) “上海科技大学” 表达式 A空格OR空格B 同左 A空格-B 同左
谷歌 例子 吸星大法 OR 易筋经
“吸星大法” -“易筋经”
• 表达式: 检索词/基本索引字段
附加索引字段=检索词 例:Dialog联机检索系统中,基本索引字段代码: TI 题名、篇名 ID 标引词 AB 摘要 DE 主题词、叙词
附加索引字段:AU 作者 PY 出版年份 JN 刊物名称 CS 作者单 位 LA 语言
(Information retrieval/TI OR search engine/DE) AND PY=2002
D:相关搜索。“相关搜索”是其他和您有相似需求的用 户的搜索方式,按搜索热门度排序。如果您的搜索结果效 果不佳,可以参考这些相关搜索。
• 拼音提示
• 错别字提示
• 英汉互译词典:received是什么意思 龙的英语。
• 计算器和度量衡转换 :log((sin(5))^2)-3+pi -5摄氏度=?华氏度 •
网络信息资源
• 通过计算机网络可以利用的各种信息资源的总和, 即以数字化形式记录的,以多媒体形式表达的, 分布式存储在网络计算机的存储介质以及种类通 信介质上,并通过计算机网络通信方式进行传递 的信息内容的集合。
网络信息资源特点
• 信息量大、传播广泛
• 信息类型多样、内容丰富
• 信息时效性强、动态和不稳定
按包含检索工具数量分
• 单独型:百度
• 集合型:(元搜索引擎)将多个搜索引 擎集成一起并提供一个统一的检索界面 的检索工具。优点:省时、全面。缺点: 准确性差、速度慢。圣博牛搜
• • • • • • • •
布尔检索 邻近检索 字段检索 截词检索 相关反馈 加权检索 模糊检索 多数据库检索
布尔检索
检索技术 布尔检索:与、非 布尔检索:或 提高查准率 √ √ 提高查全率
邻近检索:With
邻近检索:Near 字段检索 截词检索

√ √ √
相关反馈
加权检索 模糊检索 多数据库检索 √ √

√ √
练习
1、分别百度、谷歌搜索: (1)含有“易筋经”和“吸星大法”的网页。 (2)只含有“易筋经”,不包含“吸星大法”的网页。 (3)含有“易筋经”或“吸星大法”的网页。 (4)上海科技大学 (5)电影:手机 (6)武侠小说《神雕侠侣》 指出以上检索结果各是多少条? 2、检索国内外前十名的搜过引擎。
域名地址
• • • • 主机名.网络名.最高层域名 www.gdqy.edu.cn 主机名.广东轻工职业技术学院.教育网.中国 最高层域名可以是 国别域名 国际项级域:用int 代表国际组织: wipo.int(世界知识产权组织) 通用域名 Internet上通过域名地址服务器可将域名地址转换为与 其对应的IP地址。
截词检索
• 截词是指检索者将检索词在他认为合适的地方 截断。 • 截词检索就是用截断的词的一个局部进行的检 索,并认为凡满足这个局部中的所有字符的文 献,都为命中的文献。 • 截词可分为前、中、后截词,又可分为有限截 词和无限截词,通常用“*”表示有限截词, 用“?”表示无限截词。
相关反馈
• 根据对检得结果的分析和计算,抽取有助于提 高检索结果相关度的关键词,将它们用于原有 检索式的修改,然后再据些检索更多的相关结 果。
分析查询
信息组织标引
处理信息 建立索引
信息采集
信息采集
信息检索 用户终端 结果排序 索引数据库
Байду номын сангаас
WWW站点 Gopher站 点 FTP站点
搜索引擎工作流程
按检索机制分
• 搜索引擎:搜索检索 (百度)信息量大、更新及时、无人工干 预;快捷、灵活、直接;信息量过大;黑箱操作
• 目录型检索:浏览检索 (hao123,雅虎,各大搜索引擎的网址 导航)信息准确、导航质量高;随意、自如、无需检索式;缺乏 直接性、系统性、容易失去重点和迷失方向、受目录架构影响 • 混合型检索:clusty
• 在使用逻辑算符时,可用符号“()”改变执行顺序, 不同系统对AND、OR 、NOT 的运算次序有不同的规定, 但括号内的逻辑运算先执行。 • 优点:简单、易学、逻辑性强
• 局限性: A、不承认多个概念间的重要性差异,即没有权重。 B、不能妥善区别和处理检索式中较多的概念与较少 的概念标引的文献。如:A AND B AND C…AND Z 时, 含有若干个提问词与不含任何一提问词是同样对待;A OR B OR C…OR D中,不能把含有所有提问词的文献看 做比只含有一个提问词的文献要更好一些。
• 整个过程由系统自动完成。
• 提高查全率
• 例:sogou
加权检索
• 根据检索要求,赋予同一检索式中各个 检索词以不同的权数。 • 以数字(如:1,2,3,其中3为最高权 数)或符号(如:*)表示。
• 例:金融危机影响:金融危机+影响
模糊检索
• 自动纠正在输入数据库信息和检索式过程中产 生的错误,以保证输入信息的正确性。
一种基于HTTP协议的网络信息资源,是建立在超文本, 超媒体技术基础上,集文字、图形、声音为一体,以直 观的图形界面展现和提供信息的网络信息资源。 • 是互联网上发展最快、规模最大、资源最丰富的一种 网络信息资源形式,是网络信息资源的主流。
TCP/IP
TCP(Transfer Control Protocol)是传输控制协议
邻近检索
• 规定检索词在结果中的相对位置。
• With: 所连接的二个检索词之间没有任何其他的词, 且词的先后位置不能变换。例:信息with管理
• nWith,(n可以是1,2,3……):所连接的检索词之间 可以最多出现n个词,但两个词的先后位置仍不能替换。 例:信息2with管理:信息技术实施管理,信息技术管 理,信息管理均是命中结果的词。
• 支持模糊检索网络系统一旦发现拼写、扫描或 录入错误,就会自动纠错。 • 例:百度
多数据库检索
• 源于大型联机检索系统
• 主要运用于集合型网络信息检索系统 • 技术关键:A、对标引机制和检索功能相异的网络系统 的使用 采用尽量简单的检索式 B、对来自不同网络系统的检索结果的整合 去重合并
检索技术对查准率和查全率的影响
• 天气查询 在百度搜索框中输入您要查询的城市名称加上天气这 个词,您就能获得该城市当天的天气情况。 • 货币换算 要使用百度的内置货币换算器,只需在百度网页搜索 框中键入您需要完成的货币转换,单击“回车”键或 点击“百度一下”按钮即可。 下面是一些查寻示例: 100美元等于多少人民币 1USD=?RMB 5人民币换成新加坡的货币
第四章 网络信息检索
基本概念 网络信息检索系统构成与检索原理 网络信息检索系统类别 网络信息检索方法 网络信息检索技术 主要网络信息检索系统介绍
• • • • • • •
WWW TCP/IP协议 IP地址 域名地址 统一资源定位器 网络信息资源定义 网络信息资源特点
www
• World Wide Web,全球信息网(Web):
统一资源定位器
• Uniform Resource Locator,URL
• 采用一种统一标准的格式指明Internet上信息资源的位置. • 应用协议类型://服务器的主机名(域名或IP地址)/路径名/…../ 文件名 • ftp://ftp.pku.edu.cn/pub/dos/readme.txt • 通过FTP协议,从中国教育网中的北京大学FTP服务器上获取 pub/dos路径下的readme.txt文件。
相关文档
最新文档