第五章计算机检索技术与数据库检索方式
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3截词算符(Truncating operators) 截词算符( 在英语词汇中, 在英语词汇中,一个词可能有多种 形态,如词的单,复数形式的不同, 形态,如词的单,复数形式的不同,英 美拼写方法不同,词性不同等.如果检 美拼写方法不同,词性不同等. 索时将这类词全部输入进去, 索时将这类词全部输入进去,会增加检 索时间和费用, 索时间和费用,采用截词法可解决这一 问题. 问题.
(2) (N)与(nN)算符 ) 与 算符
N是near的缩写 是 的缩写
特点: 词序不限 中间不可插词, 词序不限, 特点:N词序不限,中间不可插词,但两 词间可有一个标点,连字符或空格. 词间可有一个标点,连字符或空格. nN词序不限,中间可插入N 个词. 词序不限,中间可插入 个词. 词序不限 如:econom?? (2N)recovery可能检出 可能检出 economic recovery,recovery of the economy,
算符与(nW)算符 W 是word与 (1) (W)算符与 ) 算符与 算符 与 with的缩写. 的缩写. 的缩写 特点: 词序不变 中间不可插词, 词序不变, 特点:W词序不变,中间不可插词,但两 词间可有一个标点,连字符或空格. 词间可有一个标点,连字符或空格. nW词序不变,中间可插入 个词. 词序不变, 词序不变 中间可插入N 个词. 如:potential (w) energy可能检出 可能检出 potential energy and function 又如: 可能检出gone with the 又如:gone (2w)wind 可能检出 wind
位置算符 1)EI NEAR Bridge NEAR Piling*
表示这两个词要彼此接近,前后顺序不限. W/n Pig*W/2pine*表示两个词的距离不能超过n个单词 Adj Channel adj tunnel表示含有这两个词,两个词相邻, 位置一定 2)ISI Proceedings 用同句算符(SAME):如Channel same 如 tunnel,表示channel tunnel,表示channel 和tunnel 出现在同一句子中才 符合检索条件. 符合检索条件.
的缩写. (3)同字段检索 )同字段检索A(F)B,F是field的缩写. , 是 的缩写 特点: , 两词必须出现在同一字段中 两词必须出现在同一字段中, 特点:A,B两词必须出现在同一字段中, 词序与词量不限. 词序与词量不限. 如:environment (F)impact/DE,表示两个 表示两个 词必须同时出现在叙词字段内. 词必须同时出现在叙词字段内.
检 索 要 逻辑检 求 索 概念相 交,限 定 概念平 行,并 列
某一主题去 掉一部分相 关主题
课题
表达式
Fra Baidu bibliotek
检 索 结 果
AND与 *
计算机用于制图
A
B
OR 或+
土地管理与土地利用 A B
NOT非 -
除光电测距以外的 A 电磁波测距 B
A AND B 缩小检 A*B 索范围 提高查 准率 A OR B 扩大检 索范围 A+B 提高查 全率 B NOT A 提高查 准率 B-A
Pre/n(表示前后两词之间最多插入n (表示前后两词之间最多插入 个词, 个词,前后位置一定 ) 如:U.S pre/n economic policy可 可 检出U.S aid 检出 economic policy,or U.S wartime economic policy .
截词符或通配符 Proceedings\ProQuest\ 如:CSA\ISI Proceedings\ProQuest\CA用通配符 "?"和截词符"* " 和截词符 * patent*", 输入 "patent* ,可以检索到 patent,patents, , ,(无限截断 无限截断) patented等,(无限截断) 输入"wom?n",可以检索到woman和women. 输入"wom?n",可以检索到woman和women. woman 输入"fib?? ,可检索到fiber fibre.( fiber和 .(有限 输入"fib??",可检索到fiber和 fibre.(有限 截断) 截断)
(2)无限截断:在检索词后加一个"?", )无限截断:在检索词后加一个" 表示该词后可加任意个字符. 表示该词后可加任意个字符.使用无限截 所截词根不能太短, 词,所截词根不能太短,否则会输出许多 无关文献,造成误检. 无关文献,造成误检. 如:computer? 可检出 computers,computering,computered,c omputerization.
第五章
计算机信息检索的 基本技术与方法
一,计算机信息检索的基本技术: 计算机信息检索的基本技术: 布尔逻辑,截词检索,字段检索, 布尔逻辑,截词检索,字段检索,位置算符 等. 在进行计算机检索时, 在进行计算机检索时,有时有一些比较复杂 的课题, 的课题,如:"GPS在建筑中的应用",既涉 GPS在建筑中的应用" 在建筑中的应用 及GPS,又涉及建筑,还有"应用",这时候 GPS,又涉及建筑,还有"应用" 就要编制出满足要求的计算机检索式, 就要编制出满足要求的计算机检索式,它是机检 的基础. 的基础.
所谓截词检索, 所谓截词检索,是指在检索标识中保留相 同的部分, 同的部分,用相应的截词符代替可变化部 分.检索中计算机会将所有含有相同部分 标识的记录全部检索出来.常用" 标识的记录全部检索出来.常用"?", "*"符号表示. "符号表示.
(1)有限截词.即在检索词后后截几个有限 )有限截词. 的字母,如名词的单复数,动词的词尾变化等. 的字母,如名词的单复数,动词的词尾变化等. 如输入computer? ?表示有 个字母变化,可 表示有0-1个字母变化 如输入 表示有 个字母变化, 检出computer和computers. 和 检出 输入stud???表示截断处有 个字母变化, 表示截断处有0-3个字母变化 输入 表示截断处有 个字母变化, 可检出study,studies,studied,studing. 可检出
4括号检索(Parentheses) 括号检索(Parentheses)
用于改变运算的先后次序, 用于改变运算的先后次序,括号内的内容做优 先运算. 先运算. 用"( )"可以表示优先级.如比较 "可以表示优先级. (GPS OR GIS)AND China ) GPS OR GIS AND China EI 中的表示方法:Relevance AND 中的表示方法: (( Aalbersberg WN AU)OR (cool WN AU))
的缩写. (4) 同句检索 ) 同句检索A(S)B,S是sentence的缩写. , 是 的缩写 特点: , 出现在同一自然句中 子字段), 出现在同一自然句中( 特点:A,B出现在同一自然句中(子字段), 其词序与词量不受限制. 其词序与词量不受限制. 可检出electric power 如:electric (S)plant可检出 可检出 plants 中的NEAR;PQDD中的 中的W/n (两词间距小 如:EI中的 中的 中的 两词间距小 个单词, 于n个单词,且前后位置任意 ,Pre/n (两词间距 个单词 且前后位置任意), 两词间距 小于n个单词,且前后位置一定 小于 个单词,且前后位置一定) 个单词
5)PQDD ) W/n (两词间距小于 个单词,且前后位置 两词间距小于n个单词 两词间距小于 个单词, 任意),Pre/n (两词间距小于 个单词,且前 两词间距小于n个单词 任意 , 两词间距小于 个单词, 后位置一定) 后位置一定
6)ProQuest ) W/n(表示连接两个词之间可以插 ( 入n个词 ,前后位置可颠倒) 个词 前后位置可颠倒) 如:Education w/5 intenet 表示 education和internet之间可以插入 和 之间可以插入5 之间可以插入 并且前后位置可以颠倒. 个词 ,并且前后位置可以颠倒.
(4) 叙词字段或受控词字段(Destriptor Field, ) 叙词字段或受控词字段( Field/DE; 或 Controlled term Field-SU) 这一字段是标 引人员给文献标引的反映其主题概念的词, 引人员给文献标引的反映其主题概念的词,这些 词来自规范化的词表.也称主题词. 词来自规范化的词表.也称主题词. (5)自由词字段或非受控词字段(Identified )自由词字段或非受控词字段( Field, /ID; Keyword Field , /KW ;Uncontrolled term Field) 这一字段也是标引人员给文献标引 ) 反映其主题概念的词, 反映其主题概念的词,但这些词不是规范化词表 中的词. 中的词.
5,字段限制检索 组成数据库的最小单位是记录, 组成数据库的最小单位是记录,一条完整记录中的 每一个著录事项为字段. 每一个著录事项为字段.献书目型数据库的记录基本 包括下列字段: 包括下列字段: (1) 存取号字段(AN, Access Number)这是计算 Number) ) 存取号字段( 机检索系统为每个数据库的每篇记录规定的能被计算 机识别的特定号码.在同一数据库中, 机识别的特定号码.在同一数据库中,每篇文献记录 只有一个存取号; 只有一个存取号; 名字段( /TI) (2) 篇(题)名字段(Title Field, /TI) ) (3) 文摘字段(Abstract Field, /AB) ) 文摘字段(
2 位置算符 位置算符(Proximity Operators) 位置算符是表示检索词之间位置关系的一种运 算符.由于英文对一句话有多种表达方法, 算符.由于英文对一句话有多种表达方法,写法可 能不同. 在铁路桥研究中的应用" 能不同.如:"GPS在铁路桥研究中的应用"这个 在铁路桥研究中的应用 课题,用英文表达可能是" 课题,用英文表达可能是"Using of GPS in Railway Bridge", 也可能是"Using of GPS in 也可能是" Bridge of Railway",因而可能编制出这样的检索 , 式,GPS AND (Railway (2N)Bridge) 我们可以通过位置检索提高检索的准确率
EI用 词根算符) EI用"* " 和"$"(词根算符) 如:Optic*检索结果中包括以optic 开头后面加 检索结果中包括以optic :Optic*检索结果中包括以 任意 多个字母的词例如optic, 多个字母的词例如optic, optics,optical 等 manager(强调语义) $manager(强调语义)检索出与该词根具 有同样语意的词如 将检出managers, $manage 将检出managers, managerial 和management 等词 ※ 通配符不能用在检索词的最前面
3)CSA: within "X" 表示两词之间不得多于x个词,前后位置任意 如"women within 8 movement" (顺序不定) 4)Elsevier: ADJ表示两词相邻,前后顺序固定,与"词检 索"的结果相同;NEAR或NEAR(N),表 示两词相邻,中间可插入少于或等于n个单 词,前后顺序可以发生变化,如果不使用 (N),系统默认值为10
1布尔逻辑检索 Retrieval) (Boolean Logic Retrieval) 逻辑检索的基础是逻辑运算, 逻辑检索的基础是逻辑运算,逻辑运算 中最常用的是布尔逻辑运算符(Boolean 中最常用的是布尔逻辑运算符( Operators) Logic Operators),即与,或,非三种运 算符号,用它们可以表示概念之间的逻辑 算符号,用它们可以表示概念之间的逻辑 关系. 关系.
(3)中间截断:在检索词中间加一个或 )中间截断: 几个? 主要解决一些英美拼写不同, 几个?号,主要解决一些英美拼写不同, 单复数形式的不同的词的输入,可简化 单复数形式的不同的词的输入, 输入. 输入. 输入wom?n可检出 如:输入 可检出 woman,women
各种算符在数据库中的实际应用