网络信息检索课程ppt Lecture 15 QuestionAnswering
合集下载
信息检索技术基础知识讲义PPT公开课(97页)
• 按照主题性质的不同可分为:
• 标题词
• 单元词
• 叙词
• 关键词
5
2.1 信息检索语言
• 标题词语言:是表征文献内容特征的、经过规
范化处理的名词术语(包括词和短语)。
例如:飞机:plane、airplane、aeroplane
aircraft
用aircraftaircraft一词的检索结果将包括全部有飞机概
配。
用“与”(AND)、“或”(OR)、“非”
(NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系,
这时采用布尔逻辑进行检索项之间的逻辑组配。
• 布尔逻辑算符有三种:
逻辑与、逻辑或、逻辑非
用“与”(AND)、“或”(OR)、“非”
(NOT)来表达。
14
逻辑“与”
截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法
分类号: (TS202.
以交换;
(6) S -sentence
对文献信息内容进行标引;
含义:南京航空航天大学和北京航空航天大学发表的有关无人机研究的文献
关键:构造能够确切表达信息需求的检索式。
特征n
数据库中文献的记录方式
字段名
11
2.2 信息检索技术
2.2.1 布尔逻辑
2.2.2 截词检索
2.2.3 限制检索
2.2.4 位置逻辑
2.2.5 检索策略式
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有
相交关系、同义关系或相关关系,这时
• 标题词
• 单元词
• 叙词
• 关键词
5
2.1 信息检索语言
• 标题词语言:是表征文献内容特征的、经过规
范化处理的名词术语(包括词和短语)。
例如:飞机:plane、airplane、aeroplane
aircraft
用aircraftaircraft一词的检索结果将包括全部有飞机概
配。
用“与”(AND)、“或”(OR)、“非”
(NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系,
这时采用布尔逻辑进行检索项之间的逻辑组配。
• 布尔逻辑算符有三种:
逻辑与、逻辑或、逻辑非
用“与”(AND)、“或”(OR)、“非”
(NOT)来表达。
14
逻辑“与”
截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法
分类号: (TS202.
以交换;
(6) S -sentence
对文献信息内容进行标引;
含义:南京航空航天大学和北京航空航天大学发表的有关无人机研究的文献
关键:构造能够确切表达信息需求的检索式。
特征n
数据库中文献的记录方式
字段名
11
2.2 信息检索技术
2.2.1 布尔逻辑
2.2.2 截词检索
2.2.3 限制检索
2.2.4 位置逻辑
2.2.5 检索策略式
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有
相交关系、同义关系或相关关系,这时
网络信息检索课件
《网络信息检索》教学计划
章次 教学内容 总学 时数 讲授 实验学 教学 学时 时 要求
1 2 3 4 5 6 7 8 9
第1章 绪论 第2章 检索原理和搜索引擎 第3章 多媒体信息下载技术 第4章 文献和科技文献检索技术 第5章 网上期刊数据库检索 第6章 数字图书馆检索 第7章 怎样写文献综述和毕业论文 第8章 素材加工与信息发布技术
2、凡无故旷到两次者(实验和课堂考勤累 计),或作业进度滞后者, “诚信系数” 为0.5,同时在成绩册上给以“黄牌警告”, 限期改正。如两周后作业进度仍未达到正常 进度,转为“红牌警告”。如在规定期间迅 速改正,则可取消“黄牌警告”,诚信度恢 复正常。
网络信息检索第一章 张胜光制作 11
3、凡无故旷到3次者(实验和课堂考
勤累计),或黄牌警告两周后仍无改
进者, 成绩册上转为“红牌警告”, 诚信系数降到0.2,限期一周改正。 如一周后有明显进步,则红牌警告 可以逐步取消。
网络信息检索第一章 张胜光制作 12
4、凡无故旷到4次者(实验和课堂考勤累计),
或红警告一周后仍无改进者,诚信系数为-100,
成绩册上转为“黑牌警告”,取消该生期末考试
网络信息检索第一章 张胜光制作 14
3、期末考试办法
诚信系数 为1
你可以 选择期 末考试 方式
提交网站 申请免试
期末 无纸化 考试
课堂测验 及格
提交课程 设计免试
网络信息检索第一章 张胜光制作
15
4、提交网站免考程序
名额一般不超过该班学生总数
独立完成 全部作业
的10%。如果申请免试的学生超过此 比例,则由任课教师按作品成绩和 提交先后顺序决定免试名单。
速发布技术(论坛、博客、播客、免费空间、 的实例,并对其优缺点进行评述。格式必须
(完整)第二讲网络信息检索基本方法ppt
4.截词检索(truncation/wildcat)
❖ 截词检索又称部分一致检索,是指在检索标识中保留相同的部分, 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。
❖ 截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
8.自然语言检索(natural language search)
❖ 即直接采用自然语言中的字、词、句进行提问式检索, 同一般口语一样。
❖ 智能检索 ❖ Could you please give me some
information on English literature?
❖ 这种智能检索也是搜索引擎发展的趋势。
❖ 又称概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈 包括了该关键词的网址,同时也发来与关键词意义相近的内容。
❖ 如 “检索”, 查找,寻找, 找寻, 找一找…….
❖ 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、 “洋芋”等含义相近或相关的内容。
❖ 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
❖ (S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
《网络信息检索》课件
常见的网络信息检索工具和平台
搜索引擎著名的搜索引擎包括、谷歌、必应,它 们提供全面的互联网信息检索服务。
学术搜索引擎学术搜索引擎如Google学术、学术专注 于学术文献和科研成果的检索。
社交媒体搜索
社交媒体搜索工具如Twitter搜索和微博热搜, 用于搜索和分析社交媒体上的内容。
专业数据库
专业数据库如PubMed和IEEE Xplore,提供 特定领域的学术文献和专业信息。
在线搜索引擎的基本原理和功 能
在线搜索引擎通过抓取和索引互联网上的网页,提供用户快速、准确的检索 功能。
如何使用在线搜索引擎进行检 索
使用关键词、引号、加号、减号等搜索运算符,可以帮助用户更精确地进行 在线搜索。
1
起源
网络信息检索起源于20世纪60年代的计算机科学研究,随着互联网的发展逐渐 成为重要的领域。
2
现状
今天,网络信息检索已经成为人们获取知识、解决问题、进行研究的重要途径, 搜索引擎已经成为人们生活中不可或缺的工具之一。
3
未来
随着技术的不断进步,网络信息检索将继续发展,面临着更多的挑战和机遇。
网络信息检索的应用场景
2 索引构建和优化
信息检索模型用于表示和处理文本数据, 包括向量空间模型和概率模型等。
索引是快速检索信息的关键组件,优化索 引结构和存储方式可以提高检索效率。
Байду номын сангаас
3 查询扩展和推荐
4 语义分析和自然语言处理
通过查询扩展和推荐算法,提供更准确、 丰富的搜索结果,帮助用户满足信息需求。
利用语义分析和自然语言处理技术,提高 搜索结果的准确性,理解用户的查询意图。
搜索引擎的高级查询技巧
高级查询技巧如限定范围、排除结果、使用通配符和搜索语法等,可以提高 搜索效果和准确性。
网络信息资源检索PPT课件
2
数字信息资源的特点
存储介质和传播形式发生变化
将文字,图像及各类音像资料中的声音动态图像结 合在一起,利用数字技术进行制作存储在光盘,磁盘, 硬盘等载体上
以多媒体作为内容特征
集文本图片,动态图像,声音超外国投资等多种形 式为一体
信息资源类型多种多样
包括数据库,电子期刊,电子图书,电子报纸,专 利等正式出版物,以及学位论文,教学课件等灰色文 献
多层次的信息服务功能
检索功能,学科导航,分类主题指南,网上讨论等
3
数字信息资源的特点
更新速度快,时效性强 具备检索系统 不受时间,地域限制。
4
数字信息资源的产生与发展
1960年代初,“化学题录”和“医学索引” 1965年以后,数据库联机检索开始出现,最著
名的如DIALOG,MEDLINE等, 1980年以后,由于卫生通信技术,光纤通信技
精选课件精选课件pptppt33存储介质和传播形式发生变化存储介质和传播形式发生变化将文字图像及各类音像资料中的声音动态图像结将文字图像及各类音像资料中的声音动态图像结合在一起利用数字技术进行制作存储在光盘磁盘合在一起利用数字技术进行制作存储在光盘磁盘硬盘等载体上硬盘等载体上以多媒体作为内容特征以多媒体作为内容特征集文本图片动态图像声音超外国投资等多种形集文本图片动态图像声音超外国投资等多种形式为一体式为一体信息资源类型多种多样信息资源类型多种多样包括数据库电子期刊电子图书电子报纸专包括数据库电子期刊电子图书电子报纸专利等正式出版物以及学位论文教学课件等灰色文利等正式出版物以及学位论文教学课件等灰色文多层次的信息服务功能多层次的信息服务功能检索功能学科导航分类主题指南网上讨论等检索功能学科导航分类主题指南网上讨论等精选课件精选课件pptppt44更新速度快时效性强更新速度快时效性强具备检索系统具备检索系统不受时间地域限制
数字信息资源的特点
存储介质和传播形式发生变化
将文字,图像及各类音像资料中的声音动态图像结 合在一起,利用数字技术进行制作存储在光盘,磁盘, 硬盘等载体上
以多媒体作为内容特征
集文本图片,动态图像,声音超外国投资等多种形 式为一体
信息资源类型多种多样
包括数据库,电子期刊,电子图书,电子报纸,专 利等正式出版物,以及学位论文,教学课件等灰色文 献
多层次的信息服务功能
检索功能,学科导航,分类主题指南,网上讨论等
3
数字信息资源的特点
更新速度快,时效性强 具备检索系统 不受时间,地域限制。
4
数字信息资源的产生与发展
1960年代初,“化学题录”和“医学索引” 1965年以后,数据库联机检索开始出现,最著
名的如DIALOG,MEDLINE等, 1980年以后,由于卫生通信技术,光纤通信技
精选课件精选课件pptppt33存储介质和传播形式发生变化存储介质和传播形式发生变化将文字图像及各类音像资料中的声音动态图像结将文字图像及各类音像资料中的声音动态图像结合在一起利用数字技术进行制作存储在光盘磁盘合在一起利用数字技术进行制作存储在光盘磁盘硬盘等载体上硬盘等载体上以多媒体作为内容特征以多媒体作为内容特征集文本图片动态图像声音超外国投资等多种形集文本图片动态图像声音超外国投资等多种形式为一体式为一体信息资源类型多种多样信息资源类型多种多样包括数据库电子期刊电子图书电子报纸专包括数据库电子期刊电子图书电子报纸专利等正式出版物以及学位论文教学课件等灰色文利等正式出版物以及学位论文教学课件等灰色文多层次的信息服务功能多层次的信息服务功能检索功能学科导航分类主题指南网上讨论等检索功能学科导航分类主题指南网上讨论等精选课件精选课件pptppt44更新速度快时效性强更新速度快时效性强具备检索系统具备检索系统不受时间地域限制
网络信息检索培训讲座21页PPT
结束语
网络信息检索的基本方法和技巧具有通用性。
谢谢!
16、业余生活要有意义,不要越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
省校图书馆 网上信息资源检索培训
主讲: 省校图书馆读者服务部 郑学艳
广东电大图书馆主要的网上资源
我馆现有六个大型数据库:
中国期刊网学术期刊全文数据库 维普中文科技期刊数据库 优秀博硕士学位论文全文数据库 中国学术会议全文数据库(万方) 万方数据资源 全文电子图书数据库
广东电大图书馆主要的网上资源
四个中小型数据库:
电大试题库 道琼斯财经资讯(教育版) 人大复印资料全文检索 财务会计案例、法规数据库
常用全文期刊数据库的的简要比较
常用全文期刊数据库:
中国期刊网学术期刊全文数据库 维普中文科技期刊数据库 万方数字化期刊 人大复印资料数据库
以上四种期刊数据库的的简要比较
(1)收录信息量 (2)收录期刊范围与时效性 (3)收录期刊的平均学术水平
的期刊文章
中国期刊网期刊全文数据库检索实例 1
步骤: A.登录期刊网主页 B.通过检索点检索: 检索途径:篇名 检索词 : “数字图书馆”+“发展趋势”
中国期刊网期刊全文数据库检索实例 2
(2)查广东广播电视大学李力所发表的 文章
步骤: A.登录期刊网主页 B.通过检索点检索: 检索途径:作者 机构 检索词: 李力 广东广播电视大学
网络信息检索培训讲座
1、合法而稳定的权力在使用得当时很 少遇到 抵抗。 ——塞 ·约翰 逊 2、权力会使人渐渐失去温厚善良的美 德。— —伯克
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
If that works, you get the human-curated answers to that known question If that fails, it falls back to regular web search
A potentially interested middle ground, but a fairly weak shadow of real QA
“I like the Internet. Really, I do. Any time I need a piece of shareware or I want to find out the weather in Bogota … I’m the first guy to get the modem humming. But as a source of information, it sucks. You got a billion pieces of data, struggling to be heard and seen and downloaded, and anything I want to know seems to get trampled underfoot in the crowd.” M. Marshall. The Straw Men. HarperCollins Publishers, 2002.
People want to ask questions…
Examples from AltaVista query log
who invented surf music? how to make stink bombs where are the snowdens of yesteryear? which english translation of the bible is used in official catholic liturgies? how to do clayart how to copy psx how tall is the sears tower?
MURAX (Kupiec 1993): Encyclopedia answers Hirschman: Reading comprehension tests TREC QA competition: 1999–
AskJeeves
AskJeeves is probably most hyped example of “Question answering” It largely does pattern matching to match your question to their own knowledge base of questions
A Brief (Academic) History
In some sense question answering is not a new research area Question answering systems can be found in many areas of NLP research, including:
Online QA Examples
Examples
iask: zhidao: / 知识” “知识”: http/// AnswerLogic, AnswerFriend, Start, Quasm, Mulder, Webclopedia, etc.
Sample TREC questions
1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"? 2. What was the monetary value of the Nobel Peace Prize in 1989? 3. What does the Peugeot company manufacture? 4. How much did Mercury spend on advertising in 1993? 5. What is the name of the managing director of Apricot Computer? 6. Why did David Koresh ask the FBI for a word processor? 7. What debts did Qintex group leave? 8. What is the name of the rare neurological disease with symptoms such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?
From 2002 the systems are only allowed to return a single exact answer and the notion of confidence has been introduced.
The TREC Document Collection
The current collection uses news articles from the following sources:
It’s even not about IBM!
No relevant info
Seems closing to answer?
The Google answer #2
Take the question and try to find it as a string on the web Return the next sentence on that web page as the answer Works brilliantly if this exact question appears as a FAQ question, etc. Works lousily most of the time
Lecture 15 Question Answering
(Basedቤተ መጻሕፍቲ ባይዱon: Rada Mihalcea’s coursware, some of his slides were adapted from Chris Manning’s IR course, who in turn borrowed them from Nicholas Kushmerick, ISI)
Examples from Excite query log (12/1999)
how can i find someone in texas where can i find information on puritan religion? what are the 7 wonders of the world how can i eliminate stress What vacuum cleaner does Consumers Guide recommend
Question Answering at TREC
Question answering competition at TREC consists of answering a set of 500 fact-based questions, e.g., “When was Mozart born?”. For the first three years systems were allowed to return 5 ranked answer snippets (50/250 bytes) to each question.
Remind of the line about monkeys and typewriters producing Shakespeare
But a slightly more sophisticated version of this approach has been revived in recent years with considerable success…
Page about the founding of PRC (Can deduce answer)
Page about propaganda in China (Can deduce answer)
But often it doesn’t…
Question: How much money did IBM spend on advertising in 2006? Answer: I dunno, but I’d like to …
AP newswire, 1998-2000 New York Times newswire, 1998-2000 Xinhua News Agency newswire, 1996-2000
In total there are 1,033,461 documents in the collection. 3GB of text Clearly this is too much text to process entirely using advanced NLP techniques so the systems usually consist of an initial information retrieval phase followed by more advanced processing. Many supplement this text with use of the web, and other knowledge bases
Around 12–15% of query logs
The Google answer #1
Include question words etc. in your stop-list Do standard IR Sometimes this (sort of) works: Question: Who was the first chairman of People's republic of China? Answer: Mao Zedong.
A potentially interested middle ground, but a fairly weak shadow of real QA
“I like the Internet. Really, I do. Any time I need a piece of shareware or I want to find out the weather in Bogota … I’m the first guy to get the modem humming. But as a source of information, it sucks. You got a billion pieces of data, struggling to be heard and seen and downloaded, and anything I want to know seems to get trampled underfoot in the crowd.” M. Marshall. The Straw Men. HarperCollins Publishers, 2002.
People want to ask questions…
Examples from AltaVista query log
who invented surf music? how to make stink bombs where are the snowdens of yesteryear? which english translation of the bible is used in official catholic liturgies? how to do clayart how to copy psx how tall is the sears tower?
MURAX (Kupiec 1993): Encyclopedia answers Hirschman: Reading comprehension tests TREC QA competition: 1999–
AskJeeves
AskJeeves is probably most hyped example of “Question answering” It largely does pattern matching to match your question to their own knowledge base of questions
A Brief (Academic) History
In some sense question answering is not a new research area Question answering systems can be found in many areas of NLP research, including:
Online QA Examples
Examples
iask: zhidao: / 知识” “知识”: http/// AnswerLogic, AnswerFriend, Start, Quasm, Mulder, Webclopedia, etc.
Sample TREC questions
1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"? 2. What was the monetary value of the Nobel Peace Prize in 1989? 3. What does the Peugeot company manufacture? 4. How much did Mercury spend on advertising in 1993? 5. What is the name of the managing director of Apricot Computer? 6. Why did David Koresh ask the FBI for a word processor? 7. What debts did Qintex group leave? 8. What is the name of the rare neurological disease with symptoms such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?
From 2002 the systems are only allowed to return a single exact answer and the notion of confidence has been introduced.
The TREC Document Collection
The current collection uses news articles from the following sources:
It’s even not about IBM!
No relevant info
Seems closing to answer?
The Google answer #2
Take the question and try to find it as a string on the web Return the next sentence on that web page as the answer Works brilliantly if this exact question appears as a FAQ question, etc. Works lousily most of the time
Lecture 15 Question Answering
(Basedቤተ መጻሕፍቲ ባይዱon: Rada Mihalcea’s coursware, some of his slides were adapted from Chris Manning’s IR course, who in turn borrowed them from Nicholas Kushmerick, ISI)
Examples from Excite query log (12/1999)
how can i find someone in texas where can i find information on puritan religion? what are the 7 wonders of the world how can i eliminate stress What vacuum cleaner does Consumers Guide recommend
Question Answering at TREC
Question answering competition at TREC consists of answering a set of 500 fact-based questions, e.g., “When was Mozart born?”. For the first three years systems were allowed to return 5 ranked answer snippets (50/250 bytes) to each question.
Remind of the line about monkeys and typewriters producing Shakespeare
But a slightly more sophisticated version of this approach has been revived in recent years with considerable success…
Page about the founding of PRC (Can deduce answer)
Page about propaganda in China (Can deduce answer)
But often it doesn’t…
Question: How much money did IBM spend on advertising in 2006? Answer: I dunno, but I’d like to …
AP newswire, 1998-2000 New York Times newswire, 1998-2000 Xinhua News Agency newswire, 1996-2000
In total there are 1,033,461 documents in the collection. 3GB of text Clearly this is too much text to process entirely using advanced NLP techniques so the systems usually consist of an initial information retrieval phase followed by more advanced processing. Many supplement this text with use of the web, and other knowledge bases
Around 12–15% of query logs
The Google answer #1
Include question words etc. in your stop-list Do standard IR Sometimes this (sort of) works: Question: Who was the first chairman of People's republic of China? Answer: Mao Zedong.