信息检索导论第十一章
中国科学院大学现代信息检索课后习题答案
《信息检索导论》课后练习答案王斌最后更新日期 2013/9/28第一章布尔检索习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档 1 new home sales top forecasts文档 2 home sales rise in july文档 3 increase in home sales in july文档 4 july new home sales rise习题1-2 [*] 考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;解答:breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0b. 画出该文档集的倒排索引(参考图 1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?a.schizophrenia AND drug解答:{文档1,文档2}b.for AND NOT (drug OR approach)解答:{文档4}习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。
如果不能的话,那么我们能达到的时间复杂度是多少?a.Brutus AND NOT Caesarb.Brutus OR NOT Caesar解答:a.可以在O(x+y)次完成。
文献翻译----信息检索导论
本科毕业设计外文文献及译文文献、资料题目:Introduction to Information Retrieval 文献、资料来源:网络文献、资料发表(出版)日期:2008.3.20院(部):专业:班级:姓名:学号:指导教师:翻译日期:外文文献:Introduction to Information RetrievalThe meaning of the term information retrieval can be very broad. Just getting a credit card out of your wallet so that you can type in the card number is a form of information retrieval. However, as an academic field of study,information retrieval might be defined thus: Information retrieval (IR) is finding material of an unstructured nature that satisfies an information need from within large collections.As defined in this way, information retrieval used to be an activity that only a few people engaged in: reference librarians, paralegals, and similar professional searchers. Now the world has changed, and hundreds of millions of people engage in information retrieval every day when they use a web search engine or search their email.1Information retrieval is fast becoming the dominant form of information access, overtaking traditional database- style searching.IR can also cover other kinds of data and information problems beyond that specified in the core definition above. The term “unstructured data” refers to data which does not have clear, semantically overt, easy-for-a-computer structure. It is the opposite of structured data, the canonical example of which is a relational database, of the sort companies usually use to maintain product inventories and personnel records. In reali ty, almost no data are truly “unstructured”. This is definitely true of all text data if you count He latent linguistic structure of human languages. But even accepting that the intended notion of structure is overt structure, most text has structure, such as headings and paragraphs and footnotes, which is commonly represented in documents by explicit markup. IR is also used to facilitate “semi-structured” search such as finding a document where the title contains Java and the body contains threading.The field of information retrieval also covers supporting users in browsing or filtering document collections or further processing a set of retrieved documents. Given a set of documents, clustering is the task of coming up with a good grouping of the documents based on their contents. It is similar to arranging books on a bookshelf according to their topic. Given a set of topics, standing information needs, or other categories, classification is the task of deciding which classes, if any, each of a set of documents belongs to. It is often approached by first manually classifying some documents and then hoping to be able to classify new documentsautomatically.Information retrieval systems can also be distinguished by the scale at which they operate, and it is useful to distinguish three prominent scales. In web search, the system has to provide search over billions of documents stored on millions of computers. Distinctive issues need to gather documents for indexing, being able to build systems that work efficiently at this enormous scale, and handling particular aspects of the web, such as the exploitation of hypertext and not being fooled by site providers manipulating page content in an attempt to boost their search engine rankings, given the commercial importance of the web. We focus on all these issues in Chapters 19–21. At the other extreme is personal information retrieval. In the last few years, consumer operating systems have integrated information retrieval. Email programs usually not only provide search but also text classification: they at least provide a spam filter, and commonly also provide either manual or automatic means for classifying mail so that it can be placed directly into particular folders. Distinctive issues here include handling the broad range of document types on a typical personal computer, and making the search system maintenance free and sufficiently lightweight in terms of startup, processing, and disk space usage that it can run on one machine without annoying its owner. In between is the space of enterprise, institutional, and domain-specific search, where retrieval might be provided for collections such as a corporation’s internal documents, a database of patents, or research articles on biochemistry. In this case, the documents will typically be stored on centralized file systems and one or a handful of dedicated machines will provide search over the collection.This book contains techniques of value over this whole spectrum, but our coverage of some aspects of parallel and distributed search in web-scale search systems is comparatively light owing to the relatively small published literature on the details of such systems. However, outside of a handful of web search companies, a software developer is most likely to enco unter the personal search and enterprise scenarios.In this chapter we begin with a very simple example of an information retrieval problem, and introduce the idea of a term-document matrix and the central inverted index data structure. We will then examine the Boolean retrieval model and how Boolean queries are processed.An example information retrieval problemA fat book which many people own is Shakespeare’s Collected Works. Sup-pose you wantedto determine which plays of Shakespeare contain the words Brutus AND Caesar AND NOT Calpurnia. One way to do that is to start at the beginning and to read through all the text, noting for each play whether it contains Brutus and Caesar and excluding it from consideration if it contains Calpurnia. The simplest form of document retrieval is for a computer to do this sort of linear scan through documents. This process is commonly referred to as grepping through text, after the Unix command grep, which performs this process. Grepping through text can be a very effective process, especially given the speed of modern computers, and often allows useful possibilities for wildcard pattern matching through the use of regular expressions. With modern computers, for simple querying of modest collections, you really need nothing more.But for many purposes, you do need more:1. To process large document collections quickly. The amount of online data has grown at least as quickly as the speed of computers, and we would now like to be able to search collections that total in the order of billions to trillions of words.2. To allow more flexible matching operations. For example, it is impractical to perform the query Romans NEAR countrymen with grep, where NEAR might be defined as “within 5 words” or “within the same sentence”.3. To allow ranked retrieval: in many cases you want the best answer to an information need among many documents that contain certain words. The way to avoid linearly scanning the texts for each query is to index the documents in advance. Let us stick with Shakespeare’s Collected Works, and use it to introduce the basics of the Boolean retrieval model. Suppose we record for each document –here a play of Shakespeare’s –whether it contains each word out of all the words Shakespeare used (Shakespeare used about 32,000 different words). The result is a binary term-document incidence matrix, as in Figure 1.1. Terms are the indexed units they are usually words, and for the moment you can think of them as words, but the information retrieval literature normally speaks of terms because some of them, such as perhaps I-9 or Hong Kong are not usually thought of as words. Now, depending on whether we look at the matrix rows or columns, we can have a vector for each term, which shows the documents it appears in, or a vector for each document, showing the terms that occur in it.To answer the query Brutus AND Caesar AND NOT Calpurnia, we take the vectors forBrutus, Caesar and Calpurnia, complement the last, and then do a bitwise AND: The answers for this query are thus Antony and Cleopatra and Hamlet.The Boolean retrieval model is a model for information retrieval in which we can pose any query which is in the form of a Boolean expression of terms, that is, in which terms are combined with the operators AND, OR, and NOT. The model views each document as just a set of words. Let us now consider a more realistic scenario, simultaneously using the opportunity to introduce some terminology and notation. Suppose we have N = 1 million documents. By documents we mean whatever units we have decided to build a retrieval system over. They might be individual memos or chapters of a book... We will refer to the group of documents over which we perform retrieval as the collection. It is sometimes also referred to as a corpus. Suppose each document is about 1000 words long. If we assume an average of 6 bytes per word including spaces and punctuation, then this is a document collection about 6 GB in size. Typically, there might be about M = 500,000 distinct terms in these documents. There is nothing special about the numbers we have chosen, and they might vary by an order of magnitude or more, but they give us some idea of the dimensions of the kinds of problems we need to handle. We will discuss and model these size assumptions in Section 5.1.Our goal is to develop a system to address the ad hoc retrieval task. This is the most standard IR task. In it, a system aims to provide documents from within the collection that are relevant to an arbitrary user information need, communicated to the system by means of a one-off, user-initiated query. An information need is the topic about which the user desires to know more, and is differentiated from a query, which is what the user conveys to the computer in an attempt to communicate the information need. A document is relevant if it is one that the user perceives as containing information of value with respect to their personal information need. Our example above was rather artificial in that the information need was defined in terms of particular words, whereas usually a user is interested in a topic like “pipeline leaks” and would like to find relevant documents regardless of whether they precisely use those words or express the concept with other words such as pipeline rupture. To assess the effectiveness of an IR system, a user will usually want to know two key statistics about the system’s returned results for a query:Precision: What fractions of the returned results are relevant to the information need?Recall: What fractions of the relevant documents in the collection were returned by thesystem?Detailed discussion of relevance and evaluation measures including precision and recall is found in Chapter 8.We now cannot build a term-document matrix in a naive way. A 500K ×1M matrix has half-a-trillion 0’s and 1’s –too many to fit in a computer’s memory. But the crucial observation is that the matrix is extremely sparse, that is, it has few non-zero entries. Because each document is 1000 words long, the matrix has no more than one billion 1’s, so a minimum of 99.8% of the cells are zero. A much better representation is to record only the things that do occur, that is the 1positions.This idea is central to the first major concept in information retrieval, the inverted index. The name is actually redundant: an index always maps back from terms to the parts of a document where they occur. Nevertheless, inverted index, or sometimes inverted file, has become the standard term in information retrieval.3 the basic idea of an inverted index is shown in Figure 1.3. We keep a dictionary of terms. Then for each term, we have a list that records which documents the term occurs in. Each item in the list – which records that a term appeared in a document –is conventionally called a posting. The list is then called a postings list, and all the postings lists taken together are referred to as the postings. The dictionary in Figure 1.3 has been sorted alphabetically and each postings list is sorted by document ID. We will see why this is useful in Section 1.3, below, but later we will also consider alternatives to doing this.A first take at building an inverted indexTo gain the speed benefits of indexing at retrieval time, we have to build the index in advance. The major steps in this are:1. Collect the documents to be indexed.2. Tokenize the text, turning each document into a list of tokens.3. Do linguistic preprocessing, producing a list of normalized tokens.4. Index the documents that each term occurs in by creating an inverted index, consisting of a dictionary and postings.We will define and discuss the earlier stages of processing, that is, steps 1–3, in Section 2.2. Until then you can think of tokens and normalized tokens as also loosely equivalent to words. Here, we assume that the first 3 steps have already been done, and we examine building a basicinverted index by sort-based indexing.Within a document collection, we assume that each document has a unique serial number, known as the document identifier. During index construction, we can simply assign successive integers to each new document when it is first encountered. The input to indexing is a list of normalized tokens for each document, which we can equally think of as a list of pairs of term and docID, as in Figure 1.4.The core indexing step is sorting this list so that the terms are alphabetical, giving us the representation in the middle column of Figure 1.4. Multiple occurrences of the same term from the same document are then merged.5 Instances of the same term are then grouped, and the result is split into a dictionary and postings, as shown in the right column of Figure 1.4. Since a term generally occurs in a number of documents, this data organization already reduces the storage requirements of the index. The dictionary also records some statistics, such as the number of documents which contain each term. This information is not vital for a basic Boolean search engine, but it allows us to improve the efficiency of the search engine at query time, and it is a statistic later used in many ranked retrieval models. The postings are secondarily sorted by docID. This provides the basis for efficient query processing. This inverted index structure is essentially without rivals as the most efficient structure for supporting ad hoc text search.In the resulting index, we pay for storage of both the dictionary and the postings lists. The latter are much larger, but the dictionary is commonly kept in memory, while postings lists are normally kept on disk, so the size of each is important, and in Chapter 5 we will examine how each can be optimized for storage and access efficiency.What data structure should be used for a postings list? A fixed length array would be wasteful as some words occur in many documents, and others in very few. For an in-memory postings list, two good alternatives are singly linked lists or variable length arrays. Singly linked lists allow cheap insertion of documents into postings lists, and naturally extend to more advance indexing strategies such as skip lists, which require additional pointers. V ariable length arrays win in space requirements by avoiding the overhead for pointers and in time requirements because their use of contiguous memory increases speed on modern processors with memory caches. Extra pointers can in practice been coded into the lists as offsets. If updates are relatively infrequent, variable length arrays will be more compact and faster to traverse. We can also use ahybrid scheme with a linked list of fixed length arrays for each term. When postings lists are stored on disk, they are stored as a contiguous run of postings without explicit pointers, so as to minimize the size of the postings list and the number of disk seeks to read a postings list into memory.中文译文:信息检索导论在信息检索这个词的含义非常广。
信息检索导论
• 中国大学MOOC——爱课程
(三)提高研究效率
1、文件类型限定功能 filetype 我们在用搜索引擎进行检索的时候,得
到的检索结果有大量是HTML的网页。而我 们在查学术资料时,很多的图书、期刊论文、 研究报告都是以PDF格式存在的,怎样去查 PDF格式的文件呢?
2、不用手抄的读书笔记(移动终端) 比如:涂书笔记
本次课安排
一、信息检索课概述 二、信息检索的含义 三、信息检索的原理 四、信息检索的意义 五、信息检索方法 六、信息检索途径 七、练习题
一、信息检索课概述
1、教学方式 2、考核方式
1、教学方式
翻 转 课 堂 教 学
2、考核方式
1、考勤(10%) 2、过程考核(40%) 3、根据指定的课题完成检索,并撰写
➢引文法
又称追溯法、扩展法、跟踪追击法。它是以现有文献 (如著作和论文)及其所附的参考书目和注释、索引为线索, 逐一追踪查找,不断扩大线索的办法。
➢综合法
综合法
即综合利用常用法、提高法和辅助法的方法。
六、信息检索途径
➢ 若想阅读顾漫的《何 以笙箫默》这部小说, 怎么查找?
检索途径
外表特征
内容特征
形成检索工具或检索系统。 检索指根据用户的需要,利用相应的检
信息检索概论
任务
❖ 概括地说:了解信息需求及问题所在,制定 信息检索策略,评价信息并根据实际用途, 去伪存真、去粗取精,科学地组织信息、使 用信息,将信息融化到现有知识结构中。
❖ 3 常用中文数据库的使用——如何获取 ❖ 4 常用外文数据库的使用——如何获取
如何学?
❖ 弄清检索工具的结构和工作原理,是学好本课 程的关键。
① 手工检索工具:编排结构、著录格式和索引体系。 ② 数据库:数据的记录格式,数据库的字段格式以及提供
的检索入口。 ③ 工作原理主要指检索工具的标识系统,亦即文献加工组
第二讲:信息检索基础知识
一、信息检索
1.信息检索的定义
信息检索或情报检索,是指将文献信息按一定的方式组 织和储存起来,并能根据用户的需要取出所需特定信息的整 个过程。它的全名为信息存储与检索。从广义上讲,信息检 索包括了信息的存贮过程和检索过程,它不仅仅指信息的具 体检索程序和方法,同时也指信息库及其检索系统的建立 (即现代信息管理学里的信息组织)。
狭义的信息检索是指信息的查找,即从信息库中找出所 需要的信息的程序和方法。
信息检索基础知识
2. 信息检索的类型 (1) 数据检索 → 文献中的数据(计算公
式、分子式) (2) 事实检索→ 文献中的事实 (3) 文献检索→文献(文献线索、文摘)
二、文献的类型及其分布
1. 文献的定义
凡是用文字、图形、符号、声频、视频记录下 来,具有存贮和传递知识功能的一切载体都称为文 献。
2. 文献的类型 按载体形式分 按出版形式分 按加工层次分
浅谈---刘挺的信息检索导论
花了很长的时间看这本书,这本书也比较的难。
从一开始老师推荐的时候就去图书馆借到了这本书,然后就开始看这本书了,只是当时确实看不太懂很多的章节,老师也说只是叫我浏览一下,就现在的我来说也是有很多的章节看不懂,不是说看不懂,里面涉及到的很多很细节的问题我就不知道了。
所以有的直接跳过去的,有些在论文的帮助下勉强还能看懂一部分,说实话,论文给我的帮助很大,本科时为了最后的毕业设计,我看了大概几十篇硕博论文,自己看的最后还是对自己有好处的,自己理解了才是最好的,论文给我一个很大的好处在于论文都是有结构的,全文组织的很有条理,看着就很舒服。
我这个人看书还是看论文,就是说在学习一个新的知识点的时候,都会先建立一个相对大的模型,就像数据结构里面的树形结构一样,先建立起大的树枝,至于其余的树叶什么的,在后期的进一步学习中会获取的。
今天是第二次写总结,也是相当于文献的二次综述,这本书看过了好几遍,现在能通过大概前面8章左右,到后面有点不太熟悉了。
还需要花点时间来进行好好的认真的学习,这次的六级考试过了,现在在英语方面感觉自己还行,不管是阅读还是听力,至于听力要花一段时间在上面就不会落下了。
现在每两个星期把雅思或者说是托福的词汇背一遍,现在的词汇量好像到达一个临界点了。
不过相信还是早晚会突破的,加油!近期又看了几篇硕士论文,里面的文字写的确实不错,有思路,有框架,每个章节的连接也是很有道理的。
就我平时比如现在写的总结,虽然是按照我们的书本进行总结的,但是确实有很多地方达不到要求的,理由很简单,很多的知识点不是很清楚,所以组织起来也就不是那么的顺利。
往往是想到哪里就写到哪里的。
但是我相信通过平时的慢慢练习,相信会有达到标准的那一天。
言归正传,开始第一章节的总结与个人的理解或是自己的一些想法。
和一般书本上描述的那样,第一章讲述的是信息检索的基本概念和处理的对象。
其中还有信息检索的基本流程,我现在知道了信息检索的对象是网页上的非结构化的数据,一般现实生活中的数据要么是结构化的就像数据库里面存储的数据就是结构化的数据,而我们大多数其他数据确实非结构化的数据。
(完整word版)《信息检索导论》课后习题答案
《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakthrough drug for schizophrenia文档2 new schizophrenia drug文档3 new approach for treatment of schizophrenia文档4 new hopes for schizophrenia patientsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Documentmatrix:1 2 3 4approach 0 0 1 0breakthrough 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes 0 0 0 1new 0 1 1 1of 0 0 1 0patients 0 0 0 1schizophrenia 1 1 1 1treatment 0 0 1 0Inverted Index:approach -> 3breakthrough ->1drug ->1->2for ->1->3->4hopes ->4new ->2->3->4of ->3patients ->4schizophrenia ->1->2->3->4treatment >3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。
这里应用了“化归”思想(将新问题转化归为旧问题来解决)。
《信息检索导论》课件2
学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研 讨会和学术会议,与专家交 流并进行实践项目。
《信息检索导论》PPT课 件
欢迎来到《信息检索导论》PPT课件,本课程将介绍信息检索的基础概念、技 术和实践案例,让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和 技术,学习如何构建高效的 检索系统。
课程内容
包括信息检索的定义、流程、 模型与评价指标等重要概念。
课程安排
第一部分:信息检索基础 第二部分:信息检索技术 第三部分:实践案例分析 第四部分:进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率 和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干 提取等技术,以便更好地处理 查询和文档。
倒排索引
一种高效的索引结构,用于快 速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展, 同时通过界面展示与查询相关 的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百 度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的 信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如 何实现快速准确的商品搜索。
《信息检索》完整版
第1章信息资源概论1、信息资源的涵义:信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。
2、信息资源的类型及各自的特点(1)电子信息资源的特点:存储形式多样化;资源数字化;可交流程度高;方便利用;内容丰富;载体容量大。
(2)纸质文献资源的特点:携带、书写、保存方便;直观性;以纸质为载体的艺术作品的不可替代性;纸质文献作为收藏品的不可替代性。
第2章信息存储与检索基础1、信息存储与检索的基本原理为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。
用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。
2、信息存储与检索的历程信息存储与检索走过了文献检索、情报检索的历程,并且正在向着知识检索的领域迈进3、信息检索通常包括的四种类型1)关于文献的检索;2)关于某事实或事项的知识检索;3)关于数值或数据的情报检索;4)关于图像信息的信息检索.4、索引的概念索引(Index)是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式。
索引的基本功能是指示知识点在正文或文献款目中的位置。
传统的文本式检索工具通常由两部分组成,即文摘正文部分和辅助索引部分。
①②③分别代表什么1.)索引标题词2.)说明语3.)地址参考项6、引文索引的概念引文索引是近30年来出现的一种新型的索引形式。
其特点是,把一系列具有引用与被引用关系的科学文献以多向线性的方式联系起来,提供一个以引证关系为依据来检索文献的新途径。
引文索引的主要职能是,回答某作者的论文曾经被哪些人的文章所引证,这些文章何时发表在何种刊物上。
第3/4章信息存取途径与检索策略1、布尔逻辑算符用户利用逻辑算符构造检索式,可将一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。
信息检索与分析利用
信息检索与分析利用
第1章绪论
2. 期刊 2.内容特征
内容新颖, (1)内容新颖,能及时 反映最新研究成果和 动态。 动态。 信息量大, (2)信息量大,发行与 流通面广,便于获取。 流通面广,便于获取。 按期连续出版, (3)按期连续出版,便 于研究者长期跟踪研 究。
信息检索与分析利用
第1章绪论
信息检索与分析利用
第1章绪论
1.图书 1.图书
3)图书类型 3)图书类型
图书按其用途可分为三种类型: 图书按其用途可分为三种类型: • (1)阅读用书 • (2)参考工具书 是供人们释疑解难、翻检查考的出版物。 是供人们释疑解难、翻检查考的出版物。 实例】参考工具书《中国大百科全书》 【实例】参考工具书《中国大百科全书》是我国现阶段最大的一部综合 性百科全书,主要用来检索中外百科知识和当代科学发展水平。 性百科全书,主要用来检索中外百科知识和当代科学发展水平。 • (3)检索用书 是以图书形式刊行的书目、题录、文摘等, 是以图书形式刊行的书目、题录、文摘等,是供人们查找一定范围 内信息线索的出版物。 内信息线索的出版物。 实例】我国历史上最大的一部官修目录《四库全书》 【实例】我国历史上最大的一部官修目录《四库全书》基本收入了我国 先秦至清代传世的重要古典文献。 四库全书》编纂时, 先秦至清代传世的重要古典文献。《四库全书》编纂时,存目和著录的 书都在各书卷首写上一篇提要,后将这些提要汇集起来,加以审改, 书都在各书卷首写上一篇提要,后将这些提要汇集起来,加以审改,辑 四库全书总目提要》一书,分经、 集四大类,下分细目, 成《四库全书总目提要》一书,分经、史、子、集四大类,下分细目, 具有检索作用。 具有检索作用。
古代各种非印刷型文献如甲骨、简策、帛书等以及还没有正式付印的手稿。 古代各种非印刷型文献如甲骨、简策、帛书等以及还没有正式付印的手稿。
信息检索导论
Miele
Welcome to Miele, the home of the very best appliances and kitchens in the world. / - 3k - Cached - Similar pages
Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ]
必须通过在网上“爬行”搜集网页 可以开发结构布局信息 文档的更新是不可控的 可以开发网页之间的链接结构
16
信息检索处理的对象
非结构化数据
文本数据:新闻、科技论文等 网页:HTML、XML 多媒体数据:图像、视频、图形、音频
信息检索导论-第一章-布尔检索(英文)
Sec. 1.1
Unstructured data in 1620
• Which plays of Shakespeare contain the words Brutus AND Caesar but NOT Calpurnia?
• One could grep all of Shakespeare’s plays for Brutus and Caesar, then strip out lines containing Calpurnia?
The Tempest 0 0 0 0 0 1 1
Hamlet 0 1 1 0 0 1 1
Othello 0 0 1 0 0 1 1
Macbeth 1 0 1 0 0 1 0
Brutus AND Caesar BUT NOT Calpurnia
1 if play contains word, 0 otherwise
Misformulation?
how trap mice alive
Searc h
Search engine
Query refinement
Results
Collection
Sec. 1.1
How good are the retrieved docs?
▪ Precision : Fraction of retrieved docs that are relevant to the user’s information need
5
The classic search model
User task Info need
Query
Get rid of mice in a politically correct way
信息检索导论
信息检索的概念:信息检索源于图书馆参考咨询工作,1950年代成为专业术语。
(1)信息检索过程说:信息检索是从任何信息集合中识别和获取信息的过程及其所采取的一系列方法和策略。
(2)全息检索说:全息检索是从任意角度,从存储的多种形式的信息中高速准确地查找,并可以按任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动。
(3)概念信息检索说:概念信息检索是基于自然语言处理中对知识在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关概念。
(4)本书说:信息检索是从大量相关信息中利用人机系统等各种方法加以有序识别与组织,以便及时找出用户所需部分信息的过程。
信息检索的类型:按检索内容分为:数据检索、事实检索和文献检索事实检索:以从文献中抽取的事项为检索对象的检索。
事实检索是信息检索中最复杂的一种,要求检索系统有一定的逻辑推理能力和自然语言理解能力。
文献检索:以文献线索(书目、索引、文摘)为检索对象的检索,又称书目检索。
按组织方式分为:全文检索、超文本检索和超媒体检索全文检索:以文献所含的全部信息作为检索内容的检索。
超文本检索:对每个节点中所存信息及信息链构成的网络中信息的检索;强调中心节点之间的语义连接结构,靠系统提供的复杂工具进行图示穿行和节点展示,提供浏览和跨库检索。
超媒体检索:对存储的多种媒体(文本、图像、声频、视频)信息的检索;提供浏览和跨库检索。
按检索设备分为:手工检索和机器检索信息检索的原理:信息检索是对信息集合和提问集合的匹配和选择,或者说相似性的计算。
即把信息提问的描述变成检索词的逻辑组合,把文献的描述变成一系列标引词,然后进行检索词和标引词的相似性运算。
信息检索的方法:常规检索法:常规检索法又称常用检索法、工具检索法,以主题、分类、著者等为检索点。
按检索方式分为:直接检索法和间接检索法直接检索法:指直接利用检索工具(实际上多为参考工具)进行检索的方法,其检索工具多为字词典、手册、年鉴、图录、百科全书等便捷性工具。
信息检索教程(第三版)PPT11
4.2.2 元数据
元数据的英文为 Metadata,意为关于数据的数据。在互联网中,元数据是 指描述任何 Internet数据和资源,促进互联网信息资源的组织和发现的数 据,以协助对网络资源的识 别、描述、指示其位置。
4.1 信息著录的含义和标准
4.1.1 信息著录的含义和作用
1.信息著录的含义 信息著录简称著录,是指在组织检索系统时对文献内容和形式特征进行选择和记录的
过程。信息著录是组织检索系统的基础,是信息存储过程中的一个重要环节。准确性 和规范化是信息著录的基本要求。准确性要求著录结果要全面、客观、准确地 揭示 文献或其他信息源的内容特征和形式特征。 2.信息著录的作用 信息著录的目的是为了报道和检索信息,通过著录可以浓缩文献信息的特征,起到揭 示文献、报道文献,帮助人们快速地了解文献,进而选择自己所需文献的作用。
的信息为止,经过一系列工 序、采用多种方式与手段,最终形成记载文献相关信息的款 目或记录。 (3)检索功能 作为信息著录结果的款目或记录,记载了反映文献特征的可供检索的各 个标识。
4.1.2 信息著录的标准
信息著录标准是指在描述信息过程中所要依据的规则和条例,是实现信息著录标准化 的前提和根本。信息著录标准包括国际标准和国家标准。
4.1.1 信息著录的含义和作用
信息著录 的作用具体如下: (1)揭示功能 信息著录主要反映的是文献本身 所具有的特征,在对文献全面系统分析、选出最具有代
表性的特征后,通过概括而精练地 叙述内容特征,以及简略而准确地描述形式特征。 (2)组织功能 信息著录从分析文献的内 容特征和外表特征开始,到记录下各种与文献报道和检索有关
信息检索导论第十一章
多事件独立:两两独立、三三独立、四四独立….
随机变量:若随机试验的各种可能
的结果都能用一个 变量的取值(或范 围)来表示,则称这个变量为随机变 量,常用X、Y、Z来表示 (离散型随机变量): (连续型随机变量)
11.3.3 实际中的概率估计方法
一、评估不相关文档有关的量
二、评估相关文档有关的量
1、已知某些相关文档,利用这些已知相关文档中的词项出现频率来对 pt进行估计。 2、 Croft和Harper(1979)在他们的组合匹配模型(combination match model)中提出了利用常数来估计pt的方法。 3. Greiff (1998)pt会随dft的增长而增长
Lecture-11 概率检索模型
提纲
11.1 概率论基础知识
11.2 概率排序原理
11.3 二值独立模型(BIM) 11.4 概率模型的相关评论及扩展
(Okapi BM25 权重计算方法、基于贝叶斯网络的IR模型)
11.1 概率论基础知识
随机试验与随机事件 概率和条件概率 乘法公式、全概率公式、贝叶斯公式 随机变量
11.3.4 基于概率的相关反馈方法
11.4 概率模型的相关评论及扩展
11.4.1 概率模型的评论 在BIM模型中,假设:
11.4.2 词项之间的树型依赖
11.4.3 Okapi BM25:一个非二值模型
如果存在相关性判断结果
11.4.4 IR中的贝叶斯网络方法
贝叶斯网络是通过有向图来表示不同随机变量之间的概率依赖关系,对 于任意有向无环图,已经发展出多种在节点之间传递影响度的复杂算法, 可以基于任意知识在图上面进行学习和推理。Turtle和Croft利用了一 个复杂的图模型来对文档和信息需求之间的复杂依赖关系进行建模。
第1章 信息检索导论
导
论
目
录
1. 信息社会及信息环境 2. 信息检索与信息利用 3. 文献信息传播渠道及影响 4. 文献资源及其构成 5. 文献信息有序化及其方法 6. 检索系统及其分类 7. 检索途径与方法 8. 思考及简答题
学习要点及要求
对信息及其特点、价值以及现代信息 环境特征等予以充分了解和重视;掌握文 献信息传播渠道;了解信息检索与利用活 动的主要功用。掌握文献检索系统特征及 基本的检索途径与方法。
(1) 以文献内容的学科属性为依据,分门别类组织/检索文 献。
例如《中国图书馆图书分类法》
《国际专利分类法》
(2) 按照代表文献主题概念的词(词组)的音序、字顺等组 织/ 检索文献。
例如《汉语主题词表》
6.
文献检索系统及其分类
文献检索定义
文献检索系统
(二) 题录检索系统
(三) 文摘检索系统
7.
你通常利用图书馆来解决什么问题?
8.
9.
信息环境问题主要体现在哪些方面?
信息素质的提高主要包括哪些内容?
10. 什么是信息检索?为什么说信息检索活动是科学研
究工作的组成部分?
11. 之前对文献检索系统的类型与功能了解和认识有多
少?常用信息检索系ຫໍສະໝຸດ 是哪些?12. 文献检索的方法与途径主要有哪些?
4. 文献资源及其构成
文献资源的构成可以从不同的角度或层面予以 描述和划分——
(1)从文献的物质载体特征
(2)从文献信息的表现形态(文献类型)
(3) 从文献信息被加工的详略程度
……
4. 文献资源及其构成(3)
网络文本 政府出版物 档案资料
学位论文 特种文献 专利文献
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 乘法公式:
P(AB)=P(A)P(B|A) P(A1A2…An)=P(A1)P(A2|A1)...P(An|A1…An-1)
• 全概率公式:A1A2…An是整个样本空间的一个 n 划分 P( B )= P( A ) P( B | A )
i 1
i
i
P( A j | B )
11.3.3 实际中的概率估计方法
一、评估不相关文档有关的量
二、评估相关文档有关的量
1、已知某些相关文档,利用这些已知相关文档中的词项出现频率来对 pt进行估计。 2、 Croft和Harper(1979)在他们的组合匹配模型(combination match model)中提出了利用常数来估计pt的方法。 3. Greiff (1998)pt会随dft的增长而增长
P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则 称A、B、C独立
多事件独立:两两独立、三三独立、四四独立….
随机变量:若随机试验的各种可能
的结果都能用一个 变量的取值(或范 围)来表示,则称这个变量为随机变 量,常用X、Y、Z来表示 (离散型随机变量): (连续型随机变量)
11.3.4 基于概率的相关反馈方法
11.4 概率模型的相关评论及扩展
11.4.1 概率模型的评论 在BIM模型中,假设:
11.4.2 词项之间的树型依赖
11.4.3 果存在相关性判断结果
11.4.4 IR中的贝叶斯网络方法
贝叶斯网络是通过有向图来表示不同随机变量之间的概率依赖关系,对 于任意有向无环图,已经发展出多种在节点之间传递影响度的复杂算法, 可以基于任意知识在图上面进行学习和推理。Turtle和Croft利用了一 个复杂的图模型来对文档和信息需求之间的复杂依赖关系进行建模。
随机试验:可在相同条件下重复进
行;试验可能结果不止一个,但能确 定所有的可能结果;一次试验之前无 法确定具体是哪种结果出现。
随机事件:随机试验中可能出现或
可能不出现的情况叫“随机事件”
概率:直观上来看,事件A的概率是指事件A发生的可能
性,记为P(A)
条件概率:已知事件A发生的条件下,事件B发生的概率
11.3.2 理论上的概率估计方法
对于输出结果为类别型(比如词项出现或不 出现两个类别)的试验来说,往往可以通过事件发生的次数除以试验的总 次数来从数据中估计出事件的概率。这被称为事件的相对频率。由于相 对频率使得观察数据出现的概率最大,所以这种估计称为MLE(最大似 然估计)。但是,如果我们只是简单地使用MLE,那么在观察数据中出现 过的事件的概率估计值总是非常高,而那些没有在观察数据中出现的事件 的相对频率则为0,这不仅低估了这些事件的概率值,往往也损害了模型本 身,因为0乘以任何数得0。在减少出现事件的概率估计值的同时提高未出 现事件的概率估计值的方法称为平滑(smoothing)。一种最简单的平 滑方法就是对每个观察到的事件的数目都加上一个数α。这样得到的伪数目 相当于在所有词汇表上使用了均匀分布作为一个贝叶斯先验
11.2 概率排序原理
对查询q和文档集中的一篇文档d,假定变量 Rd,q代表d和查询q是否相关,当文档d和查询q 相关时Rd,q的取值为1,不相关时Rd,q的取值为 0。在不造成上下文歧义的情况下,我们将Rd,q 简记为R。 于是,可以利用概率模型来估计每篇文档和需求 的相关概率P(R=1|d,q),然后对结果进行次序。 这就是PRP。
词项
文档集网络
模型
查询网络
概念:文档中出现的词项的某种基 于同义词的扩展形式
基于贝叶斯网络的系统能够支持大规模信息的高效检索,是 麻省大学建立的InQuery文本检索系统的基础。在TREC评 测中,该系统也取得了很好的效果,并且一度商业化。 另一方面,为了进行参数估计和计算,上述模型仍然使用了 许多近似和独立性假设。该模型的后续工作已经很多,但是 需要指出的是,该模型实际上建立于现代贝叶斯网络理论的 早期阶段,目前的贝叶斯网络理论已经取得了很多进展,也 许现在正是利用新理论建立新一代基于贝叶斯网络的信息检 索系统的最佳时机。
• 贝叶斯公式: A1A2…An是整个样本空间的一个 划分 P( Aj ) P( B | Aj )
P( A ) P( B | A )
i 1 i i
n
,( j 1,..., n)
两事件独立:事件A、B,若P(AB)=P(A)P(B),则称 A 、
B独立
三事件独立:事件A B C,若满足P(AB)=P(A)P(B),
常数
用于排序的量 称为RSV (retrieval status value, 检索状态值)
ct 是查询词项的优势率比率(odds ratio)的对数值。当
查询词项出现在相关文档时,优势率为 pt/(1-pt);当 查询词项出现在不相关文档时,优势率为 ut/(1-ut)。优势 率比率是上述两个优势率的比值,最后对这个值取对数。 如果词项在相关和不相关文档中的优势率相等,ct值为0。 如果词项更可能出现在相关文档中,那么该值为正。 ct 实际上给出的是模型中词项的权重 查询文档的得分就是
11.3 二值独立模型
P( A j | B )
P( A j ) P( B | A j )
P( A ) P ( B | A )
i 1 i i
n
,( j 1,..., n )
11.3 .1 排序函数的推导
常数
朴素贝叶斯条件独立性假设
在给定查询的情况下,认为一个词的出现 与否与任意一个其他词的出现与否是互相独立的
Lecture-11 概率检索模型
提纲
11.1 概率论基础知识
11.2 概率排序原理
11.3 二值独立模型(BIM) 11.4 概率模型的相关评论及扩展
(Okapi BM25 权重计算方法、基于贝叶斯网络的IR模型)
11.1 概率论基础知识
随机试验与随机事件 概率和条件概率 乘法公式、全概率公式、贝叶斯公式 随机变量