IR计算模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4页/共49页
第5页/共49页
Video search
第6页/共49页
文档的表示
文本
词汇集合
Image
文本+image 的特征(feature)
Video
图像帧序列以及音频
第7页/共49页
文本文档逻辑视图
• D是一个文档集合,通常由文档逻辑视图来表示。可以 是一组索引词或关键词。既可以自动提取,也可以是由 人主观指定。
第8页/共49页
倒排文档表示方法
第9页/共49页
Inverted Files
第10页/共49页
Word-Level Inverted File
第11页/共49页
Word-Level Inverted File
lexicon
posting
Query: 1.porridge & pot (BOOL) 2.“porridge pot” (BOOL) 3. porridge pot (VSM)
第22页/共49页
布尔检索模型
• 一种简单的检索模型,它建立在经典 的集合论和布尔代数的基础上。
• 遵循两条基本规则: 每个索引词在一 篇文档中只有两种状态:出现或不出 现,对应权值为 0或1。
• 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。
第23页/共49页
如同一事件的不同报道的文档
相似度是一种统计测度,把用户的查询与文档通 过某种特征表示出来,相似度一般是指查询表示 与文档特征的距离,或依据文档特征计算出的距 离。
如用利用文档关键词集合的交集与并集的比。
相似度往往被用做作为相关度的近似,因为计算 机难以理解文档的内容。
第17页/共49页
经典的信息检索
第13页/共49页
IR模型
R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值
如目前往往按与关键词匹配的数量和Google的 pageRank的值。
第14页/共49页
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型数学模型.
基于内容的信息检索模型(计算查询与文档相 似度的理论模型)有
基本假设:
每篇文档都可以用一组有代表性的关键词(标 引词index term)表示。 =>每个文档可以用集合 或向量表示出来
标记词一般是名词,因为名词含有语义。但实 际上很多情况下是文档的所有非停用词都作为 标记词。
问题词频的影响?
第Байду номын сангаас8页/共49页
基本符号
– ki 表示一个标记词 – dj表示一个文档 – t 表示所有文档的数目 – K = (k1, k2, …, kt) 表示所有标记词的集合 – wij >= 0 表示关键词ki 相对文档dj 的权重
第1页/共49页
目前搜索引擎对文档检索的分类
文本(网页) 图像(image) 地图(maps) 视频 (videos) 购物(shopping)
第2页/共49页
第3页/共49页
Web page search
Image search when input “shandong University)
– wij = 0 若ki 不在dj 中。
– vec(dj) = (w1j, w2j, …, wtj) :文档dj 的加权重的 向量表示。
– gi(vec(dj)) = wij :得到分量的函数。
第19页/共49页
查询与文档相关度计算
• 存在共有:如果dj有q含有的某些ki , 则 relevance(q, dj )=1
• 集合论模型:布尔模型、模糊集合模型、扩 展布尔模型
• 代数模型: 向量空间模型、广义向量空间模 型、潜在语义标引模型、神经网络模型
• 概率模型: 经典概率论模型、推理网络模型、 置信(信念)网络模型
第15页/共49页
信息检索的两种主要方式
特别(ad hoc retrieval)检索,用户可以不断地 提出新的检索需求或新组合,检索系统中 的文献不变 ;
Answer
第12页/共49页
信息检索模型
• Q是一个查询集合,用户任务的表达,由查询 需求的逻辑视图来表示。 – 目前主要是关键词(布尔表达式),或高级 检索的分层的布尔表达式。 – 未来可能是自然语言句子、文档的样本,图 像,草图,有向标记树
• F是一个框架,用以构建文档,查询以及它们之 间关系的模型 –检索系统的理论框架,包括预处理、中间处 理(分类、聚类、索引)
Google, Baidu,bing,..
过滤(filtering):用户的检索需求描述是 固定不变的,当得到新的文档后,把与用 户需求相关的文档留下,并分类和排序后 提交给用户。
股票,新闻,天气,航班
第16页/共49页
相关度(Relevance)与相似度 (similarity)计算
相关度是指基于内容对用户检索需求与文档内容 的相关程度,或文档之间的相关程度。
• 全部共有:如果dj有q含有的所有的ki , 则 relevance(q, dj )=1
• 比例共有:如果q和dj 共有多于m%的ki , 则relevant(q, dj)=1(利用阀值计算)
第20页/共49页
经典信息检索模型
• 布尔模型 • 向量空间模型 • 经典概率模型
第21页/共49页
Set model Sim(A,B) = | A B|/|AB|, 0 sim(A,B)1. A and B are the keyword set of two documents Bag of word (词袋)模型
布尔检索模型的特点
• 优点:简单、易理解、简洁的形式化。 • 缺点:准确匹配,信息需求的能力表
达不足。不能输出部分匹配的情况, 无法排序,用户必须会用布尔表达式 提问,一般而言,检出的文档或者太 多或者太少。
第24页/共49页
信息检索模型
• 信息检索模型(IR model),依照用户查询, 对文档集合进行相关排序的一组前提假设和 算法。IR模型可形式地表示为一个四元组 < D, Q, F, R(qi,dj) > 其中D是一个文档集合,Q是一个查询集合, F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间 的相关度赋予一个排序值
第5页/共49页
Video search
第6页/共49页
文档的表示
文本
词汇集合
Image
文本+image 的特征(feature)
Video
图像帧序列以及音频
第7页/共49页
文本文档逻辑视图
• D是一个文档集合,通常由文档逻辑视图来表示。可以 是一组索引词或关键词。既可以自动提取,也可以是由 人主观指定。
第8页/共49页
倒排文档表示方法
第9页/共49页
Inverted Files
第10页/共49页
Word-Level Inverted File
第11页/共49页
Word-Level Inverted File
lexicon
posting
Query: 1.porridge & pot (BOOL) 2.“porridge pot” (BOOL) 3. porridge pot (VSM)
第22页/共49页
布尔检索模型
• 一种简单的检索模型,它建立在经典 的集合论和布尔代数的基础上。
• 遵循两条基本规则: 每个索引词在一 篇文档中只有两种状态:出现或不出 现,对应权值为 0或1。
• 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。
第23页/共49页
如同一事件的不同报道的文档
相似度是一种统计测度,把用户的查询与文档通 过某种特征表示出来,相似度一般是指查询表示 与文档特征的距离,或依据文档特征计算出的距 离。
如用利用文档关键词集合的交集与并集的比。
相似度往往被用做作为相关度的近似,因为计算 机难以理解文档的内容。
第17页/共49页
经典的信息检索
第13页/共49页
IR模型
R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值
如目前往往按与关键词匹配的数量和Google的 pageRank的值。
第14页/共49页
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型数学模型.
基于内容的信息检索模型(计算查询与文档相 似度的理论模型)有
基本假设:
每篇文档都可以用一组有代表性的关键词(标 引词index term)表示。 =>每个文档可以用集合 或向量表示出来
标记词一般是名词,因为名词含有语义。但实 际上很多情况下是文档的所有非停用词都作为 标记词。
问题词频的影响?
第Байду номын сангаас8页/共49页
基本符号
– ki 表示一个标记词 – dj表示一个文档 – t 表示所有文档的数目 – K = (k1, k2, …, kt) 表示所有标记词的集合 – wij >= 0 表示关键词ki 相对文档dj 的权重
第1页/共49页
目前搜索引擎对文档检索的分类
文本(网页) 图像(image) 地图(maps) 视频 (videos) 购物(shopping)
第2页/共49页
第3页/共49页
Web page search
Image search when input “shandong University)
– wij = 0 若ki 不在dj 中。
– vec(dj) = (w1j, w2j, …, wtj) :文档dj 的加权重的 向量表示。
– gi(vec(dj)) = wij :得到分量的函数。
第19页/共49页
查询与文档相关度计算
• 存在共有:如果dj有q含有的某些ki , 则 relevance(q, dj )=1
• 集合论模型:布尔模型、模糊集合模型、扩 展布尔模型
• 代数模型: 向量空间模型、广义向量空间模 型、潜在语义标引模型、神经网络模型
• 概率模型: 经典概率论模型、推理网络模型、 置信(信念)网络模型
第15页/共49页
信息检索的两种主要方式
特别(ad hoc retrieval)检索,用户可以不断地 提出新的检索需求或新组合,检索系统中 的文献不变 ;
Answer
第12页/共49页
信息检索模型
• Q是一个查询集合,用户任务的表达,由查询 需求的逻辑视图来表示。 – 目前主要是关键词(布尔表达式),或高级 检索的分层的布尔表达式。 – 未来可能是自然语言句子、文档的样本,图 像,草图,有向标记树
• F是一个框架,用以构建文档,查询以及它们之 间关系的模型 –检索系统的理论框架,包括预处理、中间处 理(分类、聚类、索引)
Google, Baidu,bing,..
过滤(filtering):用户的检索需求描述是 固定不变的,当得到新的文档后,把与用 户需求相关的文档留下,并分类和排序后 提交给用户。
股票,新闻,天气,航班
第16页/共49页
相关度(Relevance)与相似度 (similarity)计算
相关度是指基于内容对用户检索需求与文档内容 的相关程度,或文档之间的相关程度。
• 全部共有:如果dj有q含有的所有的ki , 则 relevance(q, dj )=1
• 比例共有:如果q和dj 共有多于m%的ki , 则relevant(q, dj)=1(利用阀值计算)
第20页/共49页
经典信息检索模型
• 布尔模型 • 向量空间模型 • 经典概率模型
第21页/共49页
Set model Sim(A,B) = | A B|/|AB|, 0 sim(A,B)1. A and B are the keyword set of two documents Bag of word (词袋)模型
布尔检索模型的特点
• 优点:简单、易理解、简洁的形式化。 • 缺点:准确匹配,信息需求的能力表
达不足。不能输出部分匹配的情况, 无法排序,用户必须会用布尔表达式 提问,一般而言,检出的文档或者太 多或者太少。
第24页/共49页
信息检索模型
• 信息检索模型(IR model),依照用户查询, 对文档集合进行相关排序的一组前提假设和 算法。IR模型可形式地表示为一个四元组 < D, Q, F, R(qi,dj) > 其中D是一个文档集合,Q是一个查询集合, F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间 的相关度赋予一个排序值