智能检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
+1为增字,-1为减字;
m:最大或最小匹配标志,+1为最大匹配,-1为最小
匹配
在实际应用中,基于字符串匹配的正向最 大匹配 算法[ ASM(+1,-1,+1)] 就是一种广泛应用的机械 分词方法,该方法依据仅一个分词词表和一个基本的 切分评估原则(即“长词优先”原则)来进行分词。 这种切分方法,需要最少的语言资料(仅需一个词表, 不需要任何词法、句法、语义知识),程序简单,开 发周期短。
■ 常用分词方法分类
分词技术属于自然语言处理技术范畴,对于一 句话,人可以通过自己的知识来明白哪些是词,哪 些不是词,但如何让计算机也能理解?其处理过程 就是分词算法。
(1)基于字符串匹配的分词方法 —— 基于字符串匹配的正向 最大匹配算法
(2)基于统计的分词的分词方法 ——又叫无词典分词法或统计取词方法
输入:词典S,待切分
字符串C =c0c1…cn,
S中的最长词条长度
{
end←min(n,begin+MaxLen-1); w= C.substring ( begin ,end );
while(w s)
{
end←end-1;
w=C.substring(begin , end);
}
MaxLen;
输出:字符串数组
ห้องสมุดไป่ตู้
文本检索技术
——基于索引的检索技术
背景知识
■ 随着时间的推移,基于web的信息越来越 多,如何在海量的信息中获取自己真正需要 的信息成为一个巨大的挑战。
■ 在获取信息时,顺序搜索的响应时间将变 得不可忍受。解决搜索响应时间的办法是 对文本文挡库中的文件进行预处理,为文 本文库建立一种便于搜索的数据结构—— 索引。基于索引的搜索技术非常适合用于 大规模、稳定的或中期性变化的文本文档 库,如今绝大部分搜索引擎(如Google)采 用的都是基于索引的检索技术。
3、文本预处理 文本预处理
提取出文本字符串之后,还需对文本字 符串进行预处理以选择合适的词来建立 索引。
文本预处理首先将文本中包含的词分析出来, 即分词( ☞ )。在语义表达方面并不是所有 词的表达能力都是同等的,因此除了分词之 外,文字预处理还包括停用词删除、词干提 取、索引词选择和建立词典等操作。
XML文档一般都是纯文本文档,其文本内容 可以直接读取,读取时需要一些工具对其中的 信息进行解析,可选择的工具有SAX API (Application Programming Interface)等。
→ XML的SAX API定义了一个以事件驱动的接口。 在这个接口中,当某个分析事件发生时,解析器(解 析器是在读取文档时,激活一系列的事件,这些事件 被推给事件处理器,然后由事件处理器提供对文档内 容的反问。)会调用几个方法中的一个予以响应,而 这些方法由调用程序提供。触发事件包括文档或文档 元素的开始、结束或解析出错等。
(3)基于理解的分词方法——试验阶段
■ 基于字符串匹配的正向最 大匹配算法
又称“机械分词方法”(由左到右的方向)
基本内容
它是按照一定的策略(某种算法)将待分析的汉字串 与一个“充分大的”机器字典中的词条进行匹配,若在词典 中找到某个字符串,则匹配成功(识别一个词)。
→按照扫描方向的不同,机械分词方法可以分为正向 匹配和逆向匹配;
→按照不同长度优先匹配的情况,可以分为最大(最 长)匹配最小(最短)匹配
ASM(Automatic Segmentation Model)模型
对于机械分词方法,一般可以建立一个一般的模型,即 ASM。该模型形式的表示为ASM(d,a,m),其中d,a和 m的含义取值如下所示:
d :匹配方向,+1表示正方向,-1表示逆方向; a :每次匹配失败后增加或减少字串长度(字符数),
☞分词
■ 分词的概念
词是最小的能独立活动的、有意义的语言成分。 关键词查询的前提就是将条件分解成若干关键词。
众所周知,英文是以词为单位的,词和词之间 是靠空格隔开,而中文是以字为单位,句子中所 有的字连起来才能描述一个意思。例如,英文句 子I am a student,用中文则为:“我是一个学生”。 计算机可以很简单通过空格知道student是一个单词, 但是不能很容易明白“学”、“生”两个字合起 来才表示一个词。把中文的汉字序列切分成有意 义的词,就是切词也称为分词。我是一个学生, 分词的结果是:我 是 一个 学生。
智能 检索
—— 文本智能检索技术
1. 检索?和智能检索?
“检索”简单的说就是指从文献资料、
网络信息等信息集合中查找达到所需要的 信息资料过程。
“智能检索”是由抽词检索与全文检索
发展而来,它是对检索词具有较高的判断、 理解和处理能力的人工智能型的多媒体检 索系统。
2. 智能检索技术几方面?
(1)文本智能检索技术 (2)图像智能检索技术 (3)视频智能检索技术
基于字符串匹配的正向最 大匹配算法 流程图
待切分字符串C、词典S最大的词长MaxLen
C是否 为空
Y 结束
从C左边开始,取出候选字串w,w的长度为MaxLen
识别出词w
Y
查看w是否在
词典S中存在
N 将w最后边一个字母去掉
Segment(S , C,MaxLen)
{ begin←0; k←0; while(begin<=n)
R=r0r1…rn,其中每个
文本文档 库
用户
文档 查询
文本提取 文本字符串
文本预处 理
处 理 结 果
索引查询
系统
直接访问
索引
返 回
相关文档列 表
排序结果 排序系统
► 基于索引的检索
技术
1、文本文档库 文本文档库
要进行检索之前,首先检索系统将所 有的检索对象收集起来,构建集中的 本地文本文档库。例如:对于web搜索 引擎,其检索对象主要是web网页,因 此搜索引擎需要从互联网上抓取尽可 能多的网页保存到本地文本文档库中, 一般这个过程由程序自动完成,在此 不过多讨论。
2、文本提取 文本提取
基于文本文档库进行文本提取。文本 提取过程主要是提取各种格式文档中 的字符串。
文本检索系统不仅面向互联网的web网 页,还面向各种文本类型,例如: XML,PDF,Microsoft Word等等。下面以 XML格式信息为例,介绍如何从该格 式的文档中提取文本内容。
☞ 解析XML文档
m:最大或最小匹配标志,+1为最大匹配,-1为最小
匹配
在实际应用中,基于字符串匹配的正向最 大匹配 算法[ ASM(+1,-1,+1)] 就是一种广泛应用的机械 分词方法,该方法依据仅一个分词词表和一个基本的 切分评估原则(即“长词优先”原则)来进行分词。 这种切分方法,需要最少的语言资料(仅需一个词表, 不需要任何词法、句法、语义知识),程序简单,开 发周期短。
■ 常用分词方法分类
分词技术属于自然语言处理技术范畴,对于一 句话,人可以通过自己的知识来明白哪些是词,哪 些不是词,但如何让计算机也能理解?其处理过程 就是分词算法。
(1)基于字符串匹配的分词方法 —— 基于字符串匹配的正向 最大匹配算法
(2)基于统计的分词的分词方法 ——又叫无词典分词法或统计取词方法
输入:词典S,待切分
字符串C =c0c1…cn,
S中的最长词条长度
{
end←min(n,begin+MaxLen-1); w= C.substring ( begin ,end );
while(w s)
{
end←end-1;
w=C.substring(begin , end);
}
MaxLen;
输出:字符串数组
ห้องสมุดไป่ตู้
文本检索技术
——基于索引的检索技术
背景知识
■ 随着时间的推移,基于web的信息越来越 多,如何在海量的信息中获取自己真正需要 的信息成为一个巨大的挑战。
■ 在获取信息时,顺序搜索的响应时间将变 得不可忍受。解决搜索响应时间的办法是 对文本文挡库中的文件进行预处理,为文 本文库建立一种便于搜索的数据结构—— 索引。基于索引的搜索技术非常适合用于 大规模、稳定的或中期性变化的文本文档 库,如今绝大部分搜索引擎(如Google)采 用的都是基于索引的检索技术。
3、文本预处理 文本预处理
提取出文本字符串之后,还需对文本字 符串进行预处理以选择合适的词来建立 索引。
文本预处理首先将文本中包含的词分析出来, 即分词( ☞ )。在语义表达方面并不是所有 词的表达能力都是同等的,因此除了分词之 外,文字预处理还包括停用词删除、词干提 取、索引词选择和建立词典等操作。
XML文档一般都是纯文本文档,其文本内容 可以直接读取,读取时需要一些工具对其中的 信息进行解析,可选择的工具有SAX API (Application Programming Interface)等。
→ XML的SAX API定义了一个以事件驱动的接口。 在这个接口中,当某个分析事件发生时,解析器(解 析器是在读取文档时,激活一系列的事件,这些事件 被推给事件处理器,然后由事件处理器提供对文档内 容的反问。)会调用几个方法中的一个予以响应,而 这些方法由调用程序提供。触发事件包括文档或文档 元素的开始、结束或解析出错等。
(3)基于理解的分词方法——试验阶段
■ 基于字符串匹配的正向最 大匹配算法
又称“机械分词方法”(由左到右的方向)
基本内容
它是按照一定的策略(某种算法)将待分析的汉字串 与一个“充分大的”机器字典中的词条进行匹配,若在词典 中找到某个字符串,则匹配成功(识别一个词)。
→按照扫描方向的不同,机械分词方法可以分为正向 匹配和逆向匹配;
→按照不同长度优先匹配的情况,可以分为最大(最 长)匹配最小(最短)匹配
ASM(Automatic Segmentation Model)模型
对于机械分词方法,一般可以建立一个一般的模型,即 ASM。该模型形式的表示为ASM(d,a,m),其中d,a和 m的含义取值如下所示:
d :匹配方向,+1表示正方向,-1表示逆方向; a :每次匹配失败后增加或减少字串长度(字符数),
☞分词
■ 分词的概念
词是最小的能独立活动的、有意义的语言成分。 关键词查询的前提就是将条件分解成若干关键词。
众所周知,英文是以词为单位的,词和词之间 是靠空格隔开,而中文是以字为单位,句子中所 有的字连起来才能描述一个意思。例如,英文句 子I am a student,用中文则为:“我是一个学生”。 计算机可以很简单通过空格知道student是一个单词, 但是不能很容易明白“学”、“生”两个字合起 来才表示一个词。把中文的汉字序列切分成有意 义的词,就是切词也称为分词。我是一个学生, 分词的结果是:我 是 一个 学生。
智能 检索
—— 文本智能检索技术
1. 检索?和智能检索?
“检索”简单的说就是指从文献资料、
网络信息等信息集合中查找达到所需要的 信息资料过程。
“智能检索”是由抽词检索与全文检索
发展而来,它是对检索词具有较高的判断、 理解和处理能力的人工智能型的多媒体检 索系统。
2. 智能检索技术几方面?
(1)文本智能检索技术 (2)图像智能检索技术 (3)视频智能检索技术
基于字符串匹配的正向最 大匹配算法 流程图
待切分字符串C、词典S最大的词长MaxLen
C是否 为空
Y 结束
从C左边开始,取出候选字串w,w的长度为MaxLen
识别出词w
Y
查看w是否在
词典S中存在
N 将w最后边一个字母去掉
Segment(S , C,MaxLen)
{ begin←0; k←0; while(begin<=n)
R=r0r1…rn,其中每个
文本文档 库
用户
文档 查询
文本提取 文本字符串
文本预处 理
处 理 结 果
索引查询
系统
直接访问
索引
返 回
相关文档列 表
排序结果 排序系统
► 基于索引的检索
技术
1、文本文档库 文本文档库
要进行检索之前,首先检索系统将所 有的检索对象收集起来,构建集中的 本地文本文档库。例如:对于web搜索 引擎,其检索对象主要是web网页,因 此搜索引擎需要从互联网上抓取尽可 能多的网页保存到本地文本文档库中, 一般这个过程由程序自动完成,在此 不过多讨论。
2、文本提取 文本提取
基于文本文档库进行文本提取。文本 提取过程主要是提取各种格式文档中 的字符串。
文本检索系统不仅面向互联网的web网 页,还面向各种文本类型,例如: XML,PDF,Microsoft Word等等。下面以 XML格式信息为例,介绍如何从该格 式的文档中提取文本内容。
☞ 解析XML文档