中文搜索引擎分词技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“娱乐新闻报道”和“新闻娱乐报道”的相关提示基本完全一样。
三、如何计算相似性并排序输出
为什么增加的都是 “娱乐新闻”的相关提示呢？
设每个单词都有一个权重值 IDF(word)＝rd) 是包含单词word的网页数目得： IDF(娱乐)=log(10/1)=1 IDF(新闻)=log(10/1)=1 IDF(报道)= log(10/1)=1 权重是：娱乐=新闻=报道 IDF(娱乐,新闻,报道) = IDF(娱乐) + IDF(娱乐) + IDF(娱乐) =3 IDF(娱乐,新闻,报道) >IDF(娱乐,报道)>IDF(新闻,报道) 查询权重相同，则按照用户查询次数由高到低排序输出。
中文搜索引擎技术
第一节中文分词技术分词技术简述分词技术分词中的难题与发展第二节拼写检查错误提示
第三节相关提示功能分析第四节案例分析
中国三大搜索引擎的分词技术
第一节中文分词技术
一.什么是中文分词把中文的汉字序列切分成有意义的词。例：我/是/一个/学生二.分词技术简述 1.基于字符串匹配的分词方法按照一定的策略将待分析的汉字串与一个机器词库中的词条进行匹配。常用分词方法：正向最大匹配法（由左到右的方向）例：我 /有意/ 见/ 分歧反向最大匹配法例：我 /有/意见/分歧
用户输入
匹配
查分词词典不匹配利用拼音标注程序对用户输入进行拼音标注不做拼写检查
在同音词词典里面扫描拼音提示流程匹配输出权重比较大的几个提示结果
不匹配不做提示
第三节相关提示功能分析
一、如何获得用户的查询信息可对搜索引擎用户查询日志(LOG)文件做查询归类。二、如何选择提示词对于用户查询进行分词，然后对于分词后的结果来进行相似性计算。
真歧义「乒乓球拍卖完了」可以切分成「乒乓球拍卖完了」、也可切分成「乒乓球拍卖完了」。 2.新词识别就是那些在字典中没收录过，但又确实能称为词的那些词。「吴官正在吉林考察」
收录人名本身是一项巨大的工程
「听说温家宝物非常多」过多专用人名的收录很容易出现问题
五.最新进展
设计目标: 1.无长度限制 2.歧义包容:将出现歧义的各种可能性都包含进去，作为分词的参考。方案：将关系数据库的词按字打散，并存放到层次数据库中。特色：分词长度限制，词的长度变成了树的高度，每小于等于3个中文字不切割
对于大于等于4个汉字的词将被分词。
2.分词算法：查询:“工地方向导” 正向最大匹配: 工地/方向/导平安定军山正向
Байду номын сангаас
第四节案例分析
中国三大搜索引擎的分词技术

让大家欣赏一下中国三大搜索引擎的分词技术。很幸运，我们的三大搜索引擎都在他们的快照里把查询语句拆分，然后用不同颜色的高亮来显示，大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核，快照可以直接看到，但是却没有分词高亮显示。谷歌已经去掉了“快照”功能，只有上Google去，并且需要使用代理服务器或者用一点小技巧才能看到。
分析语句：红色摇滚很搞笑
从拆词的情况来看，谷歌竟然并没有把“摇滚”看作是一个词！它是不是在搞笑？这就意味着，当你的谷歌里搜索“摇滚”的时候，谷歌把这句话也当成候选的结果“斗牛士摇来摇去，公牛说：本牛不操无名之辈，滚！” 雅虎比谷歌更懂中文！人家起码知道摇滚是一个词儿好地看成一个词。它连“很搞笑”都看成是一个整体！
四、中文分词的应用
目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也是要解决中文分词问题。在中文研究方面，相比外国人来说，中国人有十分明显的优势。分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，分词时优先。
查询:何润东西南北(“何润东”、“东西南北”两个词) 正向最大匹配: 何润东/西/南北
归纳: 首先用专有词典采用最大正向匹配分词，切分出部分结果；剩余没有切分交给普通词典，同样采取正向最大匹配分词。
四.分词中的难题
1.歧义识别「这个门把手坏了」－「把手」是个词；「请把手拿开」－「把手」不是一个词；「元帅任命了一名中将」－「中将」是个词；「产量三年中将增长两倍」－「中将」不再是词。
统计结果表明:单纯使用正向最大匹配的错误率为1/169，单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
2.基于统计的分词方法相邻的字同时出现的次数越多，就越有可能构成一个词。用于系统自动识别新词。 3.基于理解的分词方法在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。
感冒感冒解痛散感冒解痛颗粒感冒解痛灵茶等都能匹配
第二节拼写序标注成拼音。
查询：罗华世界有风军词长不限，专用词全部标注
二.错误提示流程