从算法角度去了解关键词与文章的相关性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

从算法角度去了解关键词与文章的相关性

一般来说,一个词语或短语能否成为文章的关键词,主要取决于这个词语或短语反应文章中心思想能力的大小。关键词与文章之间的相关性,也主要是为了说明任选的一个词语和短语,对于指定的文章,它反应这篇文章的中心思想或主题意思的能力有多少。关键词的抽取受到词语在文章中出现的位置,出现的频率以及词语的语义特征的影响。那么,搜索引擎到底是如何判断关键词和文章之间的相关性呢?在这里,笔者从自己的一些观点出发,产生了一些想法,应该抛砖引玉,得到大家的指点。个人认为,搜索引擎应该是从以下几步来如何分析关键词和文章性的:

第一:搜索引擎首先对要要分析的网页进行净化处理

网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及无意义的内容,如Javascript脚本,CSS标记等内容。至于搜索引擎采用的是何

种算法,则不为我们所知,但是个人估计应该是对网页进行划分为不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。

第二:针对提取出的内容进行分词处理

个人认为,搜索引擎可能采用了某种算法,对内容先进行了词语粗分阶段,先得出N个概率最大的切分结果;然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视其为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。并进行记录。

第三:对初步分词的结果进行去除无意义的词语

搜索引擎通过对第二步的分词结果进行分析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。去除停用词通过建立一个停用词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有意义的,值得分析的词汇了。

第四:对关键词的权重进行确定分析

在完成对文章分词切分和净化工作之后,就要将文章所有关键词进行分析了,笔者的想法是搜索引擎将文本表示成Ⅳ维特征向量,每一维分量由关键词及其权重组成。一般认为,关键词在文中的权重的确定,主要由三部分组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可以通过确定的算法加以确定,词义权重也有固定的算法进行分析计算。搜索引擎利用设定好的算法对上述关键词进行了计算和分析。从而得到最后的结果。

笔者认为,搜索引擎通过上面的步骤进行分析后,得到最后的结果,而笔者在这里谈谈自己对搜索引擎具体的分析方式,只是个人见解:

第一:搜索引擎基于关键词位置的权重

在文档中,关键字所在的位置对于搜索引擎判断某个关键字在页面的权重起到很重要的作用。比如说域名被搜索引擎认为是网站最固定的因素,例如:域名里面含有 DVD关键字的域名,在用户检索关键字DVD的时候具有先天的优势。标题是网站的最宝贵的资源,搜索引擎认为标题是在浏览器标题栏里而显示,因为要显示给用户,所以它是文件最重要和最简洁的摘要。适当突出关键字在标题的比重非常有利于排名的提高。

第二:搜索引擎基于关键词出现的频率

网页中不同关键词的总数,这是一个很重要的方面。个人认为虽然关键词出现的位置和词频大小对关键词权重影响很大,但是词频大并不能决定该词语适合作为关键词。举个简单的例子,我们在一篇文章中对"美国''进行优化,出现的词频很大,出现的位置也很重要,但是这个词还是不能赋予较高的权重,因为"美国''也广泛的出现在其他的文献中,在这些文献中,"美国"也存在频率大和所在位置也比较重要。因此,对那些词频较高但又不适合作为关键词的词语赋予的权重应该较低。

第三:文档中重要关键词之间的距离

个人分析,文档中重要关键词之间的距离应该也是衡量关键词与文章的相关性的一个重要方面。

笔者认为,搜索引擎在进行以上一系列的处理之后,从而针对这个关键词给该文章一定的评分,当用户搜索某个关键词时,该评分高的文章排在前面的机会就大很多,当然这是排除了外链的影响。

相关文档
最新文档