构建停用词库的方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

构建停用词库的方法
停用词库在很多文本处理的场景里可太重要啦。

那怎么构建呢?
咱先得知道啥是停用词。

简单说呢,就是那些在文本里没啥实际意义的词,像“的”“地”“得”,还有“啊”“呀”“呢”这种感叹词,在很多时候对我们分析文本的关键信息没啥用,就可以归到停用词里。

一种方法就是从已有的停用词表开始。

网上有好多现成的停用词表可以找到呢。

这些停用词表是很多人智慧的结晶,里面包含了常见的停用词。

不过呢,不能直接拿过来就用,因为不同的应用场景可能会有特殊的需求。

比如说,如果是处理一些特定领域的文本,像医学领域,那“患者”“医生”这些词在一般的停用词表里可能没有,但在这个特定场景下,如果我们主要关注的是症状或者治疗方法,这些词可能就需要加到停用词里。

还有呀,咱们可以从自己的数据里去挖掘停用词。

比如说,你有一堆文本数据,你可以统计每个词出现的频率。

那些出现频率超级高,但是又感觉对内容理解没啥特别贡献的词,就很有嫌疑成为停用词啦。

比如说在一篇关于旅游的文章集里,“旅行”这个词可能到处都是,可它并没有给每一篇文章关于具体景点或者旅游体验的独特描述增加太多东西,那就可以考虑把它放到停用词库里。

人工筛选也不能少哦。

毕竟机器有时候没那么聪明。

我们可以找几个小伙伴,大家一起看一些样本数据,然后把那些一眼看过去就觉得没什么实际意义的词挑出来。

这时候大家可以一边挑一边打趣,“这个词在这里就像个小跟班,没它也行呀”。

这样人工筛选虽然有点费时间,但是能让停用词库更符合我们的需求呢。

构建停用词库不是一劳永逸的事儿。

随着数据的变化,随着我们处理任务的不同,停用词库也要不断更新完善。

就像我们的小宝贝一样,要时不时给它打扮打扮,让它能更好地为我们的文本处理工作服务呀。

相关文档
最新文档