特征词提取方法汇总

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 最简单的方法是利用词性进行特征提取。利用 NLP 分词及词性标注技术对用户评论进行解析，从中提取名词或名词短语来作为候选特征词。此方法的优点是处理速度快，但缺点同样很明显，受限于 NLP 固有缺陷，分词准确率不高，导致这种方法的准确率也不够理想。 2. 为进一步提高准确性，除了词性，我们还可以利用一些固定模式进行特征词提取。[14]提供了一种基于规则的半自动化方法，人为选出几种模式，得到候选的特征词，再进行人工选择，剔除非特征词。这种方法的优点是可以在仅利用词性的基础上进一步提高准确率，且方法简易实现；缺点是准确率严重依赖模式的选择。 3. LiuBing[1]提出基于关联分析的特征提取方法。首先对语料库进行词性标注，提取出每个句子中所有名词或名词短语作为一个 transaction，而其中每个名词或短语作为一个 item，利用关联分析方法，得到频繁集。再删除不是特征词的频繁集。利用关联分析法可找到频率较高的特征词，但找不到低频率的特征词。基于上述思想，利用高频特征词找到对应的观点词，然后利用观点词找出附近低频特征词，可以提高召回率。 4. 文献[13]提出一种利用互信息（PMI）的特征提取方法。该方法首先提取出频率高于某一阈值的名词或名词短语来作为候选特征词，然后利用搜索引擎计算出候选特征词与产品的互信息（PMI，Point-wise Mutual Information），依此确定特征词与该产品的相关性。PMI 如下所示：
观点挖掘流程图如下所示：
3) 利用词语相似度来计算观点词的情感倾向。通过计算观点词 Oi 和正面词汇集P − words = {p��1 , … … , p�� }以及负面词汇集N − words = {n��1 , … … , n�� }的相似度来判断，正面词汇集和负面词汇集选择的是《知网》提供的情感分析用语词语集。相似度计算方法是利用大规模语料库进行计算，从信息论的角度利用互信息计算词语的相似度，而观点词 Oi 的情感的分等于它和正面词汇的相似度减去和负面词汇的相似度：
பைடு நூலகம்
其中 f 代表候选特征词，d 代表某种关系的指示词。Hits 代表搜索引擎的命中个数，PMI 越高，f 与某产品的指示关系 d 程度越高。 5. [9]首先利用 Penn Treebank[18]提取出基础名词短语（BNP），将这些 BNP 作为候选特征词，接下来分别用混合模型（Mixture Model）和可能性测试模型（Likelihood Test）进行特征选择。 6. 我们利用 TF-IDF 提取 TD-IDF 值大于阈值的特征词作为特征词集合。 TF-IDF 公式如下：
ni,j 代表词 i 在文档 dj 中出现的频率；率。|D|表示语料库中的文件总数。
��
�� ,�� 代表文档 dj 中所有单词出现的频
TFIDFij=tfij*idfi TF-IDF 倾向于过滤掉常见的词语，而保留重要的词语。为了进一步改进试
验效果，在此基础上选出 IFIDF 大于阈值的特征词。 7. 《基于观点挖掘的产品可用性建模与评价》中，作者提出特征观点对抽取算法，即抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。该算法的优势在于不需要人工标注任何数据。 1) 首先利用分词技术得到分词及词性标注，根据评论语料库来统计词语的词频，来生成词典； 2) 抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。