特征词提取方法汇总
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 最简单的方法是利用词性进行特征提取。利用 NLP 分词及词性标注技术对 用户评论进行解析,从中提取名词或名词短语来作为候选特征词。此方法的 优点是处理速度快,但缺点同样很明显,受限于 NLP 固有缺陷,分词准确 率不高,导致这种方法的准确率也不够理想。 2. 为进一步提高准确性,除了词性,我们还可以利用一些固定模式进行特征词 提取。[14]提供了一种基于规则的半自动化方法,人为选出几种模式,得到 候选的特征词,再进行人工选择,剔除非特征词。这种方法的优点是可以在 仅利用词性的基础上进一步提高准确率,且方法简易实现;缺点是准确率严 重依赖模式的选择。 3. LiuBing[1]提出基于关联分析的特征提取方法。首先对语料库进行词性标注, 提取出每个句子中所有名词或名词短语作为一个 transaction,而其中每个名 词或短语作为一个 item,利用关联分析方法,得到频繁集。再删除不是特征 词的频繁集。利用关联分析法可找到频率较高的特征词,但找不到低频率的 特征词。基于上述思想,利用高频特征词找到对应的观点词,然后利用观点 词找出附近低频特征词,可以提高召回率。 4. 文献[13]提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出 频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎 计算出候选特征词与产品的互信息(PMI,Point-wise Mutual Information) , 依此确定特征词与该产品的相关性。PMI 如下所示:
观点挖掘流程图如下所示:
3) 利用词语相似度来计算观点词的情感倾向。 通过计算观点词 Oi 和正面词 汇集P − words = {p������1 , … … , p������������ }以及负面词汇集N − words = {n������1 , … … , n������������ }的相似度来判断, 正面词汇集和负面词汇集选择的是 《知 网》提供的情感分析用语词语集。相似度计算方法是利用大规模语料库 进行计算,从信息论的角度利用互信息计算词语的相似度,而观点词 Oi 的情感的分等于它和正面词汇的相似度减去和负面词汇的相似度:
பைடு நூலகம்
其中 f 代表候选特征词,d 代表某种关系的指示词。Hits 代表搜索引擎的命 中个数,PMI 越高,f 与某产品的指示关系 d 程度越高。 5. [9]首先利用 Penn Treebank[18]提取出基础名词短语(BNP) ,将这些 BNP 作 为候选特征词,接下来分别用混合模型(Mixture Model)和可能性测试模型 (Likelihood Test)进行特征选择。 6. 我们利用 TF-IDF 提取 TD-IDF 值大于阈值的特征词作为特征词集合。 TF-IDF 公式如下:
ni,j 代表词 i 在文档 dj 中出现的频率; 率。|D|表示语料库中的文件总数。
������
������������ ,������ 代表文档 dj 中所有单词出现的频
TFIDFij=tfij*idfi TF-IDF 倾向于过滤掉常见的词语,而保留重要的词语。为了进一步改进试
验效果,在此基础上选出 IFIDF 大于阈值的特征词。 7. 《基于观点挖掘的产品可用性建模与评价》中,作者提出特征观点对抽取算 法,即抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征 观点对(F,O)。该算法的优势在于不需要人工标注任何数据。 1) 首先利用分词技术得到分词及词性标注,根据评论语料库来统计词语的 词频,来生成词典; 2) 抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观 点对(F,O)。
观点挖掘流程图如下所示:
3) 利用词语相似度来计算观点词的情感倾向。 通过计算观点词 Oi 和正面词 汇集P − words = {p������1 , … … , p������������ }以及负面词汇集N − words = {n������1 , … … , n������������ }的相似度来判断, 正面词汇集和负面词汇集选择的是 《知 网》提供的情感分析用语词语集。相似度计算方法是利用大规模语料库 进行计算,从信息论的角度利用互信息计算词语的相似度,而观点词 Oi 的情感的分等于它和正面词汇的相似度减去和负面词汇的相似度:
பைடு நூலகம்
其中 f 代表候选特征词,d 代表某种关系的指示词。Hits 代表搜索引擎的命 中个数,PMI 越高,f 与某产品的指示关系 d 程度越高。 5. [9]首先利用 Penn Treebank[18]提取出基础名词短语(BNP) ,将这些 BNP 作 为候选特征词,接下来分别用混合模型(Mixture Model)和可能性测试模型 (Likelihood Test)进行特征选择。 6. 我们利用 TF-IDF 提取 TD-IDF 值大于阈值的特征词作为特征词集合。 TF-IDF 公式如下:
ni,j 代表词 i 在文档 dj 中出现的频率; 率。|D|表示语料库中的文件总数。
������
������������ ,������ 代表文档 dj 中所有单词出现的频
TFIDFij=tfij*idfi TF-IDF 倾向于过滤掉常见的词语,而保留重要的词语。为了进一步改进试
验效果,在此基础上选出 IFIDF 大于阈值的特征词。 7. 《基于观点挖掘的产品可用性建模与评价》中,作者提出特征观点对抽取算 法,即抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征 观点对(F,O)。该算法的优势在于不需要人工标注任何数据。 1) 首先利用分词技术得到分词及词性标注,根据评论语料库来统计词语的 词频,来生成词典; 2) 抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观 点对(F,O)。