伪相关反馈的文本情感分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p i e s a n d f e a t u r e c o nc e n t r a t i o n u s i n g f o r i mpr o ve t h e p e r f o r ma n c e o f NB c l a s s i ie f r .We c a r r i e d o u t e x pe r i me n t s i n Chi —
L U L i n g , YA NG W u, T ANG J i - q i a n g
( C o l l e g e o f C o mp u t e r S c i e n c e a n d E n g i n e e i r n g , C h o n g q i n g U n i v e r s i t y o f T e c h n o l o g y , 4 0 0 0 5 0, C h i n a )
c a p a b i l i t i e s .F o r i n c r e me n t a l mo d e l b a s e d o n P s e u d o — r e l e v a n c e f e e d b a c k.t h e r e s e a r c h o n h o w t o i mp r o v e t h e c o n i f — d e n c e o f f e e d b a c k s a mp l e s i s s t i l l i mp o r t a n t ,a l t h o u g h s o me f e e d b a c k s t r a t e g y h a d b e e n g i v e n .T h i s p a p e r p r e s e n t e d a p s e u d o r e l e v a n c e f e e d b a c k me t h o d b a s e d o n K— Me a n s c l u s t e r i n g .F o r d o c u me n t s c l a s s i i f e d b y N a i v e Ba y e s i a n c l a s s i . f i e r ,w e s e a r c h e d t h e c e n t e r v e c t o r b y me a n s o f r e d u c i n g t h e s a mp l e n u mb e r g r a d u a l l y ,a n d e x t r a c t e d f e e d b a c k s a m—
第3 0 卷 第l 1 期
文章编号 : 1 0 0 6 — 9 3 4 8 ( 2 0 1 3 ) 1 1 — 0 2 6 8 — 0 4
计
算
机
仿
真
2 0 1 3 年1 1 月
伪 相 关 反 馈 的 文 本 情 感 分 类 方 法
卢 玲, 杨 武, 唐 继 强
( 重 庆 理 工 大学 计 算 机 科 学 与 工程 学 院 , 重庆 4 0 0 0 5 4 )
ABS T RACT: I n t h e p r o c e s s o f ma c百度文库h i n e l e a r n i n g ,i t i s n e c e s s a r y t o b u i l d i n c r e me n t a l mo d e l wi t h a u t o ma t i c l e a r n i n g
中图 分 类 号 : T P 3 9 1 文献 标 识 码 : B
Me t h o d o f Te x t Se n t i me nt Cl a s s i ic f a t i o n Ba s e d O i l
Ps e ud o Re l e v a n c e Fe e d b a c k
摘要 : 机器学习过程 中, 由于训 练集不完备 , 有必要构建具备主动学 习能力 的增 量模型。对基 于伪相关反馈 的增量模 型 , 现
有的增量学 习方法提出了一些选择反馈样本的策 略, 但对提高反馈样本类置信度的深入研究仍具有重要 意义。针对 这一问
题, 提出了基于 K - Me a n s 聚类 的伪相关反馈策略。对朴素贝叶斯分类器分类后的文档 , 用减量寻找质心 向量 的方式提 取反 馈文档以及新特征集合 , 对N B分类器进行反馈 , 将伪相关反馈策略运用于 中文文本情感分类 。实验 表明, 提取 质心向量的 准确率随反馈规模 的扩大有所提高 。方法从一定程度上实现了将后验 概率 转换为先验概率 , 随新特征 的增加 , 配合 C HI 阈 值调整可获取较高 的查准率和查全率 , 证明了方法 的可行性 。 关键词 : 伪相关反馈 ; 情感分类 ; 朴素 贝叶斯 ; 聚类
n e s e t e x t s e n t i me n t c l a s s i i f c a t i o n a c c o r d i n g t o t h e p s e u d o r e l e v a n c e f e e d b a c k s t r a t e g y .T h i s me t h o d c o n v e t r s t h e p o s t e — r i o r p r o b a b i l i t y i n t o p i r o r p r o b a b i l i t y i n a d e g r e e .Th e r e s u l t s s h o w t h a t w i t h t h e e x p a n s i o n o f f e a t u r e c o n c e n t r a t i o n, t h e s t r a t e g y c a n a c h i e v e b e t t e r t h a n b a s e l i n e i n p r e c i s i o n a n d r e c a l 1 . KE YW ORDS: P s e u d o r e l e v a n c e f e e d b a c k; S e n t i me n t c l a s s i ic f a t i o n; Na i v e B a y e s i a n; K- Me a n s c l u s t e i r n g
L U L i n g , YA NG W u, T ANG J i - q i a n g
( C o l l e g e o f C o mp u t e r S c i e n c e a n d E n g i n e e i r n g , C h o n g q i n g U n i v e r s i t y o f T e c h n o l o g y , 4 0 0 0 5 0, C h i n a )
c a p a b i l i t i e s .F o r i n c r e me n t a l mo d e l b a s e d o n P s e u d o — r e l e v a n c e f e e d b a c k.t h e r e s e a r c h o n h o w t o i mp r o v e t h e c o n i f — d e n c e o f f e e d b a c k s a mp l e s i s s t i l l i mp o r t a n t ,a l t h o u g h s o me f e e d b a c k s t r a t e g y h a d b e e n g i v e n .T h i s p a p e r p r e s e n t e d a p s e u d o r e l e v a n c e f e e d b a c k me t h o d b a s e d o n K— Me a n s c l u s t e r i n g .F o r d o c u me n t s c l a s s i i f e d b y N a i v e Ba y e s i a n c l a s s i . f i e r ,w e s e a r c h e d t h e c e n t e r v e c t o r b y me a n s o f r e d u c i n g t h e s a mp l e n u mb e r g r a d u a l l y ,a n d e x t r a c t e d f e e d b a c k s a m—
第3 0 卷 第l 1 期
文章编号 : 1 0 0 6 — 9 3 4 8 ( 2 0 1 3 ) 1 1 — 0 2 6 8 — 0 4
计
算
机
仿
真
2 0 1 3 年1 1 月
伪 相 关 反 馈 的 文 本 情 感 分 类 方 法
卢 玲, 杨 武, 唐 继 强
( 重 庆 理 工 大学 计 算 机 科 学 与 工程 学 院 , 重庆 4 0 0 0 5 4 )
ABS T RACT: I n t h e p r o c e s s o f ma c百度文库h i n e l e a r n i n g ,i t i s n e c e s s a r y t o b u i l d i n c r e me n t a l mo d e l wi t h a u t o ma t i c l e a r n i n g
中图 分 类 号 : T P 3 9 1 文献 标 识 码 : B
Me t h o d o f Te x t Se n t i me nt Cl a s s i ic f a t i o n Ba s e d O i l
Ps e ud o Re l e v a n c e Fe e d b a c k
摘要 : 机器学习过程 中, 由于训 练集不完备 , 有必要构建具备主动学 习能力 的增 量模型。对基 于伪相关反馈 的增量模 型 , 现
有的增量学 习方法提出了一些选择反馈样本的策 略, 但对提高反馈样本类置信度的深入研究仍具有重要 意义。针对 这一问
题, 提出了基于 K - Me a n s 聚类 的伪相关反馈策略。对朴素贝叶斯分类器分类后的文档 , 用减量寻找质心 向量 的方式提 取反 馈文档以及新特征集合 , 对N B分类器进行反馈 , 将伪相关反馈策略运用于 中文文本情感分类 。实验 表明, 提取 质心向量的 准确率随反馈规模 的扩大有所提高 。方法从一定程度上实现了将后验 概率 转换为先验概率 , 随新特征 的增加 , 配合 C HI 阈 值调整可获取较高 的查准率和查全率 , 证明了方法 的可行性 。 关键词 : 伪相关反馈 ; 情感分类 ; 朴素 贝叶斯 ; 聚类
n e s e t e x t s e n t i me n t c l a s s i i f c a t i o n a c c o r d i n g t o t h e p s e u d o r e l e v a n c e f e e d b a c k s t r a t e g y .T h i s me t h o d c o n v e t r s t h e p o s t e — r i o r p r o b a b i l i t y i n t o p i r o r p r o b a b i l i t y i n a d e g r e e .Th e r e s u l t s s h o w t h a t w i t h t h e e x p a n s i o n o f f e a t u r e c o n c e n t r a t i o n, t h e s t r a t e g y c a n a c h i e v e b e t t e r t h a n b a s e l i n e i n p r e c i s i o n a n d r e c a l 1 . KE YW ORDS: P s e u d o r e l e v a n c e f e e d b a c k; S e n t i me n t c l a s s i ic f a t i o n; Na i v e B a y e s i a n; K- Me a n s c l u s t e i r n g