面向微博热门话题的主客观分类方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向微博热门话题的主客观分类方法研究
【摘要】:随着Web2.0的快速发展,互联网的载体已经不仅仅是单一的电脑,手机、平板电脑等移动终端已经悄然进入了人们的视野。人们获取、分享信息也不单单通过社区、博客,而是能够随时随地发表微博,实现即时分享。微博用户的大幅度增长吸引了一大批学者对其发表言论进行研究,面向微博热门话题的主客观分类问题是其中的重要课题之一。到目前为止,国内外学者主要针对无话题的微博文本进行研究,而面向热门话题的微博文本研究尚处于起步阶段。热门话题下的微博言论文本具有话题分散性,即用户发表的言论常常与当前的热门话题不相关,这个现象会导致针对微博热门话题的主客观分类方法准确率不高。基于此,本文将面向微博热门话题的主客观分类问题看成是两个子问题——话题相关性分类子问题和主客观分类子问题,对两个子问题独立建模,再使用Logistic回归对两个结果集建模,得出当前热门话题下的主观性观点表达。本文的主要研究内容如下:(1)研究了基于同义词词林的话题相关度计算方法。在话题相关性分类子问题中,主要研究当前微博语料是否与所关注的热门话题相关,如何度量两者之间的相关程度是此问题的关键之处。本文以同义词词林扩展版作为资源,通过计算当前词与热门话题词的距离来刻画两者之间相关程度,以此来简化话题相关度的计算方法。(2)研究了基于汉语框架语义网生成有效观点词集的方法。在主客观分类判断子问题中,主要是判断当前微博是否属于主观观点表达。其中构建有效的观点词集是
该问题中重要的步骤之一。本文利用汉语框架语义网中框架间关系和词元,以“观点”框架内词元为种子集,构建了有效的观点词集。(3)研究了将话题相关性模型结果和主客观分类模型结果统一的方法,使用Logistic回归模型将两重结果统一在一个模型下,得到热门话题下的主观文本。(4)本文使用无话题相关性分类的主客观分类方法作为Baseline,并与多分类主客观分类方法与分步主客观分类方法进行对比分析。分析了使用Logistic回归模型并行融合话题相关性分类结果与主客观分类结果的重要性。【关键词】:热门话题主客观分类话题相关性分类Logistic回归模型
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092;TP391.1
【目录】:摘要4-6Contents6-8中文摘要8-9ABSTRACT9-11第一章绪论11-171.1研究背景及意义11-131.2国内外研究现状13-141.3本文研究内容14-151.4论文组织结构15-17第二章问题描述及相关资源17-232.1面向微博热门话题的主客观分类问题描述17-182.1.1话题相关性分类子问题描述182.1.2主客观分类子问题描述182.2相关资源18-212.2.1同义词词林及扩展版18-192.2.2汉语框架语义网19-212.3
本章小结21-23第三章面向微博热门话题的主客观分类方法23-313.1条件随机场模型233.2面向微博热门话题主客观分类建模23-243.2.1Logistic回归模型23-243.2.2模型影响因素及判断标准243.3话题相关性分类模型24-273.3.1词与热门话题词最大相关度算法25-263.3.2话题相关性分类特征选择26-273.4主客观分类模型27-293.4.1汉语框架网框架距离27-283.4.2观点词集构建方法28-293.4.3主客观分类特征选择293.5本章小结29-31第四章实验及结果分析31-414.1实验语料来源及预处理31-344.1.1实验语料来源314.1.2实验语料预处理31-344.2实验结果评价指标34-354.3实验结果及分析35-374.3.1话题相关性模型结果及分析354.3.2主客观分类模型结果及分析35-364.3.3面向微博热门话题主客观分类模型结果及分析36-374.4Baseline及对比实验分析37-404.4.1Baseline37-384.4.2对比实验38-404.5本章小结40-41第五章结论与展望41-435.1结论415.2展望41-43参考文献43-47攻读学位期间取得的研究成果47-49致谢49-51个人简况及联系方式51-55 本论文购买请联系页眉网站。