微博短文本细粒度情感分析毕业设计论文

微博短文本细粒度情感分析毕业设计论文
微博短文本细粒度情感分析毕业设计论文

摘要

题目:微博短文本细粒度情感分析

摘要

微博作为是移动互联网起步最早也发展最快的业务之一,在经历了最初几年的高速增长和热捧之后,一度有些沉寂。但是,伴随着4G网络、WiFi网络大规模覆盖,移动终端智能设备的极速增长,越来越多的人频繁地使用微博。移动端用户的增长,让微博有了日活跃用户超过1亿的基础。基于该庞大的用户群体,利用微博文本对用户进行情感分析,不仅有利于新生代商业模式探索、社会舆情监控与分析,而且对人工智能发展的积极意义也不容小觑。文本情感分析为人工智能在人类情感领域的探索做出了积极的贡献。

微博具有典型的网络语言特点,语法规范性差、口语化、新词汇层出不穷、大量的表情符号和文本噪声等。基于传统规范书面语言词典的微博情感分析效果差强人意。为了解决这个问题,本文一方面通过对传统情感词典进行网络语言的扩充,构建了新的适用于微博文本分析的词典,并通过实验验证了词典的有效性;另一方面,使用对特殊情感词汇依赖性小的RAE网络模型,性能得到了提高。

含有否定词的文本情感判别较为复杂,否定词的加入可能使原文本情感极性发生转变,也可能极性保持不变,程度有所削弱。传统本文传统的情感分析方法通常对文本模型进行简化,假设一个词语仅和其前一个词语有关,对含有否定词的文本的积极/消极判别较差。RNTN模型没有进行类似简化,保持了词向量之间的强相关性。本文通过对RNTN模型的训练,使其在含有否定词中文文本情感极性判别上有良好的表现。

RNTN模型对词语或短语级细粒度情感分析上表现出色,而且不需要大量的人工标注;RAE模型作为较为成熟的深度学习模型,抛弃了传统的词袋模型,利用层次结构和成分语义来进行情感分类;SVM作为传统机器学习方法,通用性强,适用范围广。结合以上方法的特点以及情感分类的任务目标,本文设计了微博短文本的双极性、细粒度情感分类方案,首先使用SVM对微博篇章进行主客观分类,RAE和RNTN对判定为主观情感的文本的每一个句子进行正负极性判断,并选出极性最强的句子,该句子的情感极性即为整个微博的情感极性。若RAE和RNTN评判结果一致,即为最终结果。并通过实

北京邮电大学硕士学位论文验证明了系统的可行性和高效性。

关键词:微博短文本机器学习神经网络

Abstract

FINE GRAINED SENTIMENT ANALYSIS ABOUT

MICRO BLOG SHORT TEXT

ABSTRACT

As one of the earliest and fastest growing mobile Internet business, in the first few years of rapid growth and heat holding, once some quiet. However, with the 4G network, the WiFi network is a large scale, the rapid growth of mobile terminal intelligent devices, more and more people frequently use microblogging. The growth of mobile end users, so that microblogging has more than one hundred million active users in the day. Based on the huge user groups, the use of microblogging text sentiment analysis of the user, not only conducive to the new generation business model exploration, social public opinion monitoring and analysis and the positive significance to the development of artificial intelligence also should not be underestimated. Text sentiment analysis has made a positive contribution to the exploration of artificial intelligence in the field of human emotion.

Micro blog has the typical characteristics of network language, such as poor grammar, spoken language, new vocabulary, a large number of expression symbols and text noise. The traditional standard written language dictionary based on the analysis of the effect of micro-blog emotion just passable. In order to solve this problem, this paper constructs a new dictionary which is suitable for micro blog text analysis. On the other hand, the performance of the RAE network model is improved.

The emotional judgment of text containing the negative words is more complex, and the addition of the negative word may cause the original emotional polarity to change, and it may remain unchanged. In this paper, the traditional method of sentiment analysis is usually simplified to the text model, assuming that one word is only related to the

北京邮电大学硕士学位论文

former one, and the positive / negative discrimination of the negative words is poor. The RNTN model does not have a similar simplification, and the strong correlation between the word vector is maintained. In this paper, the training of RNTN model, which makes it a good performance in the Chinese text of the negative words.

RNTN model is a good performance in terms of words and phrases, and does not require a lot of manual labeling; RAE model as a more mature deep learning model, abandoned the traditional word bag model, the use of hierarchical structure and composition semantics to carry out emotional classification; SVM as a traditional machine learning method, universal strong, wide range of application. Based on the characteristics of the above methods and the task of sentiment classification, this paper designs the bipolar and fine-grained sentiment classification scheme. Firstly, SVM is used to classify the micro blog text, RNTN and RAE are positive and negative polarity. If the RAE and RNTN evaluation results are consistent, that is the final result. The reliability and stability of the system are verified by experiments.

KEY WORDS:Micro blog short text,Machine Learning ,Neural Network

目录

目录

第一章引言 (1)

1.1 背景 (1)

1.2 情感分析在人工智能上的意义 (2)

1.3 细粒度情感分析 (4)

1.4 文章结构 (5)

1.5 本章小结 (6)

第二章细粒度情感分析方法 (7)

2.1 微博及短文本 (7)

2.1.1 微博短文本特征 (7)

2.1.2 语料库 (8)

2.2 微博短文本情感分析理论基础 (10)

2.2.1 统计语言模型 (10)

2.3 文本机器学习方法 (13)

2.3.1 隐含马尔科夫模型 (13)

2.3.2 K近邻算法 (16)

2.3.3 支持向量机 (18)

2.3.4 贝叶斯分类方法 (19)

2.4递归神经网络 (20)

2.4.1 深度学习的复兴 (20)

2.4.2 神经网络的定义和基本知识 (21)

2.5本章小结 (23)

第三章微博文本准备与处理 (24)

3.1 细粒度情感分析概述 (24)

3.1.1情感分析研究层次 (24)

3.1.2情感信息分类 (25)

3.2 数据清洗 (26)

3.2.1繁体转换 (26)

3.2.2 去除多余标志 (26)

3.3 词典构建 (27)

3.3.1中文分词 (27)

3.3.2词向量 (28)

3.3.3 Word2vec词向量模型 (30)

北京邮电大学硕士学位论文

3.3.4误差反向传播训练 (32)

3.3.5 微博文本词典构建 (34)

3.4 本章小结 (36)

第四章基于递归神经网络的细粒度情感分析 (37)

4.1基于RNTN的双极性情感分析 (37)

4.1.1 RNTN的网络模型训练 (37)

4.1.2 实验1:n-gram细粒度情感分类与结果分析 (39)

4.1.3 实验2:转折句情感分类与结果分析 (40)

4.1.4 实验3:否定句情感分类与结果分析 (40)

4.2基于RAE的多类别情感分类 (42)

4.2.1 RAE的网络模型训练 (42)

4.2.2 实验1:RAE模型参数调整结果与分析 (43)

4.3微博细粒度情感分类 (43)

4.3.1 方案设计 (44)

4.3.2 实验1:基于不同语料库的实验结果分析 (46)

4.3.3 实验2:基于不同情感分析方法的实验结果分析 (47)

4.3.4 实验总结和相关工作 (48)

4.4本章小结 (49)

第五章总结与展望 (50)

5.1 论文总结 (50)

5.2 下一步工作 (50)

参考文献 (52)

缩略词 (54)

致谢.............................................................................................. 错误!未定义书签。

第一章引言

第一章引言

随着新闻中不断报道中国有望在2016年年底接替美国成为第一大经济体【】,新经济范式出现得更加迫切。每一种伟大的经济范式都具备三个要素——通信媒介、能源和运输机制【】。如果没有通信我们就无法管理经济活动、不能生成信息或传输能力,也不能在整个价值链中进行经济活动。无处不在的通信网络正在与初期可再生能源互联网、处于萌芽阶段的自动化物流和交通运输网络相连接,以扩大全球的影响力。

随着通信网互联网、移动互联网、物联网的高速发展,成千上百的爱好者和公司创造了巨大的价值。已在过去10年里,亿万消费者转变为互联网的产消者,开始在网上以接近免费的方式制作和分享音乐、视频和知识,微博就是互联网群体进行知识分享、情感交流、信息传播、产销合一等的最佳平台。微博具有极强的信息流动和传播能力,打通了不同人群之间沟通的地域障碍。11月19日,微博发布2015年第三季度财报。显示,微博营收同比增长48%达到1.247亿美元,盈利2210万美元,比上个季度增幅超过1倍,并连续四个季度实现盈利。同时微博月活跃用户达到2.22亿,同比增长33%,日活跃用户也达到1亿。【】

1.1 背景

微博虽然以PC端发家,但本质上是移动互联网的应用。4G网络在中国已经逐渐普及,大屏智能终端也成为流行,用户使用手机上网越来越频繁。数字显示,上市以来,微博月活跃用户净增长7800多万,其中移动端占比85%,达到1.887亿,比年初增长了近5000万。可以这样讲,正是因为移动端用户的增长,才让微博有了日活跃用户超过1亿的基础。【】

微博用户表现非常活跃,第三财季每条热门微博的评论数量为83.4万条,环比增长5.8%。每条热门微博的平均“点赞”数量为1599个,环比增长20%。对于庞大使用人群的微博平台进行情感研究,不仅仅能够揭示出4G移动网络普及对社会形态的影响,对社会舆情起到良好的监督作用,同时情感分析本身对人工智能的发展有巨大的促进作用。

最早提出机器智能设想的是计算机科学之父阿兰·图灵(Alan Turing),1950年他在《思想》(Mind)杂志上发表了一篇题为“计算的机器和智能”的论文【】。在论文中,图灵并没有提出什么研究方法:让人和机器进行交流,如果人无法判

北京邮电大学硕士学位论文

断自己交流的对象是人还是机器,就说明这个机器有智能了。这个方法被后人称为图灵测试(Turing Test)。让计算机能够像人类一样进行学习、思考、识别人类的情感,最佳的途经之一就是学习人类的语言模式,自然语言处理是使用人工智能得到突破性发展的领域之一。

基于统计的自然语言处理方法,在数学模型和通信是想通的,甚至就是相同的。因此,在数学意义上的自然语言处理又和语言的初衷——通信联系在了一起。但是,科学家们用了几十年才认识到这个系统。

自然语言处理的应用在过去的25年里也发生了巨大的变化。比如对自动问答的需求很大程度上被网页搜索和数据挖掘替代了。而新的应用越来越依靠数据的作用和浅层的自然语言处理工作,这就在客观上大大加速了自然语言处理研究从基于规则的方法到基于统计的方法的转变,变成了非常贴近实际应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识获取等等【】。

技术进步让世界变得美好,但新的挑战也随之而来。Erik Brynjolfsson和Andrew McAfee提出,数字技术置于人类智力,相当于工业革命时期蒸汽机及相关技术对人类肌肉的解放。数字技术让我们能很快克服多种局限,以前所未有的速度开拓很多新领域。其影响力不可小觑。正如蒸汽机经过了几十年的改良才终于促成工业革命,数字技术的完善同样也需要时间。计算机和机器会不断进化,以惊人的速度学习新事物。这正是引发我们思考的原因,我们正处于所谓“第二个机器时代”的黎明时分。

第二机器时代能够分为几个阶段。第一阶段中,人类步步艰难地传授给机器毕生所学,这也是传统软件编程的内容。到了第二阶段,机器将具备自主学习的能力,甚至创造出连人类都无法解释的知识和技能。目前机器已经在语言、纠错、和计算机游戏中展现出了一定的学习能力。如果机器能够感知情绪和人际互动等人类领先的优势,就可能产生第三个阶段。现在麻省理工学院媒体实验室的研究者正在开发能识别情绪的机器人分析面部表情的能力甚至超过了你我。机器已经开始涉足与创造力、灵活性、情感感知能力相关的领域【】。

1.2 情感分析在人工智能上的意义

如果你一直以来把人工智能(AI)当作科幻小说,但是近来却听到很多学者严肃地讨论这个问题,你可能也会困惑。这种困惑是有原因的【】:

1.我们总是把人工智能和电影想到一起。星球大战、终结者、2001:太空漫游等等。电影是虚构的,那些电影角色也是虚构的,所以我们总是觉得人工智能缺乏真实感。

第一章引言

2.人工智能是个很宽泛的话题。从手机上的计算器到无人驾驶汽车,到未来可能改变世界的重大变革,人工智能可以用来描述很多东西,所以人们会有疑惑。

3.我们日常生活中已经每天都在使用人工智能了,只是我们没意识到而已。John McCarthy,在1956年最早使用了人工智能(Artificial Intelligence)这个词。他总是抱怨“一旦一样东西用人工智能实现了,人们就不再叫它人工智能了。”

人工智能的概念很宽,Tim Urban按照人工智能的实力将其分成三大类【】:弱人工智能Artificial Narrow Intelligence (ANI):弱人工智能是擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能,但是它只会下象棋,你要问它怎样更好地在硬盘上储存数据,它就不知道怎么回答你了。

强人工智能Artificial General Intelligence (AGI):人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能,人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多,我们现在还做不到。Linda Gottfredson 把智能定义为“一种宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作。”强人工智能在进行这些操作时应该和人类一样得心应手。

超人工智能Artificial Superintelligence (ASI):Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。”超人工智能可以是各方面都比人类强一点,也可以是各方面都比人类强万亿倍的。超人工智能也正是为什么人工智能这个话题这么火热的缘故。

Donald Knuth【】提出,“人工智能已经在几乎所有需要思考的领域超过了人类,但是在那些人类和其它动物不需要思考就能完成的事情上,还差得很远。”读者应该能很快意识到,那些对我们来说很简单的事情,其实是很复杂的,它们看上去很简单,因为它们已经在动物进化的过程中经历了几亿年的优化了。当你手拿一件东西的时候,你肩膀、手肘、手腕里的肌肉、肌腱和骨头,瞬间就进行了一组复杂的物理运作,这一切还配合着你的眼睛的运作,使得你的手能都在三维空间中进行直线运作。对你来说这一切轻而易举,因为在你脑中负责处理这些的“软件”已经很完美了。同样的,软件很难识别网站的验证码,不是因为软件太蠢,恰恰相反,是因为这对计算机来说并不是一件容易的事。

人工智能往往离不开机器学习,机器学习中的一个重要领域就是深度学习【】,深度学习技术受益于越来越多的数据,更快的机器与更多核CPU/GPU对深度学习的普及起了很大的促进作用,新的模型,算法和创意层出不穷,通过深度学习技术提升效果首先发生在语音识别和机器视觉领域,然后开始过渡到自然语言处理领域。

微博数量巨大,参与度高,信息更替速度极快成为非常好的研究自然语言处

北京邮电大学硕士学位论文

理的研究样本。

1.3 细粒度情感分析

情感分析(Sentiment analysis),又称倾向性分析,意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subjectivity analysis),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。

情感计算的概念最早由R.Picard教授在1995年提出,她在其专著《Affective Computing(情感计算)》中定义“情感计算是与情感相关、来源于情感或能对情感施加影响的计算”。情感计算一直都是人工智能方面的研究热点,其包含的领域也有很多,包括面部表情识别、语音情感识别、歌曲情感识别、文本情感分析等等。

挖掘微博(Twitter)中的用户情感发现,其与传统的调查、投票等方法结果有高度的一致性(以消费者信心和政治选举为例,准确度达80%)(Brendan O' Connor, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. 【】研究表明2008年到2009年初,网民情绪低谷是金融危机导致,从2009年5月份开始慢慢恢复。

Johan Bollen【】等人研究表示通过Twitter用户情感预测股票走势,2012年5月,世界首家基于社交媒体的对冲基金Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注Twitter 中的公众情绪指导投资。正如基金创始人保罗?郝汀(Paul Hawtin)表示:“长期以来,投资者已经广泛地认可金融市场由恐惧和贪婪驱使,但我们从未拥有一种技术或数据来量化人们的情感。”一直为金融市场非理性举动所困惑的投资者,终于有了一扇可以了解心灵世界的窗户——那便是微博。每天浩如烟海的推文,在一份2011年8月的报道中显示,利用微博的对冲基金Derwent Capital Markets 在首月的交易中已经盈利,它以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。类似的工作还有预测电影票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测,如将“冷静CLAM”情绪指数后移3天后和道琼斯工业平均指数DIJA惊人一致。

文本作为网络信息传递的主要载体,也越来越多的引起人们的注意,同时文本情感分析作为情感计算的重要分支也得到了足够的重视。不同学者对文本情感分析理解不同,王宏伟等人认为是对用户发表的评论进行分析,从而识别出隐含的情感信息,并发现用户的情绪演化;张紫琼等人认为情感分析是通过对产品评

第一章引言

论自动分析,发现消费者对该商品的褒贬态度和意见。无伦是从哪个角度理解情感分析,其主要任务按粒度都可以划分为词语级情感分析、语句级情感分析和篇章级情感分析。

目前,篇章级的情感分析应用,效果比较好的主要集中在对产品评论领域的情感分析。由于微博的长度不超过140 个字符,特别是中文微博一般就几个简单的句子或者几个词组、几个表情符号,对于微博短文本的情感分析技术主要集中在词语级和句子级情感分析的应用。

国外方面针对社交媒体的研究相对较早,2005年Pak 【】等人就开始了面向Twitter的情感分析研究。Pak 等人组织标注了Twitter 微博短文本情感极性数据集,实现了基于朴素贝叶斯、支持向量机和条件随机场的情感分类器。Read 【】等人提出可以利用Twitter API 获得大量的表情符号,并对表情符号对情感分类的作用进行了详细论证。Go 等人采用无监督指导的朴素贝叶斯、最大熵和支持向量机三种机器学习方法,将表情符号也加入到所选取特征中,情感倾向判别的准率超过了80%。

由于微博是近几年才在国内发展起来的新型社交媒体平台,所以国内方面针对微博短文本的情感分析研究还相对较少。谢丽星等人对基于表情符号的规则方法、基于情感词典的规则方法和基于SVM的层次结构的多策略方法进行了深入的研究,结果表明基于SVM 的层次结构多策略方法效果最好。国内目前微博短文本情感分析的研究现状大部分都是通过统计微博中情感词的出现频率来确定其情感倾向性,并没有考虑其上下文语境,更没有从语义理解的角度进行研究,从而影响最终结果的正确率;

再者,大部分的分析方法是将传统的情感分析移植到微博研究中,并没有深入挖掘微博个性化情感特征,导致正确率始终没有明显的提高。

1.4 文章结构

本文以信息系统数据挖掘典型方法——机器学习为研究基础,介绍了机器学习中常用的方法和体系架构,并针对微博短文本的语言特点,传统情感分析的词典覆盖面有限,从构建新的情感词典和使用对特殊情感词依赖性低的RAE模型两方面解决这个问题。其次,针对传统文本情感分析方法对含有否定词的文本情感判别的低效性的问题,使用并训练RNTN神经网络模型,增强输入词向量之间的相关性,使对否定的判别得到了提升。最后,结合SVM、RAE、RNTN的特点,设计一套针对微博短文本细粒度情感判别的方案,并通过仿真测试验证了方案的可行性与高效性。

北京邮电大学硕士学位论文

论文将按照如下组织结构展开:

第二章,具体介绍了微博文本类常用的方法,包括支持向量机、朴素贝叶斯、人工神经网络等多个方面。

第三章,分析了当前微博短文本情感分析中存在的问题,词典覆盖不全和需要大量人工标注的,结和Word2vec进行分词和词性标注,并构建了针对微博文本的情感词典。

第四章,结合实例,详细阐述了解决否定情感句的模型,比较了多个方法在否定情感判别上的优劣,通过对RNTN和RAE的模型训练,提高了性能。最后结合SVM、RAE和RNTN的特点,设计微博细粒度情感分析的方案,并描述了设计原则以及优缺点。

第五章,对全文进行总结并对未来的研究工作进行展望。

1.5 本章小结

本章首先阐述了当前微博短文本情感分析所面临的挑战和网诞生的背景,结合具体数据指出提升情感分析系统的必要性。其次,本章介绍了人工智能的信息研究进展,简述了其架构特点,阐述架构中存在的问题。第三,结合文本问题研究现状指出了论文选题的意义。最后,介绍了全文组织结构。

第二章细粒度情感分析方法

第二章细粒度情感分析方法

2.1 微博及短文本

2.1.1 微博短文本特征

微博(Weibo 或Micro-blog),又称微博客,是一个基于用户关注机制的信息分享、传播及获取平台,用户可以通过WEB、WAP 以及各种联网的智能客户端,公开发布140 字符左右的消息,可以包含表情符号、图片、链接地址等,并实现即时分享自己的日常生活,心情感悟,或者表达个人观点。微博将网民从单纯的信息接收者变成了接收和发布信息的完全参与者。

微博承载的主要形式就是短文本。短文本就是指内容长度较短的文本格式的信息,统计NLP&CC2014 会议中文微博情绪分析评测所提供的4000 条微博语料,通常微博短文本只包含1-6 个短句。和传统的文章、新闻等正式文本相比,微博短文本有很大的特殊性:

(1) 数据稀疏性。微博由于文本字数受到限制,单条微博短文本通常只有一个或几个短句组成,这就在很大程度上造成了数据稀疏的问题。对仅有几十字节大小的微博短文本进行情感分析,只包含几个或十几个词,很难有效的抽取情感词,情感空间模型表示起来势必会造成严重的数据稀疏问题。

(2) 不规范性。微博短文本表达简洁,用语精炼又十分口语化,极不规范,缩写和拼写错误很常见,还经常掺杂着一些新近的流行网络语言、表情符号和链接地址,如果说数据稀疏可以通过某种词语聚类能在某种程度上解决这个问题,但又由于微博语言的非正式性,词语聚类又成了情感分析过程中新的瓶颈。

(3) 实时性。微博可以随时随地通过互联网和各种智能终端发布和接收博文,而且无须经过审批,方便快捷,其时效性大大增强。任何新闻或事件都可能在微博迅速形成话题,短时间内关于该话题的评论就会铺天盖地的产生。通过实时产生的海量数据做舆情分析,可以快速引导大众舆论,但是海量的微博短文本会导致有效样本分布不均匀,噪音更多,所以对微博短文本情感分析系统的性能要求更高。

(4) 交互性。微博是基于“弱关系”的社交平台,大量的微博信息都是通过回复和转发而产生的,这样的“交互性”微博具有丰富的上下文语境,所产生的微博短文本带有大量的省略和指代,而且产生了大量无关字符,这对情感要素抽

北京邮电大学硕士学位论文

取造成了困难。

(5) 无领域性。传统的评论大多只针对产品、新闻的某一个特定的领域,然而微博的内容缺毫无领域性可言,评论领域广泛,无论是对新闻热点事件的讨论,还是对产品的评论,或是抒发自己的人生感悟,甚至是与好友、明星、意见领袖的直接对话都在微博中广泛存在。这就要求微博情感分析系统具有可移植性。

2.1.2 语料库

语料库和在线词典是自然语言处理中不可缺少的部分,是自然语言处理迈向实用的根基。在语言学中,语料库(Corpus)或文本语料库(Test Corpus)是指大型的结构化的文本集,现在通常使用电子设备存储和处理。它们通常用于统计分析和假设检验之中,来检验在特定的语言领域内出现的语言情况或验证语言规则。

语料库可以含有单一语言文本(单语语料库),也可以包含多种语言文本数据(多语语料库)。特殊格式的端到端的比较的多语言语料库,称为对齐平行语料库。包含两种语言文本的平行语料库有2种主要形式,即翻译语料库和对比语料库。在翻译类语料库中,一种语言的文本是另一种语言文本的翻译。在对比语料库中,文本覆盖相同的内容,并且是同一种文本类型,但它们不是彼此的另一种语言翻译。【Wo?k, K.; Marasek, K. A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation. Advances in Intelligent Systems and Computing (Springer) 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357】为了开发一个平行文本,识别某种对齐文本的等效文本段(短语或句子)的是进行先决分析的条件之一。机器翻译算法的翻译语言之间的经常使用平行的片段,包括第一语言语料库和第二语言语料库,这是一个元素的第一语言语料库元素的翻译。对双语翻译的机器翻译算法训练,通常使用包含第一语言语料库和第二语言语料库的平行片段,其中第二语料库是第一语言语料库中元素的一对一翻译。【Wo?k, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence (Springer): 32–40. ISBN 978-3-319-24032-9.】

为了使语料库更有利于语言研究,往往会对其进行标注。一种形式是对语料库进行词性标注(Art-of-speech tagging或者POS-tagging),每个词语的部分信息(如词性,动词、名词、形容词、副词等)以标签的形式添加进语料库中。另一种形式是以基的形式表示每个词语。当主体语言不是研究人员的工作语言,行间注释用来做双语标注。

第二章细粒度情感分析方法

一些语料库有用来分析应用的进一步层次化结构。特别是,一些较小的语料库可以被完全解析。这些语料库通常被称作树库(Treebanks)或解析语料库(Parsed Corpora),如斯坦福情感树库()。确保整个语料库注释的完整性和一致性的难度在于,这些语料库通常较小,仅包含约一至三百万词语。语言结构的其他层次分析是可行的,其中包括形态、语义等的注释。

在自然语言处理、语音识别和机器翻译领域中,各种类型的语料库的分析和处理得到了很大的发展,通常创建一个隐马尔可夫模型用于词性标注或者其他用途。

下文将介绍几种常用的语料库和在线词典。

语料库列表:

DBpedia:由柏林自由大学和莱比锡大学与OpenLink Software共同合作,于2007出版的第一个公开可用的基于维基百科的数据集。维基百科的文章主要包括自由文本和一些结构化信息,如“信息框”表、分类信息、图片、地理坐标和外部链接的网页。【Bizer, Christian; Lehmann, Jens;et.. "DBpedia - A crystallization point for the Web of Data". Web Semantics: Science,Services and Agents on the World Wide Web 7 (3): 154–165. doi:10.1016/j.websem.2009.07.002. ISSN 1570-8268.】这种结构化的信息被提取并统一放置在一个数据集中,供使用者查询。2014年9月发布了新版本,其中主要变化是对抽象文本的提取方式,通过运行维基百科的本地镜像,从中提取所需摘要,提取文本的过程相当简洁。整个DBpedia数据集描了述4580000个实体,其中4220000个被归类为一个一致的本体,包括1445000个人,735000个地方,123000个音乐专辑,87000部电影,19000个视频游戏,241000个组织,251000个物种和6000个疾病。数据集关于这些实体的功能标签和摘要多达125种不同的语言,25200000个到图像的链接和29800000个到外部网页链接。此外,它包含大约50000000个到其他RDF数据集的链接,80900000个到维基百科的类别链接以及41200000 个YAGO2类别。DBpedia中映射语言已经发展到帮助语言映射到属性本体,同时减少同义词的数量。由于使用维基百科的多样性和大量性,发展和完善这些映射的过程中已经对公众开放。【"DBpedia Version 2014 released". DBpedia. Retrieved 9 September 2014.】

WordNet:是一个词汇语言数据库。【G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.】可以被看作是一个组合的字典和词典,主要用于自动文本分析和人工智能。数据库和软件工具可以免费从WordNet的网站下载。无论是字典

毕业设计(论文)撰写格式要求内容

毕业设计(论文)撰写标准 一、毕业设计(论文)的编写格式: 1.“摘要”、“目录” 黑体,三号,居中排列。 2.“引言”、“结论” 、“参考文献”黑体,四号,左对齐排列,“致谢”、“附录”黑体,四号,居中排列。 3.正文:各章标题黑体,四号,居左排列。各章下的节标题黑体,小四号,居左排列。正文内容中文为宋体,小四号。正文中的图名和表名及相应内容用宋体,五号字体,图名置于图正下方,表名置于表正上方。 4.页眉:宋体五号,居中排列。内容为“桂林电子科技大学毕业设计(论文)”。 5.页码:宋体小五号,页脚居中排列。页码从引言开始编号,一直编到附录。 二、毕业设计(论文)的前置部分: 毕业设计(论文)的前置部分包括封面、中文摘要、目录等。 1.题目:题目是以最恰当、最简明的词语反映论文中最重要的特定内容的逻辑组合。中文题目(包括副题和标点符号)一般不宜超过20字。 2.中文摘要及关键词 (1)中文摘要内容,宋体,小四号,一般为300字左右。摘要中不宜出现公式、非公用的符号、术语等。 (2)每篇论文选取3~5个关键词,关键词排列在摘要的左下方一行,顶格写:“关键词:”为黑体,小四号,内容采用小四号、宋体、接排、各个关键词之间有分号隔开。 3.目录:按照引言、论文的章节、结论、参考文献、致谢、附录等前后顺序,编写序号、名称和页码。目录页排在中文摘要之后,目录要求自动生成。 三、毕业设计(论文)的主体部分: 毕业设计(论文)的主题部分包括引言、正文、结论、参考文献、致谢等。字数(正文部分)要求8000字以上。 1.引言:简要说明作者所作工作的目的、范围、国内外进展情况、前人研究成果、本人的设想、研究方法等。 2.正文:毕业设计(论文)的核心部分,包括理论分析、数据资料、实验方法、结果、本人的论点和结论等内容,还要附有各种有关的图表、照片、公式等。 (1)图:图序号一律用阿拉伯数字分章依序编码,如:图1.1、1.2,图2.1、2.2等。图

毕业设计论文模板

本科生毕业论文(设计)Undergraduate Graduation Thesis(Design) 题目Title: 院系 School (Department): 专业 Major: 学生姓名 Student Name: 学号 Student No.: 指导教师(职称) Supervisor(Title): 时间:年月日 Date: Month Day Year

说明 1. 毕业论文(设计)的写作格式要求请参照《中山大学本科生毕业论文 的有关规定》和《中山大学本科生毕业论文(设计)写作与印制规范》。 2. 除完成毕业论文(设计)外,还须填写三份表格: (1)表一毕业论文(设计)开题报告; (2)表二毕业论文(设计)过程检查情况记录表; (3)表三毕业论文(设计)答辩情况登记表。 3. 上述表格均可从教务部主页的“下载中心”处下载,如表格篇幅不够, 可另附纸。每份毕业论文(设计)定稿装订时应随同附上这三份表格。4. 封三是毕业论文(设计)成绩评定的主要依据,请认真填写。 Instruction 1. Please refer to ‘The Guidelines to Undergraduate Graduation Thesis (Design) at Sun Yat-sen University’and ‘The Writing and Printing Format of Undergraduate Graduation Thesis(Design) at Sun Yat-sen University’for anything about the thesis format. 2. Three forms should be filled up before the submission of the thesis (design): (1)Form 1: Research Proposal of Graduation Thesis. (2)Form 2: Process Check-up Form. (3)Form 3: Thesis Defense Performance Form. 3. All the above forms could be downloaded on the website of the Office of Education Administration. If there is not enough space in the form, please add extra sheets. Each thesis (design) should be submitted together with the three forms. 4. The form on the inside back cover is the grading sheet. Please fill it up before submission.

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比 如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体, aspect/属性,opinio n/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素

、 (entity 体, 输入文木 holder/?点持有者,time/ 时 |i 图i情感分析五要素 举例如下图: 我觉得华为手机非常牛逼。(华为手机* 图2情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可 以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实 体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、 「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

1316574862691.附件1毕业设计(论文)基本要求及写作格式

中国石油大学(华东)现代远程教育毕业设计(论文) 基本要求及写作格式 一、基本要求 1.封面 使用学院规定的统一格式(可以上网下载)。“题目”要对论文的内容有高度的概括性,简明、准确,字数应在25字以内。“年级专业”须写全称。 2.摘要 摘要内容包括:“摘要”字样,摘要正文,关键词。必须在摘要的最下方另起一行,用显著的字符注明本文的关键词。 摘要应简要说明毕业设计(论文)所研究的内容、目的、论文的基本思路和逻辑结构、实验方法、主要成果和结论,应能反映整个内容的精华。一般为300字左右。 关键词是为用户查找文献,从文中选取出来用以揭示全文主题内容的一组词语或术语,应尽量采用词表中的规范词(参照相应的技术术语标准)。关键词一般为3~5个,按词条的外延层次排列(外延大的排在前面)。关键词之间用逗号分开,最后一个关键词后不打标点符号。 3.目录 毕业设计(论文)的章节编排格式:一级标题用“第1章”、“第2章”……;二级标题用阿拉伯数字连续编号,在不同层次的数字之间加一个下圆点相隔,最末数字后不加标点。例如:一级标题第1章 二级标题 1.1 三级标题 1.1.1 标题层次要清晰,目录中标题与正文中标题要一致。 4.主体部分 毕业设计(论文)主体内容在5000至8000字为宜,一般应包括:前言、正文、结论等部分。论文主体分章节撰写,每章应另起一页。 ①前言:一般作为第一章,是论文主体的开端。应说明本课题的背景、目的意义、研究范围及要求达到的技术参数等;简述本课题应解决的主要问题及取得的成果。 ②论文正文:是作者对研究工作的详细表述,它占全文的绝大部分。论文主体要符合一般学术论文的写作规范,具备学术性、科学性和一定的创造性。论文应文字流畅,语言准确,层次清晰,论点清楚,论据准确,论证完整、严密,有独立的观点和见解。毕业设计(论文)内容要理论联系实际,涉及到他人的观点、统计数据或计算公式的要标明出处,涉及到的计算数据要求准确。如因保密做过技术处理的数据需做说明。 ③图:论文中的每幅图都应有图题,图题由图号和图名组成,用五号宋体。图号按章编排,如“图2-4”表示第2章第4张插图,图号与图名之间空一格排写,图题居中置于图下。 ④表:每个表格应有自已的表题和表序,表题应写在表格上方正中,用五号宋体,表序写在表

毕业设计论文格式模板

毕业设计论文格式模板 毕业设计论文格式模板1、毕业设计(论文)的基本任务是:培养学生综合运用所学知识和技能,分析解决工程实际问题的能力。 2、毕业设计应使学生受到综合训练,培养独立工作能力。如调查研究、查阅文献(中、外文资料)、理论分析、制订设计方案,工程设计、计算与绘图、实验研究与数据处理、计算机应用、技术经济分析、质量效益分析等能力,撰写论文或设计说明书。 3、毕业设计应重视开发学生的创造力。 4、毕业设计应培养学生正确的设计思想和树立严谨、科学的工作作风。 5、各专业应对毕业设计下达毕业设计(论文)任务书,内容包括:毕业设计任务(题目);毕业设计内容;完成毕业设计任务(设计时间、完成标准)的要求等。 1、选题应符合本专业培养目标要求,体现本专业特色,力求与工作实际、科学研究及实验室建设相结合,题目应有综合性,有利于巩固、深化和扩充学生所学知识,有利于学生得到较全面的工程训练,有利于培养学生的独立工作能力和勇于创造的科学精神。 2、题目大小和难度适度,设计工作量要饱满,能在教

学计划规定的时间内保质保量按时完成任务。 3、题目类型:理工类以“工程设计”为主;经管类可作“论文”,撰写开发研究报告等。 1、指导教师应由具有中级职称及中级以上职称的老师担任。为保证毕业设计质量,原则上每名教师指导本科毕业生人数不能超过5人,指导专科学生人数不能超过7人。 2、指导教师职责:认真拟定设计任务书、做好设计或实验的必要准备,指导查阅文献和收集、分析资料,指导编制设计工作计划及进程,审定设计总体方案,指导设计或实验,检查设计情况和进度,审阅毕业设计(论文),认真书写老师评语,力求真实全面反映设计(论文)水平。在指导过程中要教书育人、严格要求、培养学生独立工作的能力,积极引导学生发挥创造性。 3、指导教师应增加面授指导时间,每周不应少于8学时。要根据学生的基础和特点,启发引导,切忌包办代替或放任自流,要认真掌握进度,经常检查及协调。 1、在设计工作中应坚持科学的态度,要有高度的责任感,刻苦钻研、努力创新、高质量地独立完成毕业设计。 2、尊重导师,虚心向导师和参与指导的工程技术人员学习。 3、加强组织纪律性,服从领导、遵守纪律,做好技术保密工作。

(完整版)建环专业毕业设计论文范本79991082

建环专业毕业设计(酒店)指导书 设计题目:XX农业银行商住楼空调设计 一、任务要求 1、完成商住楼空调设计施工图一套,及配套设计说明书; 2、按照二、1~10项编写说明书,说明书要求写出英文摘要和参考 文献; 3、设计说明书要求书写工整,插图美观,数据引用需要注明出处。 二、设计步骤 1、熟悉土建资料和酒店空调的设计规范; 2、空调负荷计算; 3、空调分区、方案的选择、空调方案的经济性比较; 4、气流组织计算、空气处理计算、空调设备选择计算; 5、水力计算、水泵选择; 6、消声减震计算; 7、管道保温计算; 8、卫生间通风系统、大楼及中央空调系统防火排烟; 9、中央空调系统对BAS的要求; 10、施工图预算 11、绘制空调设计施工图,包括(按照下列顺序编写图纸编号和

目录) ●首页图:包括设计施工说明,设备材料表,图纸目录 ●各层空调平面、剖面图 ●水系统图 ●机房平面、剖面图 ●机房系统图或系统原理图 ●非标设备制作及主要设备安装大样图 摘要:本设计为广州中央空调系统工程设计,共十二层,地下两层,建筑总面积13000,空调面积6526.6,根据房间功能,全楼采用集中供给空调方式,制冷机组采用直燃型溴化锂吸收式制冷机组两台,型号分别为BZ-40单台制冷量分别为465KW. 根据各不同功能房间,将该集中系统分为二种空调送风方式,高大空间如餐厅、活动用房等采用全空气系统,新风直接从室外引进与回风混合(一次回风)后送风;住户、公寓等采用了风机盘管加独立新风系统,新风机组从室外引入新风处理到室内空气焓值,风机盘管承担室内全部冷负荷及部分的新风湿负荷。全空气系统选用圆型散流器平射流形式,而风机盘管加独立新风系统有百叶风口侧送和散流器平送的形式。水系统采用闭式双管同程式,冷水泵三台,两用三备,;冷却水泵选三台,两用一备。卫生间通风统一由排风扇接出,在末端安装止回阀。楼梯间采用自然排风排烟;标准层以上由于小于500m2所以采用自然排风;地下室、

毕业论文写作模版

(注:本模板中带下划线的红色文字均为格式说明或内容说明,排版时应删除,模板中所提供的范例也应在参考后一并删除。) 安徽大学 本科毕业论文(设计、创作)(内封)(使用学校统一印制的封面装订时可以删除此页) 题目: 学生姓名:学号: 院(系):专业: 入学时间:年月 导师姓名:职称/学位: 导师所在单位: 完成时间:年月

(空一行) 中文题目(格式:黑体三号字,加粗,居中,左右各缩进4个半角字符) (空一行) 摘要(格式:黑体四号字,加粗,居中) ×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××(格式:仿宋五号字,行间距16磅) (空一行) 关键词:词1;词2;······;词8(格式:3-8个,词与词之间以分号分隔,宋体小四号字,加粗,左缩进4个半角字符)

(空一行) Title(格式:Times New Roman四号字,加粗,居中,行间距20磅,左右各缩进4个半角字符) (空一行) Abstract(格式:Times New Roman四号字,加粗,居中) ×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××(格式:Times New Roman五号字,行间距16磅) (空一行) Keywords:word1;word2;······;word8(格式:与“关键词”对应,单词小写,词与词之间以分号分隔,Times New Roman小四号字,加粗,左对齐,左缩进4个半角字符)

(人文社科类专业目录格式) 目录(格式:字间空4个半角字符,黑体四号字,加粗,居中) 一、(第1章)引言(绪论) (1) (一)(第1章第1节)题名 (1) (二)(第1章第2节)题名 (2) 二、(第2章)题名 (5) (一)(第2章第1节)题名 (5) (二)(第2章第2节)题名 (6) 1、(第2章第2节第1目)题名 (6) 2、(第2章第2节第2目)题名 (8) ······ 五、(第5章)结论(结束语) (40) 主要参考文献 (46) 附录A (51) 附录B (54) ······ 致谢 (57) (格式:宋体小四号字,加粗,分散对齐,行间距20磅。一级标题不缩进,二级标题左缩进4个半角字符,三级标题左缩进8个半角字符)

中文微博情感分析评测结果(2012)

2012年CCF自然语言处理与中文计算会议 中文微博情感分析评测结果 1.提交结果编号 本次评测共有34支队伍提交53组有效结果,提交结果编号及所属参评单位对应情况如表1所示。 表1 提交结果编号与参评单位对照表 提交结果编号参评单位 1 北京工商大学 2 北京工商大学 3 北京航空航天大学计算机学院 4 北京航空航天大学计算机学院 5 北京理工大学海量语言信息处理与云计算应用工程技术研究中心1 6 北京理工大学网络搜索挖掘与安全实验室 7 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 8 北京理工大学海量语言信息处理与云计算应用工程技术研究中心2 9 大连理工大学 10 大连理工大学 11 广东工业大学DMIR实验室 12 哈尔滨工业大学语言技术研究中心网络智能研究室 13 哈尔滨工业大学语言技术研究中心网络智能研究室 14 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 15 哈尔滨工业大学计算机科学与技术学院/机器智能与翻译研究室 16 哈尔滨工业大学(威海) 17 海军工程大学信息安全系 18 黑龙江大学计算机科学技术学院 19 湖南工业大学计算机与通信学院 20 湖南工业大学计算机与通信学院 21 湖南科技大学外国语学院 22 华侨大学计算机科学与技术学院 23 华侨大学计算机科学与技术学院 24 华中科技大学 25 南京大学计算机科学与技术系自然语言处理研究组 26 南京理工大学 27 南京理工大学 28 清华大学计算机系智能技术与系统国家重点实验室信息检索组 29 清华大学计算机系智能技术与系统国家重点实验室信息检索组 1参评队伍联系人为刘全超 2参评队伍联系人为王金刚

毕业设计论文格式要求

安徽机电职业技术学院 毕业设计论文格式要求 一、毕业设计论文纸型及页边距 ⑴毕业设计论文纸型 毕业设计论文一律用国际标准A4型纸(297mm×210mm)打印。页面分图文区与白边区两部分,所有的文字、图形、其他符号只能出现在图文区内。白边区的尺寸(页边距)为:天头(上)25 mm,地脚(下)25 mm,订口(左)30 mm,翻口(右)25 mm。 ⑵论文页码添加在每页中间 ⑶签名 毕业设计论文凡涉及签名处,均需本人书写签名;教师评语也需钢笔书写。二、论文首页格式 毕业论文题目用黑体二号字,其余用宋体四号字。论文题目应能概括整个论文最重要的内容,简明、恰当,一般不超过20个字。 三、中文摘要及其关键词(宋体小四号字,1.5倍行距) 论文第二页为500字左右的中文内容摘要,应说明本论文的目的、研究方法、成果和结论。毕业论文摘要是毕业论文的缩影,尽可能保留原论文的基本信息,突出论文的创造性成果和新见解。论文摘要应尽量深入浅出,通俗易懂,少用公式字母,语言力求精炼、准确。 在本页的最下方另起一行,注明本文的关键词3 ~ 5个。 ⑴摘要(粗宋体居中四号字) (空一行) ⑵摘要内容(宋体小四号左对齐) (空一行) ⑶关键词:词1、词2 四、目录

图×-×论文目录示例 论文各章节的二级目录,其中: “一级标题”部分使用宋粗体四号字;1.5倍行距 “二级标题”部分采用宋体小四号字,内缩两个字符,1.5倍行距 五、引言(或序言)(宋体小四号字): 内容为本研究领域的国内外现状,本论文所要解决的问题,该研究工作在经济建设、科技进步和社会发展等某方面的实用价值与理论意义。 六、正文(毕业论文的主体) ⑴正文书写规范 正文要符合一般学术论文的写作规范,一级大标题用宋体四号字加粗,二级标题用宋体小四号字加粗,正文统一用宋体小四号字,行距为20磅。论文字数控制在1万字至2万字之间,原则上不突破3万字。 ⑵正文序号规范 正文二级标题之后,标题序号从大到小的顺序为"1."、"⑴" "①"……;论文中的公式编号,用括弧括起写在右边行末,其间不加虚线。 ⑶正文插图和表规范 ①论文中需要的插图居中,按章顺序编号,图标题用宋体五号字,置于图下方。 ②若插图是屏幕截图,需适当缩放。 ③表序号及表名用宋体五号字,置于表的上方, ⑷论文引注规范 毕业论文内容涉及到他人的观点、统计数据或计算公式的要注明出处(引注),涉及计算内容的数据要求准确。 七、参考文献 按毕业论文中所引用文献的顺序、列于文末。 ⑴文献出自期刊文章格式 [编号]. 作者.文章题目.期刊名.年份.卷号.期数.页码. ⑵文献是图书时,书写格式 [编号]. 作者.书名.出版单位.年份.版次.页码.

毕业论文写作模版

(注:本模板中带下划线的红色文字均为格式说明或容说明,排版时应删除,模板中所提供的例也应在参考后一并删除。) 大学 本科毕业论文(设计、创作)(封)(使用学校统一印制的封面装订时可以删除此页) 题目: 学生:学号: 院(系):专业: 入学时间:年月 导师:职称/学位: 导师所在单位: 完成时间:年月

(空一行) 中文题目(格式:黑体三号字,加粗,居中,左右各缩进4个半角字符) (空一行) 摘要(格式:黑体四号字,加粗,居中) ×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××(格式:仿宋五号字,行间距16磅) (空一行) 关键词:词1;词2;······;词8(格式:3-8个,词与词之间以分号分隔,宋体小四号字,加粗,左缩进4个半角字符)

(空一行) Title(格式:Times New Roman四号字,加粗,居中,行间距20磅,左右各缩进4个半角字符) (空一行) Abstract(格式:Times New Roman四号字,加粗,居中) ×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××(格式:Times New Roman五号字,行间距16磅) (空一行) Keywords:word1;word2;······ ;word8(格式:与“关键词”对应,单词小写,词与词之间以分号分隔,Times New Roman小四号字,加粗,左对齐,左缩进4个半角字符)

(人文社科类专业目录格式) 目录(格式:字间空4个半角字符,黑体四号字,加粗,居中) 一、(第1章)引言(绪论) (1) (一)(第1章第1节)题名 (1) (二)(第1章第2节)题名 (2) 二、(第2章)题名 (5) (一)(第2章第1节)题名 (5) (二)(第2章第2节)题名 (6) 1、(第2章第2节第1目)题名 (6) 2、(第2章第2节第2目)题名 (8) ······ 五、(第5章)结论(结束语) (40) 主要参考文献 (46) 附录A (51) 附录B (54) ......致 (57) (格式:宋体小四号字,加粗,分散对齐,行间距20磅。一级标题不缩进,二级标题左缩进4个半角字符,三级标题左缩进8个半角字符)

毕业论文设计致谢范文

《毕业论文致谢文》 毕业论文致谢文(1): 论文致谢 我首先要感谢我的论文指导老师、xx大学经济与管理学院的xxx老师。x老师对我论文的研究方向做出了指导性的意见和推荐,在论文撰写过程中及时对我遇到的困难和疑惑给予悉心指点,提出了许多有益的改善性意见,投入了超多的心血和精力。x老师对我的帮忙和关怀表示诚挚的谢意!同时,还要感谢xx大学经济与管理学院项目管理专业的授课老师们和所有同学们,大家在xx大学的项目管理学习中互相学习,互相帮忙,共同度过了一段完美难忘的时光。 此外,还要感谢朋友以及同学们在论文编写中带给的大力支持和帮忙,给我带来极大的启发。也要感谢参考文献中的作者们,透过他们的研究文章,使我对研究课题有了很好的出发点。 最后,谢谢论文评阅老师们的辛苦工作。衷心感谢我的家人、朋友,以及同学们,真是在他们的鼓励和支持下我才得以顺利完成此论文。 毕业论文致谢文(2): 论文致谢 经过了两个多月的努力,我最后完成了论文的写作。从开始接到论文题目到系统的实现,再到论文文章的完成,每走一步对我来说都是新的尝试与挑战,这也是我在大学期间独立完成的最大的项目。在这段时间里,我学到了很多知识也有很多感受,从一无所知,我开始了独立的学习和试验,查看相关的资料和书籍,让自己头脑中模糊的概念逐渐清晰,使自己十分稚嫩作品一步步完善起来,每一次改善都是我学习的收获,每一次试验的成功都会让我兴奋好一段时间。 我的论文作品不是很成熟,还有很多不足之处。但是这次做论文的经历使我终身受益。我感受到做论文是要真真正正用心去做的一件事情,是真正的自己学习的过程和研究的过程,没有学习就不可能有研究的潜力,没有自己的研究,就不会有所突破,那也就不叫论文了。期望这次的经历能让我在以后学习中激励我继续进步。 毕业论文致谢文(3): 最后要感谢在整个论文写作过程中帮忙过我的每一位人。首先,也是最主要感谢的是我的指导老师,XXX老师。在整个过程中他给了我很大的帮忙,在论文题目制定时,他首先肯定了我的题目大方向,但是同时又帮我具体分析使我最后选取失地农民的养老保险这个具体目标,让我在写作时有了具体方向。在论文提纲制定时,我的思路不是很清晰,经过老师的帮忙,让我具体写作时思路顿时清晰。在完成初稿后,老师认真查看了我的文章,指出了我存在的很多问题。在此十分感谢老师的细心指导,才能让我顺利完成毕业论文。其次,要感

【5】毕业论文写作方法及格式.doc

【5】毕业论文写作方法及格式 毕业论文(设计)的写作规范 (一)毕业论文(设计)写作规范 一份完整的毕业论文(设计)应包括封面、目录、关键词、摘要、前言、正文、结束语、参考文献等几个部分。 1、封面:封面上应写明学校名称、专业、班级、指导教师、设计人及日期等。 2、目录:可以反映说明书的结构和主要内容,也便于读者迅速找到本文中所需要的内容。由说明书的篇、章、条、款、项、附录等的序号、名称和页码组成。 3、摘要:摘要是对设计报告书的内容不加注释和评论的简述,有时称为内容提要。摘要应具有独立性和自恰性,即不阅读报告书的全文就能获得必要的信息。摘要是一篇完整的短文,重点是结果和结论(200字以内)。 4、关键词:是指报告书中能够说明设计内容的关键性词语(3—7个)。 5、前言:前言又称序言(引言),它是说明撰写论文的指导思想和意图,

介绍论文的特点、编写方法、适用范围,以及其他必要的说明。 6、正文:正文是用文字表述的论文的主要内容。一般包括三方面的内容: (1)绪论又称概论、总论、总说,主要说明: a、论文目的和意义; b、所论述的内容发展情况简介。 c、基本原理。本论文所涉及的基础理论和专业知识的应用。 (2)论据。论文的主体部分,主要说明: a、论文的研究内容和研究目标,拟解决的关键问题; b、研究思路、方法。 c、本论文的特色和创新之处。 (3)结论。主要说明: a、本论文所达到的预期目的; b、实用价值和推广价值;

c、存在的问题与不足。 7、结束语:作者在这部分要对自己的工作做出客观的评价,也可以对论证中遇到的重要问题做出讨论或思路分析。在文章结束时,还应对指导教师与协助完成论文的有关人员表示谢意。 8、参考文献:是指要列出在设计过程中曾取材或参考过的重要资料目录。 (二)毕业论文(设计)写作思路 (1)自己对所选择的课题有哪些了解,研究这个题目有何科学价值和理论意义? (2)对这个课题曾有何人做过哪些相关研究?他们的主要研究成果及观点是什么?各有哪些代表性的著作或文章,自己有何新发展?提出和解决了什么问题?根据以上信息去收集资料,方法有上网、书库、教材等。及时与指导教师联系路是论文所要达到目的和要 求。 (3)提出毕业论文(设计)的基本观点及其发展的过程和立论的主要依据。形成一条主线,围绕这一主线展开论述。由于理科论文以公式推倒为主,因此要注意共识应用条件和原理的适用范围。

面向微博文本的情感分析模型研究

面向微博文本的情感分析模型研究 随着互联网和移动通讯的飞速发展,人们参与网络活动越来越频繁,微博每天都产生了大量数据,其包含了用户对事物的情感表达和 评论分析,如何从这些信息中挖掘出情感倾向有着巨大的价值。因此,本文对微博文本展开了情感分析模型的研究。通过调研国内外文献,目前对于情感分析模型的研究主要有情感词典方法、机器学习方法和深度学习方法。本文通过爬取微博数据,对这三种方法进行对比实验,寻找最优的情感分析模型。基于传统情感词典方法的研究。利用波森情感词典,将文本数据分词后遍历词典并加权得到其情感极性,然后 在此基础上利用添加情感副词的方式提升情感词典的效果。情感词典方法的优点是速度快,易于判断主观情感比较明确的句子,但是其缺 点是针对不同场景的迁移能力弱,并且人工构建针对某一领域的情感词典耗时耗力。基于机器学习方法的研究。首先对文本数据进行数据预处理,将经过预处理后的数据分词结果通过Word2vec中Skip-gram 方法转化为词向量,同时利用腾讯开源词向量进行对比输入,然后利 用主流的机器学习分类方法(Logistic回归、随机梯度下降法、朴素贝叶斯、支持向量机、随机森林、XGBoost)进行有监督学习,最后对比每种模型的测试集混淆矩阵,发现腾讯开源词向量训练的模型效果均优于Word2vec方法训练出来的词向量。在这些方法中,随机森林、XGBoost这类利用集成思想方法训练的模型效果远远优于单一的分类模型。虽然机器学习方法模型的准确率对比传统情感词典有了很大的提升,但是不足之处是每个训练器都涉及到大量的调参,并对于不同

业务场景的迁移能力不强,机器学习方法已经发展到了瓶颈。基于深度学习方法的研究。通过对经典的多层感知机神经网络、循环神经网络、卷积神经网络和自注意力机制进行对比实验,各类深度学习模型的准确率比情感词典和机器学习的准确率有了较大的提升,其中自注意力机制模型在测试集的准确率达到了91.12%。通过对所有模型进行对比实验,发现自注意力机制所训练的模型无论在训练速度上还是在模型测试集的准确率等方面均优于其他模型。并且它利用序列内部的自我关注,加快了模型收敛的速度。所以,自注意力机制的模型是情感分析任务中综合表现效果最好的模型。

毕业设计论文格式模板

毕业设计论文格式模板 一、毕业设计要求 1、毕业设计(论文)的基本任务是:培养学生综合运用所学知识和技能,分析解决工程实际问题的能力。 2、毕业设计应使学生受到综合训练,培养独立工作能力。如调查研究、查阅文献(中、外文资料)、理论分析、制订设计方案,工程设计、计算与绘图、实验研究与数据处理、计算机应用、技术经济分析、质量效益分析等能力,撰写论文或设计说明书。 3、毕业设计应重视开发学生的创造力。 4、毕业设计应培养学生正确的设计思想和树立严谨、科学的工作作风。 5、各专业应对毕业设计下达毕业设计(论文)任务书,内容包括:毕业设计任务(题目);毕业设计内容;完成毕业设计任务(设计时间、完成标准)的要求等。 二、毕业设计(论文)题目的选择 1、选题应符合本专业培养目标要求,体现本专业特色,力求与工作实际、科学研究及实验室建设相结合,题目应有综合性,有利于巩固、深化和扩充学生所学知识,有利于学生得到较全面的工程训练,有利于培养学生的独立工作能力和勇于创造的科学精神。 2、题目大小和难度适度,设计工作量要饱满,能在教学计划规定的时间内保质保量按时完成任务。

3、题目类型:理工类以“工程设计”为主;经管类可作“论文”,撰写开发研究报告等。 三、指导教师职责和要求 1、指导教师应由具有中级职称及中级以上职称的老师担任。为保证毕业设计质量,原则上每名教师指导本科毕业生人数不能超过5人,指导专科学生人数不能超过7人。 2、指导教师职责:认真拟定设计任务书、做好设计或实验的必要准备,指导查阅文献和收集、分析资料,指导编制设计工作计划及进程,审定设计总体方案,指导设计或实验,检查设计情况和进度,审阅毕业设计(论文),认真书写老师评语,力求真实全面反映设计(论文)水平。在指导过程中要教书育人、严格要求、培养学生独立工作的能力,积极引导学生发挥创造性。 3、指导教师应增加面授指导时间,每周不应少于8学时。要根据学生的基础和特点,启发引导,切忌包办代替或放任自流,要认真掌握进度,经常检查及协调。 四、对学生的要求 1、在设计工作中应坚持科学的态度,要有高度的责任感,刻苦钻研、努力创新、高质量地独立完成毕业设计。 2、尊重导师,虚心向导师和参与指导的工程技术人员学习。 3、加强组织纪律性,服从领导、遵守纪律,做好技术保密工作。

本科毕业设计论文范本

东北农业大学学士学位论文学号:A07050006 (五号,黑体,单倍行距,两端对齐) (小一,居中,宋体,加粗,单倍行距) 多#############设计 (题目:应能概括整个论文最重要的内容,恰当、简明、引人注目。题目应力求简短,一般 不宜超过30字) (小三,居中,左对齐,黑体,单倍行距) 学生姓名:##### 指导教师:###### 所在院系:电气与信息学院 所学专业:########## 研究方向:########## (四号,居中,黑体,单倍行距) 东北农业大学 中国·哈尔滨 2012年5月

Northeast Agricultural University Bachelor's Degree Thesis ID:A07050006 (五号,Times New Roman,加粗,单倍行距,两端对齐) (小一,Times New Roman,加粗,单倍行距,居中) Base on### ############ (小三,Times New Roman,加粗,居中,单倍行距) Name:Fang Junlong Tutor:Fang Junlong College:College of Electronic and Information Major:############## Direction:######## (四号,Times New Roman,加粗,居中,单倍行距) Northeast Agricultural University Harbin · China June 2009

(中文摘要标题,字体:小二,黑体;段落:居中,段前:0.5行,段后:0.5行,单倍 行距;摘要两字间空两格) 摘要 中文摘要:论文第1页为内容摘要,约400字左右。应说明工作目的、研究方法、成果和结论。要突出本论文的创造性成果或新的见解,语言力求精练。 (摘要正文字体:中文五号宋体、英文五号Times New Roman;段落:两端对齐,首行缩进2字符,单倍行距;文中标点用中文全角) 振动是自然界最普遍的现象,地震信号都是50Hz以下的低频信号,许多振动测试仪器都不满足低频要求。同时,多通道采集在工程测量中能够实现集中测试,可以节约测试费用和减少参与的人员,提高测试效率。本设计的多通道同步精密低频地震记录仪解决了振动测试领域中这些难题。 本设计采用TMS320VC33为主控芯片,采集来的数据由OPA2350进行滤波放大,经24位模数转换芯片ADS1252转换后,再由移位寄存器芯片74HC595进行串并转换,获得24位数字量。经TMS320VC33处理后的24位数字量完成与上位计算机通信。本设计选用PC104总线方式进行与计算机通讯,嵌入式工业计算机主板的PC104总线接口能实现测试数据自动传输到上位计算机,通过上层软件,利用外接计算机显示器将测试数据画出的波形显示到显示器上。通过设计、实验、制作及调试,本设计实现了多通道采集,同步控制,精确放大,低通滤波等要求。 为了便于文献检索,应在本页下方另起一行注明本文的关键词(3至5个)。 (关键字三个字的字体:五号,宋体,加粗;段落:两端对齐,顶格无缩进,单倍行距)(后面具体关键字的字体:五号,宋体;中间用分号间隔,最后一个关键字后无符号)关键词:TMS320VC33;模数转换;虚拟仪器;数据采集 -I- 页码为“—n—”,页面底端,居中,小五号宋体;摘要、目录等文前部分的页码用罗马数字单独编排。

【毕业论文写作心得】大学生毕业论文写作心得

【毕业论文写作心得】大学生毕业论文写作 心得 此篇文章由WTT为您整理,但愿对你的学习工作能带来参考借鉴作用。 论文写作,简单的说,就是大专院校毕业论文的写作,包含着本科生的学士论文,研究生的硕士论文,博士生的博士论文,延伸到了职称论文的写作以及科技论文的写作。接下来是wtt为大家整理的毕业论文写作心得范文,但愿对你有借鉴作用! 毕业论文写作心得范文一 记得刚上完这门课的时候老师就布置了作业,要求我们就论文板块的某个方面去写心得,当时我就问我旁边的同学,你学到了什么?很多人迷茫了,上完了这门课不知道讲了什么,学到了什么。我个人的实际情况有点不一样的,虽然说论文课忘了很多,但是还是有一些收获的,起码自己以后在写毕业论文时候,知道要在内容与格式这两大方面抓好,这非常重要。写一篇好的毕业论文的确不容易,我们必须要认真对待。 刚开始的第一节课是张老师给我们上课的,老师谈及论文写作,给我印象最深的就是他多次强调论文的格式。的确,先不说我们的内容是否新鲜,观点是否创新,建言献策是否有建树,但论文格式的要求是基本的要求,是每个同学都可以做好的。这些基本的格式我们要做好弄好,基本的东西没做好,留给指导老师给你做,这合适吗?虽

然说今天面对的是一篇本科论文,但是可能明天也许你就会因为这种不认真的态度而错失很多很好的工作机会。细节决定成败,虽然这是一句话很俗套而且老生常谈,但是十分有理。 其次是老师强调的选题,论文写作的成败,关键还在于选题。课上老师花了大量的时间给大家讲了选题的问题。老师说我们在选题的时候从现实的弊端中选题,学习了专业知识,不能仅停留在书本上和理论上,还要下一番功夫,理论联系实际,用已掌握的专业知识,去寻找和解决工作实践中急待解决的问题,尽量选择自己有较强的兴趣、而且平时有所思考、有所积累的比较熟悉的课题,可以保证选题后写作的可行性。而且范围要尽量小一点,要不就会显得没有什么内容,给人很空的感觉。选题要求学生注重平时积累,博览群书,并要长期的思考。另外注重对自己的跨学科知识的培养,以使自己能从更多的角度看问题,视野更开阔。老师还给我们举了好多的例子来说明,我倒是有一些自己的切身体会。选题就是要发现值得做课题研究的问题,这就需要我们有问题意识。确定论文的题目不可能靠临时抱佛脚,这项工作必须要放在平时。 记得在某一节课上老师给我们点评了一些师兄师姐的毕业论文,印象中听到老师批评的声音较多,赞许的话有,但是相对来说是比较少的。老师是一个会说真话有要求的人,老师的评价是中肯的。老师给我们看了一些师兄师姐的论文,在某些论文里,很多同学都可以看出挺多问题的。论文太难令人信服,文章太苍白了。论文最后是文献,文献资料来源太少,缺少精确。有的甚至来源我们教材,这是不太可

计算机专业毕业设计论文模板

目 号 (系) ()李四(讲师) 2008 年 6月 5日

题目 基于WEB 的职业测评系统设计与实现 专业 计算机科学与技术 学号 19 姓名 X X X 主要内容、基本要求、主要参考资料等: 主要内容:系统是用Visual https://www.360docs.net/doc/0a1920267.html, 2005+Access 所做的职业测评系统,可实 现用户登陆、注册,在线测评,及发表评语等功能。 基本要求:1. 测评系统各基本功能都能实现。 2.设计严谨、功能完备。 3.界面美观大方,使用方便。 主要参考资料: [1] 陈湘https://www.360docs.net/doc/0a1920267.html, 与网站开发编程实战[M].清华大学出版社,2003年1 月 [2] 田原,沈成涛,李文https://www.360docs.net/doc/0a1920267.html, 程序设计教程[M].清华出版社,北京交通大学出版 社, 2006年6月 [3] 卢剑峰.基于网络的大学生素质测评系统的设计与实现[J]. 大连理工大学计 算机科学与技术专业硕士学位论文 20050601 [4] 黎鹰.我国人才测评系统开发与应用研究[J]. 中南大学管理科学与工程专业 硕士学位论文,2002.1.1 [5] 马燕,闫立军.用实例学https://www.360docs.net/doc/0a1920267.html,[M].北京:电子工业出版社,2002:51-56 完 成 期 限: 2008年6月5日 指导教师签名: 专业负责人签名: 年 月 日

目 录 中文摘要英文摘要1 ..................1 1.1 □□□□□□ (1) 2 结束语......................................................................................................60 致谢............................................................................................................61 参考文献...................................................................................................62 (附录) (63) 注:■表示一个空格(两个字符位置) 括号内的内容表示视论文而定的内容

大专毕业生毕业设计论文范文

大专毕业生毕业论文范文 一、会计信息失真的含义 所谓会计信息失真,是指会计信息未能真实地反映客观的经济活动,给决策者的相关决策带来不利影响的一种现象。上市公司信息质量失真主要表现在:一是信息披露不真是,二是信息披露不充分,三是信息披露不及时。 二、目前我国上市公司会计信息质量的总体情况 自1720年在英国发生世界上第一例上市公司会计舞弊案南海公司事件以来,会计信息的真实性问题就成为了投资人和债权人关注的核心问题之一。虽然在过去的二百多年里,由此催生的现代审计技术得到了很大的发展,同时世界各国也普遍建立和完善了财务会计准则,使会计信息的真实性有了很大的保障。但是,会计信息失真问题并未如投资人和债权人所希望的那样从根本上得到遏制。相反,上市公司会计信息严重失真的案件还时有发生。在中国,这种现象也同样存在:据有关资料披露,财政部1999年抽查100家国有企业会计报表时,有81家虚列资产37.61亿元,89家虚列利润27.47亿元;在xx年度在会计信息质量抽查中,在被抽查的159家企业中,资产不实的有147户。这147户共虚增资产18.48亿元,虚减资产24.75亿元;虚增利润14.72亿元,虚减利润19.43亿元。在上市公司方面:xx年经注册会计师审计,深沪两市上市的1000余家公司共被审计出应调减虚增利润189亿元,挤掉利润水分达15.9%。其中,审计

调减利润317亿元,审计调增利润128亿元,调增调减利润总额445亿元;审计调减资产903亿元,调增资产842亿元,总体调减资产61亿元,调增调减资产总额1745亿元。特别是有6家上市公司资产调减幅度超过50%。同时在上市公司中也发生了如红光股份欺诈上市案,琼民源、银广厦、麦科特、st黎明、猴王股份、东方电子、蓝田股份等一系列上市公司会计造假案件。这些舞弊案件的频繁发生不仅使会计的诚信基础受到了严重挑战,而且也严重损害投资者的投资信心。 三、上市公司会计信息失真的原因 导致会计信息失真的原因是多方面的,既有利益驱动的因素,也有制度缺陷的影响,同时还存在道德层面的问题。我国处在市场经济转轨过程中,在资本市场的完善程度、公司治理结构以及外部监督机制方面所存在的一些问题,使得中国上市公司会计信息失真又具有一定的特殊性与复杂性。综合考察我国上市公司会计信息失真现象,我认为,会计信息失真的原因主要有以下几方面: (一)我国资本市场存在的问题与上市公司会计信息失真 我国的资本市场是在市场经济制度尚不完善、公司治理结构存在缺陷的背景下建立发展起来的,存在着市场机制缺失、市场结构单一与市场行政化等方面的问题。由于资本市场市场化程度低,企业融资渠道少,具有壳资源属性的上市资格具有很高的经济价值,而依据现有的制度,公司上市、配股、退市等均是以会

相关文档
最新文档