曾剑平代表性成果说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
曾剑平代表性成果说明
代表性成果(1):不良文本内容在线感知的关键技术及理论
论文-(1)J. P. Zeng, C. R. Wu, W. Wang. Multi-grain Hierarchical Topic Extraction Algorithm for Text Mining. Expert Systems with Applications 2010 37 (4), 3202-3208.
(2)J. P. Zeng, J. J. Duan, C. R. Wu. Adaptive Topic Modeling for Detection Objectionable Text. The 2013 IEEE/WIC/ACM International Conference on Web Intelligence, 2013.11.
成果描述与说明:
网络不良信息内容检测是内容安全研究领域的一个重要课题。在国家自然科学基金面上项目的支持下,本人在不良信息内容粒度语义模式表示及运用方面做了深入研究。代表性成果的是在论文(1)中所论述的多粒度分层话题提取算法以及论文(2)中进一步强化模式关联的自适应建模方法。具体包括:
(1)明确为层次话题给出了一种粒度量化值的定义和计算方法。针对文本中特征词的分布特征,提出了[0,1]区间中的层次粒度值计算方法,解决了目前作为描述文本话题的分层结构缺乏对节点话题粒度特征描述的问题。
(2)提出了一个粒度话题提取算法TG-HAC。该算法以混合高斯分布描述子话题的词汇分布结构,给出了最佳粒度数的计算方法,通过话题产生算法及粒度计算构建了话题的层次结构关系,给出了节点的粒度值。该算法为话题粒度量化的应用提供了一个良好的实例。
(3)基于词汇网络图结构,提出了进一步强化不良模式关联的自适应建模方法。通过综合词汇的重要性、不良性和敏感度量化,在话题建模中设计不良话题判定准则,实现了准确地对一些上下文敏感的不良内容进行检测。
引用与评价:
该成果的特色在于其话题粒度的思路。虽然之前的相关研究论文已经对层次话题进行了研究,但是在层次的粒度关系上尚没有给出量化表达方法。因此,论文发表后引起了相关同行的注意,并得到了积极评价。主要有加拿大University of Waterloo电子和计算机工程系、德国杜塞尔多夫大学Universität Düsseldorf、Ghent University、华中科技大学计算科学技术学院智能与分布计算实验室等大学和科研机构的引用[1-5]。其中,TG-HAC算法作为一个关键步骤,被应用到针对的TSTR和TLA标签推荐算法中[2],用来计算资源的多粒度话题概率值,所得的推荐结果“surprisingly good”,“The precision is even higher than that of the tags recommended by delicious website and other methods.”,其准确度高于现有方法,体现了研究成果应有的价值。
代表性成果(2):网络用户敏感信息扩散行为建模及算法
论文- (1)J. P. Zeng, S. Y. Zhang, C. R. Wu. A Framework for WWW User Activity Analysis Based on User Interest. Knowledge-Based Systems 2008 21 (8), 905-910.
(2)J. P. Zeng, S. Y. Zhang, C. R. Wu, X. Ji. Modelling Topic Propagation Over the Internet. Mathematical and Computer Modelling of Dynamical Systems 2009 15 (1), 83-93.
(3)王珏,曾剑平(通讯作者),周葆华,吴承荣. 基于聚类分析的网络论坛意见领袖发现方法. 计算机工程2011 37 (5), 44-46,49.
成果描述与说明:
用户行为是导致网络信息内容传播变化不可忽视的因素,在这方面的研究中,从网络用户在网络论坛中对敏感信息的行为特征、传播行为及关键人物识别等方面进行了一系列研
究,代表性的成果由三篇论文组成。具体成果包括:
(1)提出了一种Web网络论坛中的用户兴趣建模和量化方法。基于网络论坛用户的相关帖子的文本信息所建立的话题模型,使用话题模型的概率计算能力来衡量用户对于某个文本信息可能存在的兴趣度。在此基础上,提出了一种用户群体发现算法GDA,揭示了用户兴趣变化与其在网络内容变化中的行为所存在的关联性。
(2)在敏感话题传播行为建模方面,提出了一种基于传播节点话题状态变迁及话题影响力扩散描述的动态话题传播模型。模型中引入了节点抗感染能力、恢复能力及有效传播能力等与敏感信息扩散紧密相关的量化因素,并基于Markov假设建立了节点的微观状态。所提出的话题传播模型能够很好地复原多种不同情境的话题传播效果。
(3)在网络论坛意见领袖识别分析方面,提出了一种潜在特征构造及聚类分析的意见领袖识别方法。相比之前基于图结构的分析方法,该方法在准确性和执行效率方面都有一定提升,因此得到了北京邮电大学方滨兴等在内的国内外同行的积极评价和引用。
引用与评价:
本人比较早地意识到用户兴趣变化与其在网络敏感信息内容变化中的行为存在一定关联,并在这方面做了较深入的研究。相关成果发表后引起了一些从事网络用户行为相关研究的科研人员的关注。作为一个主要的用户兴趣度量和行为分析方法、敏感话题传播和意见领袖识别方法,到目前为止得到了来中国(如中科院计算所、南京航空航天大学计算机科学技术学院等)、德国、加拿大等多个国家大学和科研机构的研究人员引用[1-8]。Kahraman博士认为用户兴趣的相关成果是一个“powerful”的方法[6]。在敏感话题动态传播模型及意见领袖识别分析方面也得到了国内外同行引用,主要的有中科院合肥智能所、北京邮电大学方滨兴课题组、四川大学信息安全研究所等[9-15]。
在网络用户行为分析与建模方面的多篇研究论文引起美国认知科学Robert W. Proctor 教授(Purdue University)及Kim-Phuong L. Vu教授(California State University, Long Beach)的关注,并受邀为其编著的Web用户行为分析建模方面的新书编写其中的一章,已经完成并评价为” excellent”,于2011年4月由CRC出版社出版。
代表性成果(3):网络舆情态势建模与评估的理论与方法
这方面的成果包括:(1)J. P. Zeng, J. J. Duan, C. R. Wu. A New Distance Measure for Hidden Markov Models. Expert Systems with Applications 2010 37 (2), 1550-1555.
成果描述与说明:
本人在进行基于历史序列的网络舆情态势建模与预测研究中发现正确度量两个HMM 模型的距离对于计算结果的性能有很大影响,因此对这个问题进行进一步研究。取得的成果包括:
(1)对HMM所能刻画的随机过程进行了分析,将它划分为稳态过程和暂态过程两部分。提出了一种新的观点,即为了准确度量HMM的距离,必须将这两种过程分开,以避免相互影响带来的不准确性问题。
(2)提出了一种基于稳态累积概率分布函数的距离HSD。在两个模型对应的稳态累积分布函数的基础上给出了HSD的定义和计算方法。从理论上证明了HSD能够很好地满足作为距离度量的四个基本条件,特别是三角不等性这个条件。从而解决了HMM距离不满足三角不等性的问题,取得了突破性成果。许多国内外研究人员都将HSD列为一种主要的HMM距离度量方法,认为该HSD距离度量具有“more informative than the likelihood”的特点。