基于互信息和邻接熵的新词发现算法

合集下载

结合信息量和深度学习的领域新词发现

结合信息量和深度学习的领域新词发现

结合信息量和深度学习的领域新词发现黄文明;杨柳青青;任冲【摘要】针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于新词发现的方法,计算出的信息量用以表示词语内部粘合度和分离度,并加入人工规则进行过滤.BiLstm-CRF模型精度高,对词向量的依赖小,考虑到上下文信息.信息量和模型两部分的结合解决了大量人工序列标注问题,提高了低频新词的识别率.实验结果表明,该方法能有效提高了新词识别的准确率.【期刊名称】《计算机工程与设计》【年(卷),期】2019(040)007【总页数】6页(P1903-1907,1914)【关键词】新词发现;信息量;粘合度;分离度;BiLstm-CRF模型【作者】黄文明;杨柳青青;任冲【作者单位】桂林电子科技大学计算机与信息安全学院,广西桂林541004;桂林电子科技大学计算机与信息安全学院,广西桂林541004;桂林电子科技大学计算机与信息安全学院,广西桂林541004【正文语种】中文【中图分类】TP391.430 引言新词发现是中文信息处理领域一个重要课题,新词发现技术直接关系到中文分词的效果,继而影响到后续各级的信息处理问题。

随着深度学习的广泛应用,目前它已涉及自然语言处理的各个应用,从底层的分词、语言模型、句法分析等到高层的语义理解、对话管理、知识问答、聊天、机器翻译等方面都几乎全部都有深度学习的模型[1]。

本文将传统的方法和深度学习模型相结合并且取得了不错的效果。

1 新词发现研究现状传统的新词发现方法通常有基于统计的新词发现和基于规则的新词发现[2]。

目前使用较多的方法是统计和规则相结合的方法。

基于统计的方法通常适用领域广,缺点是准确率不高,需要大量语料,计算量大。

基于规则的方法是利用语言特征构建规则库,准确率高但同时构建规则过程复杂,领域迁移能力差。

统计和规则的结合充分利用了两个方法的优点。

基于改进互信息的微博新情感词提取

基于改进互信息的微博新情感词提取

第 45 卷
计 学 方 法 来 建 造 模 型 并 判 断 字 串 是 否 为 新 词 ,该 方 法 适 用 于 大 规 模 的 语 料 库 .也 有 学 者 将 上 述 两 种 方 法 结合起来提取新词,这种方法虽然效果较为稳定,但在实际应用中很难获得高质量的标记语料 . [4]
近 年 来 ,在 微 博 情 感 倾 向 的 相 关 研 究 中 ,大 多 数 学 者 都 是 通 过 对 微 博 中 的 词 汇 和 句 子 进 行 情 感 判 断 来分析微博的情感倾向[5-7],而对微博新情感词的相关 研 究 较 少.对 微 博 的 情 感 分 析 目 前 可 分 为 基 于 词 典的方法、基于机器学习的方法和基于词典与机器学习相结合的方法.基于词典的方法 主 [8] 要是通过 构 造 情 感 词 典 和 制 定 一 系 列 的 规 则 来 计 算 新 词 的 情 感 值 ,该 方 法 虽 然 判 断 新 词 情 感 的 准 确 率 较 高 ,但 召 回 率偏低,且构建不同领域情感词典的成本较高.基于机器学习的方法 是 [9] 将文本的情感分析作为分类 问 题 进 行 分 析 ,分 类 算 法 主 要 有 深 度 学 习 的 方 法 和 支 持 向 量 的 方 法 .前 者 计 算 量 大 ,但 准 确 率 较 高 ;后 者 准 确率相对较高,但不适用于大规模数 据.基 于 词 典 与 机 器 学 习 相 结 合 的 方 法 是 [10] 将 词 典 融 合 到 机 器 学 习的模型中进行文本情感分析,该方法虽然可提高机器学习性能,但却 需 要 人 工 收 集 情 感 词,因 此 使 得 情感词库的覆盖面较低.基于上述研究,本文结合新词构词特点,提出一 种 基 于 互 信 息 和 构 造 情 感 词 库 的 微 博 新 情 感 词 提 取 方 法 ,并 通 过 实 验 验 证 该 方 法 的 可 行 性 .

基于互信息和信息熵的新词提取

基于互信息和信息熵的新词提取

基于互信息和信息熵的新词提取## Information Gain & Mutual Information-Based Term Extraction.Term extraction refers to the identification and extraction of essential words or phrases, known as terms, from a given text. These terms represent the salient concepts and topics discussed within the text, making them crucial for tasks such as information retrieval, text summarization, and natural language processing.Mutual information (MI) and information gain (IG) are two fundamental measures used in information theory to quantify the relationship between two events or variables. In the context of term extraction, these measures can be utilized to identify terms that are highly informative and relevant to the text.### Term Extraction Using Mutual Information.Mutual information measures the level of association or dependency between two events. In term extraction, it calculates the relationship between a candidate term and the presence of specific keywords within the text. A term with a high mutual information with the keywords is likely to be a relevant and informative term.Calculating Mutual Information.The mutual information between a term `t` and a keyword `k` is given by:MI(t, k) = P(t, k) log(P(t, k) / (P(t) P(k)))。

基于蚁群算法的社区发现模型的构建和应用

基于蚁群算法的社区发现模型的构建和应用

基于蚁群算法的社区发现模型的构建和应用邹凌君;许晨【摘要】社区发现问题近年来成为网络挖掘领域研究的热点问题.提出了一种基于蚁群算法的社区发现模型,将社区发现问题转化为一个优化问题,在社区发现中根据每个顶点的属性定义启发式信息.每次迭代中,蚂蚁根据信息素和启发式信息选择路径.使用模块度衡量划分质量,得到最终的社区划分.将该算法应用在慕课中,结果表明该算法能够较准确地评估学生的能力,为开展针对性辅导提供有效依据,具有较强的实践价值.【期刊名称】《金陵科技学院学报》【年(卷),期】2017(033)003【总页数】5页(P22-26)【关键词】蚁群算法;社区发现;启发式信息;慕课【作者】邹凌君;许晨【作者单位】金陵科技学院信息化建设与管理中心,江苏南京 211169;金陵科技学院信息化建设与管理中心,江苏南京 211169【正文语种】中文【中图分类】TP391自然界和人类社会中很多复杂的系统都可以用复杂网络来表示[1]。

如生物系统、经济系统、生态系统等。

复杂网络已成为计算机、数学、物理等多学科的研究热点。

在网络中,系统的组成部分用节点表示,用边表示节点之间的连接关系。

大部分网络都具有一定的社区结构。

社区结构这个概念最早是由Girvan和Newman[2]提出的,即一个复杂网络可以划分成若干个社区,社区内部的节点连接密度高于社区间节点的连接密度。

这些社区结构与网络的功能结构有密切的关系。

社区结构的发现,对于分析网络结构、挖掘隐含的信息、预测网络行为有重要的理论意义和实用价值。

近年来,分析复杂网络的社区结构得到了许多学者的关注,同时出现了很多社区挖掘算法[2-10]。

这些算法大致可以分为基于划分的社区发现算法、基于模块度函数优化的算法、基于标签传播的算法以及各种基于仿生计算的算法。

本文提出了一个基于蚁群算法的社区发现模型,根据顶点属性定义启发式信息,使用社区模块度度量社区划分质量,并将该模型应用在慕课中。

统计融合序列标注的电力客服术语识别

统计融合序列标注的电力客服术语识别
计方法,以及序列标注分词算法挖掘候选术语部件,将前 100 个词语的准确率提高到了 85 %。在
“复合术语识别”步骤中,文中引入了术语度计算方法,以区别复合术语和一般词组。实验表明,与
统计信息结合后,该方法在电力服务领域文本中取得了较好的效果。
关键词:术语识别;未登录术语部件;互信息;条件随机场
中图分类号:TP3911.1
其 中 ,x 是 在 文 本 中 出 现 在 S 左 侧 的 词 语 。 文
计了复杂的字符特征,利用条件随机场对术语进行
中 取 左(右)词 边 界 熵 的 最 小 值 ,称 为“ 左 右 邻 词 边
[7]
识别。Sun 在识别文本中的新词语时采用了半马尔
- 30 -
界熵”。
嵇友浪,等
统计融合序列标注的电力客服术语识别
the first 100 terms extracted to 85%. In the step of "compound term recognition",this paper proposes the
term ⁃ hood measure for separating compound term candidates from normal phrases. Experiments showed
“未登录词”
),对于未登录词拥有较好的召回率。黄
昌 宁 等 [14] 的 实 验 表 明 ,在 同 质 语 料 上 进 行 分 词 时 ,
CRFs 分 词 模 型 的 未 登 录 词 的 召 回 率 在 0.73 左 右 。
因此,字标注分词方法也是有效的未登录术语部件
识别方法。
3 复合术语识别
在识别所有术语部件后,需要在文本中继续识

基于微博语料的新词发现分析说明书

基于微博语料的新词发现分析说明书

基于微博语料的新词发现分析王亭亭1,曾立英2(1. 中央民族大学北京 100081;2.中央民族大学北京 100081)(*******************;**********************)摘要:为了解决社交平台上热点词和新词更新快、组成复杂进而导致人工新词发现成本高且传统自动新词发现手段准确度低的问题,本文采用了一种基于凝聚度和左右邻接熵的新词发现算法。

首先对数据进行预处理,然后利用互信息提取和扩展候选词,再利用左右邻接熵对候选词进行过滤,得到有效词集,并将候选词集与相关词典进行比对过滤,得到新词集。

经过实验论证发现,双字新词能够生长出更多的多字新词;此外,通过与现代汉语词典进行比对,发现年份背景极大程度的影响了新词的诞生和流行程度;以上论证能够对新兴词汇及流行词汇的发展历程研究起到积极的促进作用,对研究新词诞生原理和词汇流行原理有着非常重要的意义。

关键词:微博语料,新词发现,自由度,凝聚度Analysis of neologism Discovery based on microblogcorpusW ANG Tingting1, ZENG Liying2(1.MINZU University of China, Beijing, 100081;2.MINZU University of China, Beijing, 100081)(*******************;**********************)Abstract:In order to solve the problem that hot words and new words on social platforms were updated quickly and their composition was complex, which leads to high cost of artificial new words discovery and low accuracy of traditional automatic new word discovery methods, this paper adopts a new word discovery algorithm based on cohesion and left and right adjacency entropy. Firstly, the data was preprocessed, then the mutual information was used to extract and extend the candidate words, and the left and right adjacency entropy was used to filter the candidate words to get the effective word set, and the candidate word set was compared and filtered with related dictionaries to get the new word set. Through experimental demonstration, it was found that double-word neologisms can produce more multi-word neologisms; In addition, by comparing with modern Chinese dictionaries, it was found that the year background greatly affects the birth and popularity of new words. The above arguments can play a positive role in promoting the study of the development process of emerging words and popular words, and have a very important significance for the study of the birth principle of new words and the theory of vocabulary popularity.Keywords: microblog corpus, neologism discovery, degree of freedom, cohesion1 前言新词通常产生与时下热门话题的讨论。

知识增益_文本分类中一种新的特征选择方法_徐燕

知识增益_文本分类中一种新的特征选择方法_徐燕

第22卷 第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘 要:特征选择在文本分类中起重要的作用。

文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。

已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。

本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。

在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。

soft actor-critic 简明理解 -回复

soft actor-critic 简明理解 -回复

soft actor-critic 简明理解-回复什么是Soft Actor-Critic(SAC)算法?在强化学习领域,Soft Actor-Critic(SAC)是一种基于策略梯度方法的强化学习算法。

SAC算法的主要目标是通过训练一个策略网络来学习最优策略,以使其在与环境的交互中最大化累积奖励。

与传统的Actor-Critic 算法不同的是,SAC引入了一个熵正则化项,使策略网络更加冒险并保持多样性,从而提高算法的效果。

SAC算法的核心思想如下:1. 策略网络:首先,SAC算法使用一个策略网络来输出在给定状态下执行每个动作的概率分布。

策略网络采用了多层感知器(MLP)或卷积神经网络(CNN)等深度学习模型,以学习从观察中提取有用特征并生成合理的动作策略。

2. 值函数网络:SAC算法还使用了一个值函数网络来估计状态-动作对的Q值。

该网络的目标是使用经验数据来学习将状态和动作映射到其对应的Q值,以评估当前策略的好坏。

3. 熵正则化项:与传统的Actor-Critic算法不同,SAC算法引入了一个熵正则化项来调整策略的探索性。

熵正则化项衡量了策略分布的多样性,即策略在给定状态下选择不同动作的程度。

通过最大化熵正则化项,SAC 算法可以迫使策略网络在训练过程中保持探索性,并避免局部最优解。

4. 目标函数:SAC算法的目标是最大化策略网络的期望收益。

为此,算法使用了重要性采样比例和剩余回报来更新策略和值函数网络。

通过迭代优化策略和值函数网络,SAC算法可以逐渐改进策略和估计状态-动作对的Q值。

SAC算法的训练过程如下:1. 初始化策略网络和值函数网络的参数。

2. 在每个时间步,通过策略网络选择一个动作,并执行该动作以观察新的状态和奖励。

3. 使用值函数网络估计状态-动作对的Q值。

4. 根据策略网络和值函数网络计算重要性采样比例和剩余回报。

5. 使用反向传播算法更新策略网络和值函数网络的参数。

6. 重复执行步骤2到5,直到达到预设的训练轮数或收敛条件。

基于互信息论的词义消歧方法-概述说明以及解释

基于互信息论的词义消歧方法-概述说明以及解释

基于互信息论的词义消歧方法-概述说明以及解释1.引言1.1 概述词义消歧是自然语言处理中的一项重要任务,其目的是确定词语在特定语境中的确切含义。

在自然语言处理领域,词义消歧一直是一个具有挑战性的问题,因为同一个词可能有多个不同的意义,根据上下文环境选择正确的含义对于理解文本的意思至关重要。

为了解决词义消歧的问题,许多研究方法被提出和应用。

其中,基于互信息论的词义消歧方法在该领域取得了显著的进展。

互信息(mutual information)是一种用来衡量两个离散随机变量相关性的统计指标,通过计算词语的共现频率以及在上下文中出现的频率,可以推断出词语的含义。

本文旨在介绍基于互信息论的词义消歧方法在自然语言处理中的重要性和应用。

首先,我们将讨论互信息论的基本概念,包括共现频率和条件概率等内容。

然后,我们将回顾词义消歧方法的研究背景,探讨为什么基于互信息论的方法是一个有前景的研究方向。

最后,我们将详细介绍基于互信息论的词义消歧方法的原理和应用实例。

通过本文的研究,读者将能够更好地理解基于互信息论的词义消歧方法在自然语言处理中的作用和意义。

对于提高文本理解和机器学习算法的准确性具有重要的实际应用价值。

在下一节中,我们将深入介绍互信息论的基本概念,为读者打下坚实的理论基础。

1.2文章结构1.2 文章结构本文共分为三个主要部分。

第一部分是引言部分,用于介绍文章的背景和目的。

第二部分是正文部分,包括三个子节。

第一个子节是对互信息论的基本概念进行介绍,包括其定义和相关概念的解释。

第二个子节是词义消歧方法的研究背景,主要介绍了词义消歧的重要性和当前的研究状况。

第三个子节是本文的核心部分,介绍了基于互信息论的词义消歧方法的原理,包括算法的思想和步骤。

第三部分是结论部分,主要总结了互信息论在词义消歧中的应用情况,并提出了未来的研究方向。

最后,结论部分对全文进行了总结,并指出了研究的意义和价值。

通过以上的结构设计,本文旨在系统地介绍基于互信息论的词义消歧方法,并通过对互信息论概念的阐述、词义消歧方法的研究背景的介绍以及具体方法的原理阐述,展示了互信息论在词义消歧中的应用价值。

一种基于耦合对象相似度的阈值分割算法

一种基于耦合对象相似度的阈值分割算法

一种基于耦合对象相似度的阈值分割算法孙劲光;赵欣【摘要】传统Otsu及其大多数改进的算法只将类间方差作为最优阈值的唯一依据,使得对直方图分布不同图像的分割效果差异很大.针对该问题,提出一种新的阈值分割方法.建立一个耦合对象相似度模型,考虑对象的各种属性以及属性之间的关系,以捕获对象间的关联关系.采用耦合对象相似度替代传统Otsu算法中的类间方差,将所选阈值划分出的每个类分别看作耦合对象相似度模型中的一个对象,每个类都有类的概率和灰度均值这2个属性,计算类间相似度,并在类间相似度最小时取得最优阈值.实验结果表明,与传统Otsu、二维Otsu、大熵分割算法相比,该算法能提高刻画类间差异的精确度和图像的分割精度.【期刊名称】《计算机工程》【年(卷),期】2016(042)010【总页数】6页(P255-260)【关键词】图像分割;方差;耦合对象相似度;类间相似度;最优阈值【作者】孙劲光;赵欣【作者单位】辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105;辽宁省数字化矿山装备工程技术研究中心,辽宁阜新123000;辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105【正文语种】中文【中图分类】TP391图像分割将图像描述为某些连通区域的集合,图像的特征在不同区域表现出差异性,在相同区域表现出相似性,可以把图像中具有特殊涵义的不同区域区分开来。

它是从图像处理到图像分析的关键步骤,也是特征提取和目标识别的基础[1]。

现有的图像分割方法主要有基于区域、阈值、边缘以及特定理论等。

其中,阈值法由于实现简单且计算速度快等特点,在图像分割应用中处于核心地位[2]。

阈值分割方法有很多,如双峰法、最大类间方差法(Otsu)、最小误差法、最大熵法等。

传统的Otsu算法用阈值将像素点分为2类(目标与背景),用类间方差来刻画类间差异,通过计算目标与背景之间的最大类间方差得到分割阈值。

在经典的Otsu算法的基础上,国内外研究学者提出了许多改进算法,如二维Otsu[3]、三维Otsu[4]以及对它们的改进算法[5-7]。

学习总结:SVD、PCA、卡方、信息增益、互信息、关键字提取技术

学习总结:SVD、PCA、卡方、信息增益、互信息、关键字提取技术

一、SVD 与PCA1. SVD 思想:SVD 和线性代数中的特征值分解目的一样,就是降维,抽取重要特征。

它们都是将一个比较复杂的矩阵用几个子矩阵相乘来表示,只不过特征值分解是针对方阵而言,而奇异值分解针对的是任意矩阵。

2. PCA 思想:PCA 的目的是使得变换后的数据有着最大的方差,可以用于训练集的选取等。

3. SVD 和PCA 关系: 按PCA 的观点来看,就是方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量。

而SVD 得出的奇异向量也是从奇异值由大到小排列的。

公式如下:A m×n =U m×m ×∑m×n ×V n×n T ≈U m×r ×∑r×r ×V r×nT (1) =>A m×n V n×r ≈U m×r ×∑r×r(2) =>U r×m T A m×n ≈∑r×r ×V r×nT (3) ✧其中,r 是远小于m 和n 的数。

在文本挖掘中,A 可以是feature 和document 组成的m*n 矩阵。

✧一个矩阵其实就是一个线性变换。

上式(1)即是SVD 的形式。

上式(2)是将m*n 的矩阵A 压缩成一个m*r 的矩阵,即可以理解为对document 进行压缩。

上式(3)是将m*n 的矩阵A 压缩成一个r*n 的矩阵,即可以理解为对feature 进行压缩。

✧ 可以总结为:一旦实现了SVD ,就得到了PCA 。

二、SVD 与LSI1. 实现SVD 也就等于实现了PCA ,而LSI 算法不是,但它依赖于SVD 的实现。

以网上截图为例,矩阵A 和经过SVD 得到的分解结果:A:SVD :自然语言处理中常见的两类分类问题:(1)将文本按主题分类(2)将字词按意思归类。

python算法之近似熵、互近似熵算法

python算法之近似熵、互近似熵算法

python算法之近似熵、互近似熵算法理论基础定义:近似熵是⼀个随机复杂度,反应序列相邻的m个点所连成折线段的模式的互相近似的概率与由m+1个点所连成的折线段的模式相互近似的概率之差。

作⽤:⽤来描述复杂系统的不规则性,越是不规则的时间序列对应的近似熵越⼤。

反应维数改变时产⽣的新的模式的可能性的⼤⼩。

对于eeg信号来说,由于噪声存在、和信号的微弱性、多重信号源叠加,反映出来的是混沌属性,但是同⼀个⼈在⼤脑活动相对平稳的情况下,其eeg近似熵应该变化不⼤。

证明和对应⼏何意义可参考论⽂:从近似熵定义引申出来的,近似熵描述的是⼀段序列的⾃相似程度,互近似熵⽐较的是两段序列的复杂度接近程度;熵值越⼤越不相似,越⼩越相似;近似熵算法分析1. 设存在⼀个以等时间间隔采样获得的m维的时间序列u(1),u(2),...,u(N).2. 定义相关参数维数m,⼀般取值为2,相似容限即阀值r,其中,维数表⽰向量的长度;r表⽰“相似度”的度量值.3. 重构m维向量X(1),X(2),...,X(N−m+1),其中X(i)=[u(i),u(i+1),...,u(i+m−1)],X(j)=[u(j),u(j+1),...,u(j+m−1)];计算X(i)和X(j)之间的距离,由对应元素的最⼤差值决定;d[X,X∗]=maxa|u(a)−u∗(a)|d[X,X∗]=maxa|u(a)−u∗(a)|4. 统计所有的d[X,X∗]<=r的个数g,则g/(N-M)就是本次的i取值对应的相似概率,计算所有i和j取值的概率对数的平均值,即熵值Φm(r);5. 取m+1重复3、4过程,计算近似熵:ApEn=Φm(r)−Φm+1(r)参数选择:通常选择参数m=2或m=3;通常选择r=0.2∗std,其中std表⽰原时间序列的标准差.互近似熵计算和近似熵的步骤⼀样,把计算X(i)和X(j)之间的距离改为计算序列a的向量X(i)和序列b的向量Y(j)的距离;相似容限r为两个原序列的0.2倍协⽅差;python代码实现class BaseApEn(object):"""近似熵基础类"""def __init__(self, m, r):"""初始化:param U:⼀个矩阵列表,for example:U = np.array([85, 80, 89] * 17):param m: ⼦集的⼤⼩,int:param r: 阀值基数,0.1---0.2"""self.m = mself.r = r@staticmethoddef _maxdist(x_i, x_j):"""计算⽮量之间的距离"""return np.max([np.abs(np.array(x_i) - np.array(x_j))])@staticmethoddef _biaozhuncha(U):"""计算标准差的函数计算标准差的函数:param U::return:"""if not isinstance(U, np.ndarray):U = np.array(U)return np.std(U, ddof=1)class ApEn(BaseApEn):"""Pincus提出的算法,计算近似熵的类"""def _biaozhunhua(self, U):"""将数据标准化,获取平均值所有值减去平均值除以标准差"""self.me = np.mean(U)self.biao = self._biaozhuncha(U)return np.array([(x - self.me) / self.biao for x in U])def _dazhi(self, U):"""获取阀值:param U::return:"""if not hasattr(self, "f"):self.f = self._biaozhuncha(U) * self.rreturn self.fdef _phi(self, m, U):"""计算熵值:param U::param m::return:"""# 获取⽮量列表x = [U[i:i + m] for i in range(len(U) - m + 1)]# 获取所有的⽐值列表C = [len([1 for x_j in x if self._maxdist(x_i, x_j) <= self._dazhi(U)]) / (len(U) - m + 1.0) for x_i in x] # 计算熵return np.sum(np.log(list(filter(lambda a: a, C)))) / (len(U) - m + 1.0)def _phi_b(self, m, U):"""标准化数据计算熵值:param m::param U::return:"""# 获取⽮量列表x = [U[i:i + m] for i in range(len(U) - m + 1)]# 获取所有的⽐值列表C = [len([1 for x_j in x if self._maxdist(x_i, x_j) <= self.r]) / (len(U) - m + 1.0) for x_i in x]# 计算熵return np.sum(np.log(list(filter(lambda x: x, C)))) / (len(U) - m + 1.0)def jinshishang(self, U):"""计算近似熵:return:"""return np.abs(self._phi(self.m + 1, U) - self._phi(self.m, U))def jinshishangbiao(self, U):"""将原始数据标准化后的近似熵:param U::return:"""eeg = self._biaozhunhua(U)return np.abs(self._phi_b(self.m + 1, eeg) - self._phi_b(self.m, eeg))if __name__ == "__main__":U = np.array([2, 4, 6, 8, 10] * 17)G = np.array([3, 4, 5, 6, 7] * 17)ap = ApEn(2, 0.2)ap.jinshishang(U) # 计算近似熵说明:jinshishang函数直接计算近似熵jinshishangbiao函数将原始数据标准化后计算近似熵class HuApEn(BaseApEn):def _xiefangcha(self, U, G):"""计算协⽅差的函数:param U: 序列1,矩阵:param G: 序列2,矩阵:return: 协⽅差,float"""if not isinstance(U, np.ndarray):U = np.array(U)if not isinstance(G, np.ndarray):G = np.array(G)if len(U) != len(G):raise AttributeError('参数错误!')return np.cov(U, G, ddof=1)[0, 1]def _biaozhunhua(self, U, G):"""对数据进⾏标准化"""self.me_u = np.mean(U)self.me_g = np.mean(G)self.biao_u = self._biaozhuncha(U)self.biao_g = self._biaozhuncha(G)# self.biao_u = self._xiefangcha(U, G)# self.biao_g = self._xiefangcha(U, G)return np.array([(x - self.me_u) / self.biao_u for x in U]), np.array([(x - self.me_g) / self.biao_g for x in U])def _dazhi(self, U, G):"""获取阀值:param r::return:"""if not hasattr(self, "f"):self.f = self._xiefangcha(U, G) * self.rreturn self.fdef _phi(self, m, U, G):"""计算熵值:param m::return:"""# 获取X⽮量列表x = [U[i:i + m] for i in range(len(U) - m + 1)]# 获取y⽮量列表y = [G[g:g + m] for g in range(len(G) - m + 1)]# 获取所有的条件概率列表C = [len([1 for y_k in y if self._maxdist(x_i, y_k) <= self._dazhi(U, G)]) / (len(U) - m + 1.0) for x_i in x] # 计算熵return np.sum(np.log(list(filter(lambda x_1: x_1, C)))) / (len(U) - m + 1.0)def _phi_b(self, m, U, G):"""标准化数据计算熵值:param m::param m::param U::return:"""# 获取X⽮量列表x = [U[i:i + m] for i in range(len(U) - m + 1)]# 获取y⽮量列表y = [G[g:g + m] for g in range(len(G) - m + 1)]# 获取所有的条件概率列表C = [len([1 for y_k in y if self._maxdist(x_i, y_k) <= self.r]) / (len(U) - m + 1.0) for x_i in x] # 计算熵return np.sum(np.log(list(filter(lambda x: x, C)))) / (len(U) - m + 1.0)def hujinshishang(self, U, G):"""计算互近似熵:return:"""return np.abs(self._phi(self.m + 1, U, G) - self._phi(self.m, U, G))def hujinshishangbiao(self, U, G):"""将原始数据标准化后的互近似熵:param U::param G::return:"""u, g = self._biaozhunhua(U, G)return np.abs(self._phi_b(self.m + 1, u, g) - self._phi_b(self.m, u, g))class NewBaseApen(object):"""新算法基类"""@staticmethoddef _get_array_zeros(x):"""创建N*N的0矩阵:param U::return:"""N = np.size(x, 0)return np.zeros((N, N), dtype=int)@staticmethoddef _get_c(z, m):"""计算熵值的算法:param z::param m::return:"""N = len(z[0])# 概率矩阵C计算c = np.zeros((1, N - m + 1))if m == 2:for j in range(N - m + 1):for i in range(N - m + 1):c[0, j] += z[j, i] & z[j + 1, i + 1]if m == 3:for j in range(N - m + 1):for i in range(N - m + 1):c[0, j] += z[j, i] & z[j + 1, i + 1] & z[j + 2, i + 2]if m != 2 and m != 3:raise AttributeError('m的取值不正确!')data = list(filter(lambda x:x, c[0]/(N - m + 1.0)))if not all(data):return 0return np.sum(np.log(data)) / (N - m + 1.0)class NewApEn(ApEn, NewBaseApen):"""洪波等⼈提出的快速实⽤算法计算近似熵"""def _get_distance_array(self, U):"""获取距离矩阵:param U::return:"""z = self._get_array_zeros(U)fa = self._dazhi(U)for i in range(len(z[0])):z[i, :] = (np.abs(U - U[i]) <= fa) + 0return zdef _get_shang(self, m, U):"""计算熵值:param U::return:"""# 获取距离矩阵Z = self._get_distance_array(U)return self._get_c(Z, m)def hongbo_jinshishang(self, U):"""计算近似熵:param U::return:"""return np.abs(self._get_shang(self.m + 1, U) - self._get_shang(self.m, U))class NewHuApEn(HuApEn, NewBaseApen):"""洪波等⼈提出的快速实⽤算法计算互近似熵"""def _get_distance_array(self, U, G):"""获取距离矩阵:param U:模板数据:return:⽐较数据"""z = self._get_array_zeros(U)fa = self._dazhi(U, G)for i in range(len(z[0])):z[i, :] = (np.abs(G - U[i]) <= fa) + 0return zdef _get_shang(self, m, U, G):"""计算熵值:param U::return:"""# 获取距离矩阵Z = self._get_distance_array(U, G)return self._get_c(Z, m)def hongbo_hujinshishang(self, U, G):"""对外的计算互近似熵的接⼝:param U::param G::return:"""return np.abs(self._get_shang(self.m + 1, U, G) - self._get_shang(self.m, U, G))简单测试if __name__ == "__main__":import timeimport randomU = np.array([random.randint(0, 100) for i in range(1000)])G = np.array([random.randint(0, 100) for i in range(1000)])ap = NewApEn(2, 0.2)ap1 = NewHuApEn(2, 0.2)t = time.time()print(ap.jinshishang(U))t1 = time.time()print(ap.hongbo_jinshishang(U))t2 = time.time()print(ap1.hujinshishang(U, G))t3 = time.time()print(ap1.hongbo_hujinshishang(U, G))t4 = time.time()print(t1-t)print(t2-t1)print(t3-t2)print(t4-t3)测试后发现使⽤快速算法⽐使⽤定义算法的计算效率提⾼了6倍以上。

基于Trie树的词语左右熵和互信息新词发现算法

基于Trie树的词语左右熵和互信息新词发现算法

基于Trie树的词语左右熵和互信息新词发现算法作者:郭理张恒旭王嘉岐秦怀斌来源:《现代电子技术》2020年第06期摘; 要:由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。

为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。

先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。

实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用。

关键词:新词发现算法; 左右熵; 互信息; Trie树; 算法设计; 对比验证中图分类号: TN911⁃34; TP391.1; ; ; ; ; ; ; ; ;文献标识码: A; ; ; ; ; ; ; ; ; ; ;文章编号:1004⁃373X(2020)06⁃0065⁃05Trie tree based new word discovery algorithm using left⁃right entropy andmutual informationGUO Li, ZHANG Hengxu, WANG Jiaqi, QIN Huaibin(College of Information Science and Technology, Shihezi University, Shihezi 832000,China)Abstract: The emergence of multitude of new words makes Chinese discourse analysis difficult. Therefore, the discovery of new words has become a hot and difficult problem in natural language processing of Chinese. A Trie tree based new word discovery algorithm using left?right entropy and mutual information is proposed. The disused words and non Chinese characters in the text are filtered out according to the rules of word⁃formation. Each word is divided into a binary group with its right neighbor, and then the probability of word⁃formation is calculated by means of left⁃right information entropy and mutual information, so as to screen out new words according to the calculated probability of word⁃formation and word frequency. Three experiments were designed to verify the effectiveness and feasibility of the algorithm. The experimental results show that the new word discovery algorithm has higher accuracy of word⁃formation, and has higher time efficiency than other new word discovery algorithms, which plays an important role in the optimization of Chinese word segmentation results.Keywords: new word discovery algorithm; left⁃right entropy; mutual information; Trie tree; algorithm design; comparison validation0; 引; 言汉语言历史悠久,文化源远流长,很多地方有不同的方言,有着不同的书写习惯,这些方言大多不被包含在已有的词库中;另外,随着互联网的发展,产生了不同于传统语言的网络语言,其中包含着大量不存在于词库中的词,但是这些词却广泛存在于互联网中,并且常常是热门话题的关键词。

基于局部语义聚类的语义重叠社区发现算法

基于局部语义聚类的语义重叠社区发现算法

基于局部语义聚类的语义重叠社区发现算法辛宇;杨静;汤楚蘅;葛斯乔【摘要】语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题。

针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法:1)以 LDA (latent Dirichlet allocation)模型为语义信息模型,利用 Gibbs 取样法建立节点语义信息到语义空间的量化映射;2)以节点间语义坐标的相对熵作为节点语义相似度的度量,建立节点相似度矩阵;3)根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S‐fitness 模型,并根据S‐fitness 模型建立了局部语义聚类算法(local semantic clusterm ,LSC);4)提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性。

%Since the semantic social network (SSN) is a new kind of complex networks ,the traditional community detection algorithms depending on the adjacency in social network are not efficient in the SSN .To solve this problem ,an overlapping community structure detecting method on semantic social networks is proposed based on the local semantic cluster (LSC) .Firstly ,the algorithm utilizes the Gibbs sampling method to establish the quantization mapping by which the semantic information in nodes is changed into the semantic space ,with the latent Dirichlet allocation (LDA ) as the semanticmodel ;Secondly ,the algorithm establishes the similarity matrix ofSSN ,with the relative entropy of semantic coordinate as the measurement of similarity between nodes ; Thirdly , according to the character of localsmall‐world in social network ,the algorithm proposes the S‐fitness model which is the local community structure of SSN , and establishes the LSC method by the S‐fitness model ;Finally ,the algorithm proposes the semantic model by which the community structure of SSN ismeasured ,and the efficiency and feasibility of the algorithm and the semantic modularity are verified by experimental analysis .【期刊名称】《计算机研究与发展》【年(卷),期】2015(000)007【总页数】12页(P1510-1521)【关键词】语义社会网络;重叠社区发现;LDA 模型;相对熵;Gibbs 取样;局部语义聚类【作者】辛宇;杨静;汤楚蘅;葛斯乔【作者单位】哈尔滨工程大学计算机科学与技术学院哈尔滨 150001;哈尔滨工程大学计算机科学与技术学院哈尔滨 150001;哈尔滨工业大学电气工程及自动化学院哈尔滨 150001;哈尔滨工业大学电气工程及自动化学院哈尔滨 150001【正文语种】中文【中图分类】TP18;TP393随着网络通信的发展,电子社交网络如Face-book,Twitter等已成为人们日常生活中不可分割的社交渠道.为丰富用户的Web社区生活,各社交网站推出了“社区推荐”及“好友圈”服务.由此而产生的社区划分及社区推荐算法已成为社会网络数据挖掘研究的热点.从研究内容方面,社区划分算法可分为3个阶段:硬社区划分、重叠社区划分及语义社区划分.硬社区划分和重叠社区划分属于关系社区划分,其研究的出发点在于根据社会网络中节点的关系属性划分关系紧密“社交群落”,该领域早期的研究为硬社区划分,即将社会网络拆分为若干个不相交的网络[1].代表算法如GN[2],FN[3]算法.随着社会网络应用的发展,社区结构开始出现彼此包含的关系,为此,Palla等人[4]提出了具有重叠(overlapping)特性的社区结构,并设计了面向重叠社区发现的CPM 算法.此后,重叠社区发现算法成为社区划分研究领域的主流,许多经典算法孕育而生,如EAGLE[5]、LFM[6]、COPRA[7]、UEOC[8]、蚁群算法[9]、拓扑势算法[10]等.语义社会网络是每个节点均具有文本信息内容的社会网络.在语义社区划分方面,其研究的出发点在于根据社会网络中节点语义信息内容(如微博、社会标签等),将具有相似信息内容的节点划分为同一社区.由于所划分的社区结构基于信息相似性,其划分结果更能体现社区的凝聚性.由于语义信息需要以文本分析为基础,因此目前的语义社区划分算法大多以LDA模型[11]作为语义处理的核心模型.根据LDA模型的应用方式可分为3类:1) 关系语义信息的LDA(latent Dirichlet allo-cation)分析.此类算法以网络拓扑结构作为语义对象,利用改进的LDA模型分析节点的语义相似性,将LDA分析结果作为社区推荐及社区划分参数.Zhang等人[12]提出了SSN-LDA算法,将节点编号及关系作为语义信息内容,将节点的关系相似性作为训练结果.Henderson等人[13]在SSN-LDA模型的基础上融入了IRM(infinite relational models)模型,提出了LDA-G算法,该算法有效地将LDA与图模型相结合,在社区发现的基础上可进行社区间的链接预测.随后Henderson等人[14]在LDA-G的基础上加入了节点多元属性分析,提出了HCDF算法,增加了社区发现结果的稳定性.Zhang等人[15-16]也在SSN-LDA算法的基础上提了面向有权网络的GWN-LDA算法及面向层次化分的HSN-PAM算法.此类算法的优点在于结构模型简单,需要的信息量较少,适合处理大规模数据.缺点在于此类算法所利用的语义信息并非文本信息,所挖掘的社区不具有文本内容相关性,属于利用语义分析的方法进行关系社区划分.2) 关系-话题语义信息的LDA分析.此类算法以节点的文本信息作为语义对象,将相邻节点的文本信息作为先验信息,使得LDA分析的语义相似性接近现实.此类算法均以AT模型[17]作为LDA分析的基本模型,代表算法有McCallum等人[18]提出的ART模型,该模型在AT模型的基础上加入了recipient关系采样,将AT 模型引入了语义社会网络分析领域.随后McCallum等人[19]在ART模型的基础上加入了角色分析过程,提出了RART模型,扩展了ART模型的在社会计算领域的应用.Zhou等人[20]在AT模型中加入了user分布取样,提出了CUT模型.Cha等人[21]根据社交网络中跟帖人的topic信息抽取出树状关系模型,并利用层次LDA 算法对树状关系模型中的文本信息进行建模,提出了HLDA语义社会网络分析模型,该模型可有效处理论坛类(非熟人关系)网站的用户分类问题.此类算法的优点在于,在节点关系基础上结合了本文信息分析,其划分的社区具有较高的内部相似性.缺点在于,此类算法仅在文本取样时考虑了网络的关系特性,缺少对网络局部社区特性的考虑,使得划分的社区结果中出现不连通的现象.3) 社区-话题语义信息的LDA分析.此类算法在关系-话题类算法的基础上加入了社区因素,将LDA模型从邻接关系取样转向了局部区域取样,有效避免了关系-话题类算法的局部区域不连通现象,是成熟化的语义社区划分算法.代表算法有Wang 等人[22]提出的GT模型,该模型是ART模型的扩展,将group取样替代了ART 模型的recipient取样.随后Pathak等人[23]论述了recipient取样的必要性,并在ART模型的基础上加入了community取样,提出了CART模型.近些年来,话题-社区的关系成为LDA模型研究的重点,Mei等人[24]将区话题分布与社区模块度相结合,提出了TMN模型并建立了话题-社区关系函数,以指导社区的优化过程.Sachan等人[25-26]和Yin等人[27]分别从话题-社区分布和社区-话题分布角度,在社区与话题间构建关联,并将其引入了LDA模型,分别提出了TURCM及LCTA模型,在增加社区划分结果的话题差异性的同时,增加了社区划分结果的合理性.此类算法的优点在于语义社区划分准确性高.缺点在于模型复杂容易产生过拟合的现象,由于LDA模型需要预先确定先验参数的维数,因此,所划分的社区个数需要预先设定,且不同的预设社区个数所产生的社区划分结果差异较大.语义社会网络是语义网络和社会网络的结合体,是由信息节点及社会关系构成的新型复杂网络,其宏观概念上具有社会网络的链接关系属性,微观上每个节点具有语义信息属性.因此,语义社会网络的语义社区发现算法需要兼顾2方面条件:1)语义社区内部链接关系紧密;2)语义社区内部节点的语义信息相似度高.为避免社区-话题LDA分析中预设社区个数的问题,本文所设计的面向语义社会网络重叠社区发现算法,创新建立节点语义信息到语义空间的量化映射,通过构造语义相似度的度量,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法(local semantic cluster,LSC)及评价语义社区划分结果的SQ,最后通过实验,分析本文算法的有效参数选取及SQ评价性能.1.1 LDA关系表示语义社会网络的语义信息体现在各节点的文本信息内容上,每个节点具有节点内部的局部语义信息,各节点的信息集合构成网络总体语义信息.本节内容对语义社会网络中的局部语义信息和总体语义信息的LDA建模过程进行描述,所涉及到的数学符号如下:G表示全局网络,Gi为网络中的节点i;|G|表示语义社会网络中的节点个数;N表示语义社会网络中的关键字个数,Ni表示节点Gi的关键字个数;w表示关键字的向量,wi为向量w中第i个关键字所对应的编号;d表示与关键字的向量w对应的节点编号向量,di为wi所隶属的节点编号;z表示与关键字的向量w对应的话题编号向量,zi表示wi所隶属的话题编号,其最大编号为话题个数k;θ(di)表示节点di的话题分布概率;λ(j)表示话题j中关键字的分布表示关键字wi隶属某一话题j的概率,其中α表示各节点的话题分布先验参数;β表示话题内部关键字分布的先验参数.LDA语义数据分别利用w,d,z三个向量进行存储,其中wi,di,zi分别为关键字i的编号、所属节点号及所属话题号,图1为LDA算法的w,d,z数据存储结构,其中阴影部分表示向量内的相同元素,如图1所示,wi1= wi2= wi4= wi5说明wi1,wi2,wi4,wi5为同一单词,di1=di3=di5=di6说明wi1,wi3,wi5,wi6是同一节点di1的关键字,且关键字wi1在di1中出现2次,zi1=zi2=zi6说明wi1,wi2,wi6隶属同一话题zi1,且关键字wi1在zi1中出现2次,zi1分别隶属于di1,di2.从图1的分析可知,w,d,z三者之间存在3层贝叶斯关系,根据文献[11]可知,w,d,z的关系如下:① θ~Dirichlet(α),节点的话题分布θ服从参数为α的狄利克雷分布;② zi|θ(di)~Multinomial(θ(di)),节点di在特定话题分布θ下,出现话题zi的概率服从多项式分布;③ λ~Dirichlet(β),关键字分布λ服从参数为β的狄利克雷分布;④ wi|zi,λ(zi)~Multinomial(λ(zi)),话题zi在特定话题分布λ下,出现关键字wi 的概率服从多项式分布.图2为关键字w,d,z的贝叶斯关系图,其中箭头指示了wi,di,zi的贝叶斯表达过程,并以α和β作为全局参数.1.2 Gibbs迭代过程w,z的贝叶斯关系表达式为其中).Gibbs取样算法的核心内容在于通过建立已知样本分布为条件,建立对某一样本的后验估计,并对后验估计表达式进行Gibbs取样.实现语义社会网络LDA模型的Gibbs取样计算,需要在式(1)中加入变量z-i和w-i(表示除去元素i的向量z和w),分别作为推断zi和wi的条件,因此式(1)可变形为根据文献[18],式(3)的右边分别为其中,|w|和|z|分别表示关键字和话题的个数(编号的最大值),表示关键字wi在话题j 中的频数表示话题j的关键字总数表示节点di在话题j中的频数表示节点di的关键字总数.图3为Gibbs取样过程,其中箭头①为循环取样过程;箭头②为根据当前样本通过式(6)计算P(zi=j|z-i,wi);箭头③为根据P(zi=j|z-i,wi)对zi进行Gibbs取样并修改zi的过程.当P(zi=j|z-i,wi)收敛时结束此过程,并将P(zi=j|z-i,wi)按关键字wi归一化,即可得到关键字-话题概率矩阵φ,其中φi,j=p(zi=j|w=i),φi,·=1.本文以LDA模型提取的k个话题作为k维语义空间的基,向量φi,·可表示为i号关键字在k维语义空间中的坐标,则某一节点Gi在语义空间中的坐标(语义坐标)mi可通过Gi的Ni个关键字的加权均值形式表达,其表达式为其中,Ni表示节点Gi的关键字个数,Ni,j为Gi的第j个关键字编号.利用式(7)可量化表示各个节点的语义信息,因此,各节点间的语义相似性可通语义坐标mi进行度量.根据式(7)可知语义坐标mi各元素之和为1,因此语义坐标可看作各节点信息在语义空间的分布,为此本文选择度量分布相似性的相对熵(KL散度)作为节点间语义相似度的度量,即相对熵KL(mi,mj)越小,mi,mj的相似性越高,由于相对熵具有非对称性KL(mi,mj)≠KL(mj,mi),对此选择(KL(mi,mj)+KL(mj,mi))2作为节点mi和节点mj的相似度hij,其表达式如下:本文以清华大学ArnetMiner系统QLSP(quantifying link semantics-publication)数据集的部分数据为例(包含108篇论文中155条引用关系).本文算法分别在每篇论文的摘要中抽取6个关键字作为论文节点的语义信息,以话题个数k=5进行Gibbs取样迭代后,再利用式(7)~(8)计算KL相似度矩阵H,其结果如图4所示,网络模型如图5所示.由于社会网络具有局部小世界特性,社区网络中的社区结构的规模远小于整体网络规模,从而使社区划分的结果对网络整体拓扑的依赖较小,因此通过局部聚类方法所挖掘出的社区结构具有较强的社区独立性,且算法复杂度较低,可面向大规模网络.文献[6]提出了度量局部社区结构fitness模型,其表达式为其中,Fc为社区C的为社区C的内部度数为社区C的外部度数(社区C与其它社区的链接数),η为社区规模控制参数η(0.5<η<2).为使局部社区结构满足局部语义特性,可根据节点间的语义相似性构造语义社会网络节点度分布模型SR,由于语义相似度矩阵H中hij越小,节点Di和Dj的相似性越高,可通过利用exp(-hi,j)作为节点Di和其邻接节点Dj紧密程度的度量,因此节点Di的度分布可表示为如下形式:语义社会网络的局部社区结构S-fitness模型可表示如下:其中为语义社区规模控制参数,本文在实验章节对ω的取值进行了实验分析.设C′为与社区C直接相邻的节点集合,若某一节点Di∈C′,则节点Di相对于社区C的聚合度可表达如下:其中C+{Di}表示节点Di加入社区C后所形成的新社区;若某一节点Di∈C,则节点Di相对于社区C的聚合度可表达如下:其中C―{Di}表示节点Di离开社区C后,所形成的新社区.通过以上分析,局部语义聚类算法LSC的简要执行步骤如下:1) 随机选择某一未被划分的节点Di,以该节点作为初始社区C={Di},与C直接相邻的节点加入C′;2) 按式(12)计算C′中与C聚合度最大的节点若则转4),否则将Dj加入C并更新C′转3);3) 按式(13)计算C内聚合度最小的节点若则将Dt从C中移除并更新C′转3),否则转2);4) C中的节点被划分为同一社区,若此时存在未被划分的节点则转1),否则结束. 以上步骤中1)为语义社区的初始选择;2)为语义社区的局部扩散过程;3)为语义社区扩散后的内部调整过程;4)为语义社区经过局部扩散和内部调整后的稳定过程.经过以上的局部语义聚类过程,可实现语义社会网络的重叠社区发现.图6为本文LSC算法的社区划分结果(参数ω=0.92).一般的社会网络重叠评价标准以节点关系结构为输入,文献[5]所建立的重叠社区模块度EQ为其中,Ri为节点di的度数,X为网络节点的总度数,A为网络邻接矩阵,Oi为节点Di所隶属的社区个数.语义重叠社区需要以节点关系结构和节点语义信息作为基础,其评价标准不仅要考虑社区内部的关系合理性,而且需要考虑节点间的语义信息相似性.为此,本文引入以语义空间坐标mi为输入的语义信息相似性度量函数U(mi,mj),建立可评价标语义重叠社区的模块度模型SQ,其表达式为由于模块度的取值范围为(0,1),为此,本文选择余弦相似度作为相似性度量函数U(mi,mj),其表达式为:本文在第5节对SQ进行实验分析.5.1 ω取值分析规模控制参数ω是语义聚类算法的输入参数,为验证规模控制参数ω对语义社区划分结果的影响,本文选用如下3组数据作为测试数据:1) 图4所示的清华大学ArnetMiner系统QLSP数据集;2) 图7所示的Krebs建立的美国政治之书网络(Krebs polbooks network),该数据的网络结点代表亚马逊网上书店卖出的有关美国政治的图书,每本书的政治倾向略有不同,但总体上分为3类,且只有0或1两种选择,因此为实现语义化模拟,将与某一节点Di具有直接相邻关系(距离为1)的节点Dj和间接相邻关系(距离为2)节点Dk的信息向量之和作为节点Di的信息向量;3) 图8所示的Newman建立的海豚家族(Dolphins network)关系网络,该网络由两大家族组成员个数分别为20和42,共159条链接关系,为模拟语义社会网络的特性,本文实验借用Dolphins网络的社会关系特性,并为每个节点生成3维随机数作为节点的语义坐标.本节实验分别对以上3组数据集(QLSP,Polbooks,Dolphins)进行规模控制参数,由于当ω>2时已无明显的社区结构,因此本节实验选择区间(0.01~2)作为参数ω的测试区间,3组数据的社区个数和SQ值如图9和图10所示,其中图9说明了ω取值增大时,社区个数会逐渐增大且单一社区规模逐渐变小,且当ω<0.4时无明显社区结构.图10为ω不同取值下3组数据的SQ值比较,其中3组数据的最优ω取值分别为0.92,1.02,0.89,SQ最大值分别为0.4766,0.5159,0.4548.从图10的3组折线对比可知,当0.8<ω<1.2时LSC算法的SQ值最高,所划分的社区结构最合理.为对比ω不同取值的语义社区划分结果,图11分别选取了3组数据在参数ω=(0.6,1.0,1.4)下的社区划分结果,由于Dolphins网络ω=0.6时社区个数为1,因此Dolphins网络选择ω=(0.8,1.0,1.4),图11直观验证了当ω过小时,单一社区规模较大,结合图9和图10可知由于规模较大的社区其局部信息紧密度越低,因此社区划分结果SQ值较低;当ω过大时单一社区规模较小,社区的结构特性不明显SQ值同样较低.综合本小节实验分析结果,LSC算法的规模控制参数ω以0.8~1.2为最佳,过大或过小均会影响社区划分质量.5.2 SQ与EQ的比较分析本节实验计算了实验1中3组数据ω不同取值条件下的EQ值,3组数据的EQ 和SQ值的对比如图12所示.从式(14)和式(15)的对比可知,SQ加入了语义信息相似性度量函数U且U(mi,mj)<1,使得SQ的总体趋势小于EQ.QLSP数据集的EQ最大值为0.600 8所对应的ω=1.11,与SQ的最大值为0.476 6(对应的ω=0.92)存在偏差,而ω=0.92所对应的社区结构的EQ值为0.523 6.对于Polbooks和Dolphins数据集的EQ最大值分为0.513 7(ω=0.84)和0.5276(ω=1.02),与SQ的最大值0.515 9(ω=1.02)和0.454 8(ω=0.89)同样存在偏差.其结果验证了仅以节点关系为输入的EQ,在评价面向节点具有语义信息属性的社区划分结果时效果较差.5.3 重叠社区发现算法比较分析本节实验目的在于分析经典社区发现算法在面向语义社会网络时,划分结果存在偏差,因此本节实验仅以QLSP数据集进行举例说明.社区发现中经典的社区发现算法包括GN[2],FN[3],LFM[6],COPRA[7],UEOC[8],EAGLE[5],CPM[4],其中LFM,COPRA,UEOC,EAGLE,CPM为重叠社区发现算法,由于QLSP 数据集仅含一个clique社区(26,28,41,46,49,52)不适用于EAGLE,CPM 算法,因此本文仅对GN,FN,LFM,COPRA,UEOC算法进行求解,图13为以上各算法的社区划分结果,其中黑色节点为重叠节点,各算法的SQ和EQ值如表1所示.以上经典算法以链接关系优化划分为导向,从表1中的结果可分析出,经典算法的EQ值高于本文算法(0.523 6),但SQ值均低于本文算法(0.4766,ω=0.92),由此验证了,传统面向链接关系的社区划分算法EQ较高,在处理语义社区划分问题时SQ较低,所划分的社区结果与语义社区的理想结果偏差较大.5.4 真实数据集比较本实验以清华大学ArnetMiner系统的QLSP完整数据集(共805个节点),AFD(aminer-foaf- dataset)数据集(截取2 000个节点),CND(citation network dataset)数据集(共2 555个节点),DBLP(April 12,2006)数据集(1 200 000个节点)中分别截取1 500个节点数据集和2 000个节点数据集作为实验数据,分别记作DBLP(A)和DBLP(B).分析本文算法与经典算法的比较结果.表2为各算法对上述数据集的执行结果,其中本文LSC算法的运行参数为ω=0.96(在0.8~1.2中随机选择),表2包括EQ,SQ及社区个数CS,图14和图15分别为各算法的EQ和SQ直方图.由于不同的数据集的社区结构不同,因此,图14和图15所示的各数据集的EQ和SQ不一致.在同类算法的EQ和SQ 对比中,图14的结果表示本文LSC算法结果在EQ标准下的结果较差,图15的结果充分验证了本文LSC算法的语义社区划分结果更精确,从图14和图15的比对可知,相较于传统经典算法本文LSC算法更适合处理语义社会网络的社区发现问题.5.5 语义社区发现算法对比分析本节实验对比各类需要预先设定社区个数的语义社区发现算法,以语义社区发现算法中通用的Enron数据集作为实验数据集,Enron数据集是Enron公司150个用户的交互数据,共包含0.5×106条数据、423 MB数据量.表3为经LDA分析后从Enron数据集中抽取的4组话题.表4和表5分别为Enron数据集分别在TURCM,CART,CUT和LCTA算法下的EQ值及SQ值,表中社区个数表示各算法执行前的社区预设数.从表4与表5的分析可知,Enron数据集的最佳个数为10.本文算法的社区个数为11,EQ和SQ取值分别为0.322和0.308.通过对比可知,本文算法的结果近于同类算法的最优值,且无需预先设定社区个数,由此验证了本文算法相对同类算法的优越性.5.6 实验总结本文实验部分分别从参数取值、SQ有效性、经典算法比较、多数据集分析4个方面进行分析,所得出的结论如下:1) LSC算法的最优参数取值为ω∈(0.8,1.2);2) SQ相对于EQ更适合评价语义社区划分结果;3) 在面向具有语义关系的社区划分问题时,LSC相对于经典重叠社区发现算法更有效;4) LSC对于各类语义社会网络具有普遍适用性;5) 相较于各类语义社区发现算法,LSC算法无需预设社区个数且结果较好.本文针对语义社会网络社区划分的问题,提出了LSC算法,该方法将语义社会网络的语义特性和社会关系特性相融合,可有效解决语义社会网络中的重叠社区发现问题.本文算法设计的创新思想在于:1)利用Gibbs取样法构建语义空间,并将节点的语义信息映射为语义空间内的坐标,实现节点的语义信息可度量化;2)以节点间语义坐标的相对熵(KL散度)作为节点语义相似度的度量;3)提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法LSC;4)提出了评价语义社区划分结果的SQ.本文算法的实验分析验证了:在面向具有语义关系的社区划分问题时,LSC相较于经典重叠社区发现算法更有效,且对于各类语义社会网络具有普遍适用性.所提出的SQ相对于EQ更适合评价语义社区划分结果.另外,本文算法可为动态语义社会网络、大规模数据语义社会网络及语义社区推荐等研究领域提供基础,对深入研究语义社会网络具有一定的理论和实际意义.Xin Yu,born in 1987.PhD candidate at Harbin EngineeringUniversity.Student member of China Computer Federation.His mainresearch interests include database and knowledge engineering,enterprise intelligence computing.Yang Jing,born in 1962.Professor at Harbin Engineering University and PhD supervisor.Senior member of China Computer Federation.Her research interests include database and knowledge engineering,enterprise intelligence computing.Tang Chuheng,born in 1994.Undergraduate at Harbin Institute of Technology.Her main research interests include social network analysis,enterpriseintelligencecomputing(**********************.cn). Ge Siqiao,born in 1993.Undergraduate at Harbin Engineering University.Student member of China Computer Federation.His main research interests include social network analysis,enterprise intelligence computing(*******************.cn).【相关文献】[1]Yang Bo,Liu Dayou,Jin Di,et plex network clustering algorithms [J].Journal of Software,2009,20(1): 54-66 (in Chinese)(杨博,刘大有,金弟,等.复杂网络聚类方法[J].软件学报,2009,20(1): 54-66)[2]Girvan M,Newman M E munity structure in social and biological networks [J].Proceedings of National Academy of Science,2002,9(12): 7921-7826[3]Newman M E J.Fast algorithm for detecting community structure in networks[J].Physical Review E,2004,69(6): 1-12[4]Palla G,Derenyi I,Farkas I,et al.Uncovering the overlapping community structures of complex networks in nature and society [J].Nature,2005,435(7043): 814-818[5]Shen H,Cheng X,Cai K,et al.Detect overlapping and hierarchical community structure in networks [J].Physica A,2009,388(8): 1706-1712[6]Lancichinetti A,Fortunato S,Kertesz J.Detecting the overlapping and hierarchical community structure in complex networks [J].New Journal of Physics,2009,11(3): 1-10 [7]Gregory S.Finding overlapping communities in networks by label propagation [J].New。

一种基于词聚类信息熵的新闻提取方法

一种基于词聚类信息熵的新闻提取方法

一种基于词聚类信息熵的新闻提取方法作者:牛伟农吴林于水源来源:《软件导刊》2020年第01期摘要:互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。

提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。

实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。

若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。

结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。

关键词:新闻提取;新话题;词向量;聚类;信息熵DOI: 10. 11907/rjdk.192209开放科学(资源服务)标识码(OSID):中图分类号:TP301文献标识码:A文章编号:1672-7800( 2020)001-0036-050 引言随着第四媒体的迅速发展,新闻行业迎来了新的发展机遇。

自媒体的出现和新闻发布渠道的多样化,为大众获取信息提供了便利。

但与此同时.大量信息的产生导致虚假新闻的有效控制受到了阻碍。

利用计算机技术在大量新闻数据中提取出新话题新闻,将焦点放在新话题新闻上,可以减少相关工作者需要关注的新闻数量,降低舆情控制难度。

自2013年9月“一带一路”倡议提出后,相关报道不断增加,一时间引起轰动[1]。

政府部门在面向有关“一带一路”的报道时,需在大量新闻中掌握新话题新闻,关注事态走向,令其向正确的方向发展,确保“一带一路”倡议顺利实施。

因此,本文针对“一带一路”相关新闻进行验证分析。

20世纪90年代,随着在日本神户第四届机器翻译高层会议的召开,自然语言处理( Natural Language Processing,NLP)技术由发展期逐渐进入繁荣期[2]。

基于互信息的微博新词发现算法

基于互信息的微博新词发现算法

基于互信息的微博新词发现算法作者:张艳辉刘培玉来源:《科技视界》2015年第15期【摘要】微博是一种近些年来兴起的互联网媒体,每时每刻都会产生各种新生的网络词汇。

对于新词发现算法中表现出的缺点,文中提出了一种基于互信息的微博新词发现算法,将互信息合并多字词的方式应用到微博新词的发现中,并且通过实验验证了本文算法对于微博新词发现的有效性。

【关键词】微博;新词发现;互信息【Abstract】Micro-blog is a new kind of social network, a variety of nascent network vocabulary is produced at all times. In order to make up for these deficiencies in the previous new word detection algorithms, this paper presents a new word detection algorithm in micro-blog based on mutual information. In this algorithm, the mutual information with multiple word is applied to the micro-blog new word detection. The experiments show that this algorithm is more effective for micro-blog new word detection.【Key words】Micro-blog; New word detection; Mutual Information0 引言中文新词的识别在数据挖掘和情感分析方面是一个令许多人关注的领域,其对于帮助我们扩展现有的知识领域,提高中文信息的可靠性方面有着非常重要的作用。

基于邻域粗糙集和Relief的弱标记特征选择方法

基于邻域粗糙集和Relief的弱标记特征选择方法

基于邻域粗糙集和Relief的弱标记特征选择方法孙林;黄苗苗;徐久成【期刊名称】《计算机科学》【年(卷),期】2022(49)4【摘要】在多标记学习与分类中,现有邻域粗糙集特征选择算法若将样本的分类间隔作为邻域半径,则会出现分类间隔过大导致分类无意义、样本距离过大容易造成异类样本和同类样本失效,以及无法处理弱标记数据等情况。

为解决这些问题,提出一种基于多标记邻域粗糙集和多标记Relief的弱标记特征选择方法。

首先,引入异类样本数和同类样本数来改进分类间隔,在此基础上定义邻域半径,构造新的邻域近似精度与多标记邻域粗糙集模型,并有效度量边界域引起的集合不确定性。

其次,利用迭代更新权重公式填补大部分缺失标记信息,将邻域近似精度与互信息相结合,以构造新的标记相关性,填补剩余的缺失标记信息。

然后,使用异类样本数和同类样本数,以构造新的标记权重和特征权重计算公式,进而提出多标记Relief模型,并将其应用于多标记特征选择。

最后,结合多标记邻域粗糙集模型和多标记Relief算法,设计一种新的弱标记特征选择算法,以处理带有缺失标记的高维数据,并有效地提升多标记分类性能。

在11个公共多标记数据集上进行仿真实验,结果验证了所提出的弱标记特征选择算法的有效性。

【总页数】9页(P152-160)【作者】孙林;黄苗苗;徐久成【作者单位】河南师范大学计算机与信息工程学院;教育人工智能与个性化学习河南省重点实验室;东北大学计算机科学与工程学院【正文语种】中文【中图分类】TP181【相关文献】1.基于邻域粗糙集与量子遗传算法的人脸表情特征选择方法2.一种基于邻域粗糙集的多标记专属特征选择方法3.基于邻域粗糙集的多标记分类特征选择算法4.一种基于邻域粗糙集特征选择的图像分类方法5.基于K-S检验和邻域粗糙集的特征选择方法因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词语的词频、成词概率、左右邻接熵、邻接变化数等统计特征来 识别新词。基于统计的方法较为灵活,不受领域的限制,易扩 展且可移植性较好,但存在数据稀疏和准确率较低的缺点。基 于规则与统计相结合的新词发现方法[8~11]则是希望融合上述 两种方法的优点,从而提高新词发现的准确率和效率。
摘 要:如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提 出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来 逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新 词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过 ngram方法导致大量重复词串和垃 圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。 关键词:新词发现;互信息;邻接熵;微博语料 中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2019)05003129304 doi:10.19734/j.issn.10013695.2017.11.0745
目前新词并没有准确的定义,在本文中将未登录词[1]与 新词等同,也就是说新词就是指不在旧词典中的词语。本文使 用的旧词典为第六届中文倾向分析评测(COAE)任务 3中公 开的旧词典资源。
当前新词发现方法共有基于规则的新词发现方法、基于统 计的新词发现方法和基于规则与统计相结合的新词发现方法 三种。基于规则的新词发现方法[2,3]是指利用词性特征、语言 学的构词规则等方面发现新词。新词发现的准确率较高,但可 扩 展 性、灵 活 性 都 比 较 差,而 且 还 会 消 耗 大 量 的 人 力 和 物 力。 基于统计的新词发 现 方 法 [4~7]是 指 通 过 大 量 的 实 验 语 料 计 算
Newworddiscoveryalgorithm basedonmutualinformationandbranchentropy
LiuWeitong1,2,LiuPeiyu1,2,LiuWenfeng1,3,LiNana1,2
(1.SchoolofInformationScience&Engineering,ShandongNormalUniversity,Jinan250358,China;2.ShandongProvincialKeyLaboratory forDistributedComputerSoftwareNovelTechnology,Jinan250358,China;3.SchoolofComputerScience,HezeUniversity,HezeShandong 274015,China)
第 36卷第 5期 2019年 5月
ቤተ መጻሕፍቲ ባይዱ
计算机应用研究 ApplicationResearchofComputers
Vol36No5 May2019
基于互信息和邻接熵的新词发现算法
刘伟童1,2,刘培玉1,2,刘文锋1,3,李娜娜1,2
(1.山东师范大学 信息科学与工程学院,济南 250358;2.山东省分布式计算机软件新技术重点实验室,济南 250358;3.菏泽学院 计算机学院,山东 菏泽 274015)
0 引言
随着科学技术的迅速发展,人们通过微博来发表个人意见 的情况也越来越常见。大多数的微博都比较随意,非常口语化 且不正规,在这种情况下就会产生许多的网络新词,如“簈丝” “给力”“尼玛”等。在自然语言处理中,新词的出现对于情感 词典的构建、短文本的倾向性分析、中文分词等诸多方面带来 了许多不利的影响,降低了它们的效能。所以,如何高效地识 别新词成为自然语言处理过程中一项非常重要的任务。
Abstract:Howtoidentifynewwordsquicklyandefficientlyisaveryimportanttaskinnaturallanguageprocessing.Aimingat theproblemsexistinginthediscoveryofnewwords,thispaperproposedanalgorithmforwordfindingnewwordsverbatimfrom lefttorightintheuncutwordWeibocorpus.Onewaytogetacandidatenewwordwasbycomputingthecandidatewordand itsrightadjacentwordmutualinformationtoexpandwordbyword;thereweresomewaystofiltercandidatenewwordstoget newwordsets.Itincludedmethodsincludedcalculatingthebranchentropy,deletingstopwordscontainedinthefirstorlast wordofeachcandidatenewwordanddeletingoldwordsincludedinthecandidatenewwordset.Itsolvedtheproblem that somenewwordscouldnotberecognizedduetothemistakesinthewordsegmentationanditalsosolvedtheproblem thatthe largenumberofrepetitivewordstringsandrubbishwordsstringsgeneratedbythengrammethodwereidentifiedasnewwords. Finally,experimentsverifytheeffectivenessofthealgorithm. Keywords:newworddiscovery;mutualinformation;branchentropy;microblogcorpus
相关文档
最新文档