案例二十基于词表的词频统计

合集下载

词频统计——精选推荐

词频统计统计词频需求分析本次作业需要完成的是⼀个词频统计程序。

需求分析：1. 统计⽂件的字符数（只需要统计Ascii码，汉字不⽤考虑）2. 统计⽂件的单词总数3. 统计⽂件的总⾏数（任何字符构成的⾏，都需要统计）4. 统计⽂件中各单词的出现次数，输出频率最⾼的10个。

5. 对给定⽂件夹及其递归⼦⽂件夹下的所有⽂件进⾏统计6. 统计两个单词（词组）在⼀起的频率，输出频率最⾼的前10个。

7. 在Linux系统下，进⾏性能分析，过程写到blog中（附加题）Status Stages预估耗时实际耗时Accepted计划 Planning10分钟10分钟Accepted需求分析 Analysis20分钟20分钟Accepted具体设计 Design30分钟60分钟Accepted具体编码 Code2个⼩时4个⼩时Accepted测试 Test1个⼩时2个⼩时Accepted写报告 Report1个⼩时1个⼩时总计5个⼩时约9个⼩时具体设计扩展字符串的类，使得字符串可以在忽略⼤⼩写和后缀数字的情况下进⾏⽐较使⽤哈希表进⾏统计寻找词频前⼗的单词时，维护⼀个10个⼤⼩的“榜单”，线性遍历哈希表，⽤其中的每⼀个元素来更新“榜单”，时间复杂度O(N)读取⽂件采⽤缓冲区流式读取设计状态机对字符和单词进⾏提取代码实现过程⼯具类的构建string_plus类：⽐较两个字符串是否相等时忽略⼤⼩写和后缀数字，但仍要记录原字符串string_pair类：两个string_plus放在⼀起，新增hash字段hash_table类：哈希表，在查询并更新数据时，将字典序较⼩的string_plus字符串留在原地状态机的构造char_consumer类：输⼊字符流，产⽣合法的单词流，并在流处理过程中完成⾏数和字符数的统计word_consumer类：输⼊单词流，统计单词总数和词频、词组频输⼊输出⽂件输⼊与输出⽂件夹扫描性能分析使⽤拉链法处理哈希表冲突，在哈希表⾜够⼤的情况下，查询字符串的速度接近O(1)使⽤modified-insertion-sort的⽅法来寻找前10⼤的元素，时间复杂度为O(n)哈希函数计算简单，且不易冲突⼤部分函数为内联函数在WSL上，使⽤g++ -O2进⾏编译，运⾏测试集的时间约9s；在Windows下，使⽤VS 2015进⾏编译，运⾏测试集的时间约16s。

可用于统计词频的方法

可用于统计词频的方法1.引言1.1 概述概述在自然语言处理领域，统计词频是一项重要的任务，它可以帮助我们了解文本中各个单词的使用频率和重要性。

在信息检索、文本分析和机器学习等领域，词频统计方法被广泛应用。

本文将介绍两种常用的方法用于统计词频：基于计数的词频统计方法和基于TF-IDF的词频统计方法。

这些方法通过计算单词在文本中的出现次数或者与文本集合的关联程度，来衡量单词的频率和重要性。

基于计数的词频统计方法是一种简单直观的方法，它通过对文本中单词的出现次数进行计数，来进行词频统计。

这种方法可以帮助我们了解特定单词在文本中的重要性，但是它没有考虑到单词在文本集合中的普遍性。

另一种方法是基于TF-IDF的词频统计方法，它综合考虑了单词在文本中的出现频率和在文本集合中的普遍程度。

TF-IDF的全称是Term Frequency-Inverse Document Frequency，它通过计算单词在文本中的出现频率和在文本集合中的逆文档频率，来衡量单词的重要性。

TF-IDF方法可以有效地帮助我们发现在特定文本中重要性较高的单词。

总的来说，本文将详细介绍基于计数的词频统计方法和基于TF-IDF的词频统计方法，分析它们的优缺点，并展望未来在统计词频方面的研究方向。

通过了解这些方法，我们可以更好地应用它们来进行文本分析、信息检索和机器学习等任务，从而提升相关领域的研究和应用水平。

文章结构部分的内容可以如下所示：1.2 文章结构本文共分为三个部分：引言、正文和结论。

引言部分包括概述、文章结构和目的。

在概述中，将介绍本文所要讨论的主题——可用于统计词频的方法。

词频统计是一项基础性工作，广泛应用于自然语言处理、文本挖掘和信息检索等领域。

了解词频统计方法的原理和应用将对相关领域的研究和实践产生积极的影响。

接下来，文章结构将详细介绍本文的组织方式和各个部分的内容。

通过明确的结构安排，读者可以更好地理解本文的主旨和论证过程。

文件方式实现完整的英文词频统计实例

⽂件⽅式实现完整的英⽂词频统计实例可以下载⼀长篇的英⽂⼩说，进⾏词频的分析。

1.读⼊待分析的字符串2.分解提取单词3.计数字典4.排除语法型词汇5.排序6.输出TOP(20)7.对输出结果的简要说明。

fo=open('english.txt','r')s=fo.read()s=s.lower()#⼤写转换为⼩写for i in',.!':s=s.replace(i,'')#所有标点符号替换为空格#单词列表及词频words=s.split('')#不统计单词的集合exc={'','you','are','so','up','how', 'in','a','this','the','is','an','more','with','at','all','on','that','have','of','to','it','and','be','will','we','our','can'}dic={}key=set(words)key=key-exc #键的集合for i in key:dic[i] = words.count(i)#单词计数字典wc=list(dic.items()) #（单词，计数）元组的列表wc.sort(key=lambda x:x[1],reverse=True)#列表的排序for i in range(20):#输出前15个元组print(wc[i])('human', 5)('development', 4)('resources', 4)('world', 3)('unprecedented', 3)('future', 3)('own', 3)('beings', 3)('space', 3)('one', 3)('environment', 3)('generations', 2)('limited', 2)('us', 2)('straight', 2)('depleted', 2)('their', 2)('natural', 2)('technology', 2)('intelligent', 2)对输出结果的简要说明，环境对我们和我们的后代来说是多么重要，我们应该⽤⼀种更加关爱环境的⽅法来⽣活以便我们的⼦孙后代也能有空间和资源⽣存。

基于词频计量统计的林黛玉性格分析

862019年第2期总第680期MODERN CHINESENo.2General No.680现代语文基于词频计量统计的林黛玉性格分析胡翠婷（北京语言大学信息科学学院，北京 100083）摘要：本文从计量语言学的角度，通过对林黛玉诗词词频和动词词频的统计分析，来解读和阐释林黛玉的性格特征，力图呈现出一个立体化和多样化的黛玉形象。

结果表明：林黛玉的诗词中与“花”相关的词很多，并且多使用情感消极的词汇，这也印证了林黛玉多愁善感、敏感自卑的性格。

考察林黛玉动作动词时，发现在林黛玉的性格中还具有男子化的一面，这和普通的贵族少女迥然不同，也是以往研究所忽略之处。

关键词：《红楼梦》；计量语言学；林黛玉；性格基金项目：国家自然科学基金项目（61872402）；教育部人文社科规划基金项目(17YJAZH068)；北京语言大学校级项目（中央高校基本科研业务费专项资金，18ZDJ03）作者简介：胡翠婷，女，北京语言大学信息科学学院硕士研究生。

一、引言1935年，美国语言学家G.K.Zipf 关于语言统计的著作T he Psycho-Biology of Language ：An In -troduction to Dynamic Philology 出版[1]，标志了一个新的语言学分支学科和一种新的语言研究方法的诞生。

G.K.Z i p f 认为，利用统计方法可以定量研究语言中的各种现象，这样语言学便可以成为一门精确科学。

此后计量语言学越来越多地被应用到文学作品的统计分析上。

早在1976年和1987年，美国斯坦福大学教授Efron 和她的学生就对莎士比亚的著作进行了统计分析的研究[2][3]。

对《红楼梦》的计量研究始于瑞典汉学家高本汉（B.Karlgren），1952年，他用统计学方法分析了32个语法与口语词汇的用字习惯，认为全部120回均为曹雪芹所著[4]。

1980年，华裔学者陈炳藻在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上，发表了《从词汇上的统计论〈红楼梦〉的作者的问题》一文，他通过统计学方法考察《红楼梦》前后用字（词）的相关程度，认为后40回也出自曹雪芹之手[5]。

基于词频统计算法的中英文词频分布研究

㊀第３５卷第１期㊀青岛大学学报(工程技术版)㊀V o l ．３５N o ．１㊀２０２０年２月J O U R N A LO F Q I N G D A OU N I V E R S I T Y (E &T )F e b ．２０２０文章编号:１００６９７９８(２０２０)０１０００１０５;D O I :１０．１３３０６/j．１００６９７９８．２０２０．０１．００１基于词频统计算法的中英文词频分布研究李㊀杰,孙仁诚(青岛大学计算机科学技术学院,山东青岛２６６０７１)摘要:针对幂律判断方式存在的问题,本文基于早期对幂律分布的研究,结合最大拟然拟合方法及词频统计算法,对中英文词频分布进行研究.给出了双对数坐标系下幂律分布的判断,并对词频统计与幂律分布进行拟合.研究结果表明,在双对数坐标系下,分布图像为近似直线是判断幂律分布的必要条件,而非充分条件;在自然语言的词频统计分布模型上,对观测数据进行幂律分布的拟合,得出的p Ｇv a l u e 分别为０１４和０１９,均大于０１,且泊松分布㊁指数分布㊁广延指数分布的p Ｇv a l u e 值都为０,即可排除满足其他分布的假设,因此对观测数据拟合效果最好的是幂律分布.说明自然语言的词频分布满足幂律,且中英文同样适用.该研究对人们认识语言的发展过程具有重要意义.关键词:词频统计;幂律分布;最大似然估计;K S 统计量中图分类号:T P ３１２;C ８１㊀文献标识码:A 收稿日期:２０１９０６２０;修回日期:２０１９１０２８基金项目:国家自然科学青年基金资助项目(４１７０６１９８)作者简介:李杰(１９９４),男,硕士研究生,主要研究方向为数据挖掘与分析.通信作者:孙仁诚(１９７７),男,副教授,博士,主要研究方向为数据挖掘及人工智能.E m a i l :qd s u n s t a r ＠１６３．c o m ㊀㊀幂律分布[１]广泛存在于计算机科学㊁人口统计学与社会科学㊁物理学㊁经济学与金融学等众多领域中,且形式多样.实验证明,在自然界与日常生活中,包括地震规模大小的分布㊁月球表面上月坑直径的分布㊁行星间碎片大小的分布㊁太阳耀斑强度的分布㊁计算机文件大小的分布㊁战争规模的分布㊁人类语言中单词频率的分布㊁大多数国家姓氏的分布㊁科学家撰写的论文数的分布㊁论文被引用的次数的分布㊁网页被点击次数的分布[２]㊁书籍及唱片的销售册数或张数的分布㊁电力数据的分布[３]㊁甚至电影所获得的奥斯卡奖项数的分布等都是典型的幂律分布.但这一结果存在巨大缺陷,曾经被认为满足幂律分布的某些数据,只有在一定的条件范围内才是幂律,而在整体大量的数据集上是不纯的[４].２０世纪中期,对于幂律分布的研究,一些研究者[５６]分别在语言学和经济学的领域提出了著名的８０/２０定律.这一定律的基本形式即为简单的幂函数,是幂律分布的４种形式之一,其他形式的幂律分布有名次规模分布㊁规模概率分布等.直到２１世纪初,A．L ．B a r a b a s i 等人[７８]提出了无标度理论,从复杂网络的角度探究了幂律分布的性质,即无标度网络的度分布就是幂律分布,为复杂网络的发展奠定了理论基础;C ．A a r o n 等人[４]对幂律分布的判断标准进行了详尽的理论证明,推翻了前人通过双对数坐标系下是否构成一条近似直线判断幂律分布的方法,并证明了双对数坐标系下近似直线是幂律分布的必要条件.关于中英文词频分布的研究[９１１]一直是自然语言处理的重点.国内中文分词的算法主要集中在词典与统计相结合[１２]的方式,但精度有待提升.２０１７年,麻省理工学院的S u n J u n y i 团队历时４年,完善了新的词频统计算法,与传统的基于统计的词频算法[１３]不同,新的算法是基于前缀词典来实现词图扫描,构造有向无环图(d i r e c t e d a c y c l i c g r a p h ,D A G ),利用动态规划算法查找词频最大切合组,同时结合隐马尔可夫模型(h i d d e nm a r k o vm o d e l ,HMM )模型操作未登录词,大大提高了分词精度和分词效率.基于此,本文在最新词频统计算法基础上,构造私有的前缀词典及D A G ,同时采用最新的幂律分布研究方式,对中英文两种语言进行研究,完善了之前研究者们[１４１６]在词频统计精度及幂律分布判断方式上的不足之处,并进行了可视化的幂律拟合.该研究推动了人们对自然语言发展的认识.青岛大学学报(工程技术版)第３５卷１㊀幂律分布的研究１．１㊀双对数坐标系下幂律分布的判断２０世纪末,人们对幂律分布的研究是基于双对数坐标系下,数据分布的图像是否为一条近似的直线来判断.幂律分布特征及其在双对数坐标系下的拟合如图１所示.图１㊀幂律分布特征及其在双对数坐标系下的拟合㊀㊀其形式化的表达为:y ＝c x －r ,其中x ,y 表示正的随机变量;c ,r 为常数且均大于零.这种分布特征只有少数事件的规模比较大,而绝大多数事件的规模较小.对y －c x －r 两边取对数,可知l n y 与l n x 满足l n y ＝l n c －r l n x ,这是一种线性关系,即在双对数坐标系下,幂律分布可以通过一条斜率为负的幂指数的直线进行拟合,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据.判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得l n y 对l n x 的线性回归方程,从而得到y 与x 之间的幂律关系式[１,４].对于在双对数坐标系下,线性关系判断数据是否满足幂律分布的说法不正确,因为双对数坐标系下的线性关系是数据满足幂律分布的必要条件,而不是充分条件.１．２㊀幂律分布的判断２００７年,A a r o n c h a u s e t 等人[４]提出了判断幂律分布的一系列方法,其思想是将最大似然拟合方法与基于K o l m o g o r o v ＧS m i r n o v (K S )统计以及似然比的拟合优度检验相结合,判断观测数据是否满足幂律分布,过程主要分为以下几部分:１)㊀估计幂律模型的参数x m i n 和α.２)㊀计算数据与幂律之间的拟合优度,如果得到的p v a l u e 值大于０１,则幂律分布是观测数据的似然假设,否则拒绝该假设.３)㊀通过似然比检验,将幂律与其他假设进行比较.对于每个备选方案,如果计算的似然比与零显著不同,则其符号表示该备选方案是否优于幂律模型.２㊀词频统计与幂律分布拟合关于自然语言中词汇的分布特征,早在２０世纪中叶就有研究者进行过大量研究,直至２０世纪末,有学者(幂律分布研究简史)通过双对数坐标系下图像近似一条直线的拟合方式,说明数据满足幂律分布,这种方式显然缺乏说服力.本文基于文献[４]提出的方法,首先基于词频统计算法对文本进行统计,然后结合最大似然拟合方法[１７]与基于K o l m o g o r o v ＧS m i r n o v (K S )统计[１８]以及似然比[１９]的拟合优度检验方式,对自然语言进行幂律分布的拟合.关于数据的选择,本文选取了经典文学作品«飘»的中英文对照版本,分别对英文和中文进行词频统计,并拟合幂律分布.２㊀第１期㊀㊀李㊀杰,等:基于词频统计算法的中英文词频分布研究２．１㊀词频统计算法词频统计算法流程图如图２所示,词频统计算法整体分为３个部分,每个部分又可分为多个步骤,其描述如下:图２㊀词频统计算法流程图㊀㊀１)㊀基于T r i e 树结构实现高效的词图扫描,构造出有向无环图(D A G ),图中包括生成句子中汉字所有可能的成词情况.根据d i c t ．t x t 生成t r i e 树,字典在生成t r i e 树的同时,也把每个词的出现次数转换为频率;对需要进行分词的句子,根据已经生成的t r i e 树,生成有向无环图(D A G ),简言之,就是将句子根据给定的词典进行查寻操作,生成多种可能的句子切分.２)㊀用动态规划算法查找最大概率路径,找到基于词频的最大切分组合.查找待分词句子中已经切分好的词语,即查找该词语出现的频率,如果查不到该词,就把该词的频率赋值为词典中出现频率最小的那个词语的频率;根据动态规划算法查找最大概率路径,即对句子从后往前反向计算最大概率,P (N o d e N )＝１０,P (N o d e N －１)＝P (N o d e N )∗M a x (P (最后一个词)) 依次类推,得到最大概率路径,从而得到最大概率的切分组合.３)㊀对于词典中未录入的词,采用基于汉字成词能力的HMM 模型,同时使用v i t e r b i 算法.中文词汇按照B E M S 四个状态标记,B 代表b e g i n ,即开始位置,E 代表e n d ,即结束位置,M 代表m i d d l e ,表示中间位置,S 代表s i n g gl e ,是单独成词的位置,如山东可表示为B E ,即山/B ,是开始位置,东/E ,是结束位置;对语料库进行初步训练,得到３个概率表,并结合v i t e r b i 算法,可以得到一个概率最大的B E M S 序列,按照B 开始,E 结尾的方式,对分词的句子重新组合,就能得到最终的分词结果[１４].对«飘»的中英文对照版词频进行统表１㊀«飘»的前５个高频词汇英文单词词频英文词语词频t h e １６１１９他们２６３１a n d １３０３７思嘉２４５８t o ９１３４没有２０２１o f７７７２一个１８５１h e r７３１８自己１６３９计,«飘»的前５个高频词汇如表１所示.由表１可以看出,中英文在表达同义内容时,所使用词汇差别巨大,并未出现高频词汇一致性的现象,这与语言的特点有关.同时,英文的代词和介词在使用率上远高于其他词汇,而中文则不同,除代词外,量词在文章中也高频出现.虽然有诸多的差别,但在分布情况上仍需进一步验证.２．２㊀幂律分布拟合本文通过将最大似然拟合方法与基于K o l m o g o r o v ＧS m i r n o v (K S )统计以及似然比的拟合优度检验相结合的方式,对自然语言进行了幂律分布拟合.中英文词频在双对３青岛大学学报(工程技术版)第３５卷数坐标系下的幂律拟合如图３所示.图３中,英文词频x m i n ＝４０,α＝１８９;中文词频x m i n ＝３８,α＝２１.图３㊀中英文词频在双对数坐标系下的幂律拟合㊀㊀由图３可以看出,在双对数坐标系下,中英文的词频分布均呈现一条近似的直线,说明存在幂律分布的可能性,但需要验证p Ｇv a l u e 是否大于０１,如果大于０１,就要进一步排除其他分布是否比幂律分布拟合效果更好,否则,可以直接判断不满足幂律分布.似然比的拟合优度L R 值和p Ｇv a l u e (p )值如表２所示.表２㊀似然比的拟合优度L R 值和p Ｇv a l u e (p)值㊀㊀由表２可以看出,对观测数据进行幂律分布的拟合,得出的p Ｇv a l u e 分别为０１４和０１９,均大于０１,且泊松分布,指数分布,广延指数分布的p Ｇv a l u e 值都为０,即满足其他分布的假设可直接排除,因此对观测数据拟合效果最好的是幂律分布.３㊀结束语本文通过对中英文词频的统计分析,证明了自然语言中的词汇在日常生活中的使用频率是服从幂律分布的,即部分词汇会被大量使用,大部分词汇的使用频率较低,符合动力学中的省力原则,人们更倾向于用更少词汇的不同组合来表达不同的意思,对认识语言的发展过程具有重要意义.这一结论不仅仅出现在本文所研究的文献中,对于其他文献同样适用.文中词频统计算法和最大似然拟合方法㊁ K S 统计以及似然比的拟合优度检验方法的结合,使本结论的精确度更高,进一步补充了前人对于词频分布的研究与应用.在接下来的工作中,可以将重点放在对其他语言的研究上,在幂律分布的基础之上,探究是否有更加精确的拟合方式,进一步推动人们对于自然语言发展的认识.参考文献:[１]㊀胡海波,王林．幂律分布研究简史[J ]．物理,２００５,３４(１２):８８９８９６．[２]㊀A d a m i cL A ,H u b e r m a nBA ,B a r a b ás i AL ,e t a l ．P o w e r Ｇl a wd i s t r i b u t i o n o f t h ew o r l dw i d ew e b [J ]．S c i e n c e ,２０００,２８７(５４６１):２１１５a ．[３]㊀王冠男,邓春宇,赵悦,等．电力数据中的幂律分布特性[J ]．电信科学,２０１３,２９(１１):１０９１１４,１２１．[４]㊀A a r o nC ,C o s m aRS ,N e w m a n M EJ ．P o w e r Ｇl a wd i s t r i b u t i o n s i ne m pi r i c a l d a t a [J ]．S i a m R e v i e w ,２００９,０７０６(１０６２):６６１７０３．４㊀第１期㊀㊀李㊀杰,等:基于词频统计算法的中英文词频分布研究５[５]㊀严怡民．情报学概论[M]．武汉:武汉大学出版社,１９９４．[６]㊀A r n o l dBC．P a r e t oD i s t r i b u t i o n[M]ʊE n c y c l o p e d i ao fS t a t i s t i c a lS c i e n c e s．U n i t e dS t a t e s:J o h n W i l e y&S o n s,I n c．,２００６．[７]㊀B a r a b a s iAL,A l b e r tR．E m e r g e n c e o f s c a l i n g i n r a n d o mn e t w o r k s[J]．S c i e n c e,１９９９,２８６(５４３９):５０９５１４．[８]㊀B a r a b a s iAL,B o n a b e a uE．S c a l eＧf r e en e t w o r k s[J]．S c i e n t i f i cA m e r i c a n,２００３,２８８(５):６０．[９]㊀张丹．中文分词算法综述[J]．黑龙江科技信息,２０１２(８):２０６．[１０]㊀张华平,刘群．基于N最短路径方法的中文词语粗分模型[J]．中文信息学报,２００２,１６(５):１７．[１１]㊀费洪晓,康松林,朱小娟,等．基于词频统计的中文分词的研究[J]．计算机工程与应用,２００５,４１(７):６７６８,１００．[１２]㊀秦赞．中文分词算法的研究与实现[D]．长春:吉林大学,２０１６．[１３]㊀祝永志,荆静．基于P y t h o n语言的中文分词技术的研究[J]．通信技术,２０１９,５２(７):１６１２１６１９．[１４]㊀G o l d s t e i nM L,M o r r i s SA,Y e nGG．F i t t i n g t o t h e p o w e rＧl a wd i s t r i b u t i o n[J]．T h eE u r o p e a nP h y s i c a l J o u r n a l BＧC o nＧd e n s e d M a t t e r a n dC o m p l e xS y s t e m s,２００４,４１(２):２００４．[１５]㊀F e r n h o l zRT．N o n p a r a m e t r i cm e t h o d s a n d l o c aＧt i m eＧb a s e de s t i m a t i o n f o r d y n a m i c p o w e r l a wd i s t r i b u t i o n s[J]．J o u r n a l o fA p p l i e dE c o n o m e t r i c s,２０１６,３２(７):１２４４１２６０．[１６]㊀M o n t e b r u n oP,B e n n e t tRJ,v a nL i e s h o u t C,e t a l．At a l e o f t w o t a i l s:D o p o w e r l a wa n d l o g n o r m a lm o d e l s f i t f i r mＧs i z ed i s t r i b u t i o n s i n t h em i dＧv i c t o r i a ne r a[J]．P h y s i c aA:S t a t i s t i c a lM e c h a n i c s a n d i t sA p p l i c a t i o n s,２０１９,５２３:８５８８７５．[１７]㊀胡德,郭刚正．最小二乘法㊁矩法和最大似然法的应用比较[J]．统计与决策,２０１５(９):２０２４．[１８]㊀L i l l i e f o r sH W．O n t h ek o l m o g o r o vＧs m i r n o v t e s t f o r n o r m a l i t y w i t hm e a na n dv a r i a n c eu n k n o w n[J]．J o u r n a l o f t h eAＧm e r i c a nS t a t i s t i c a lA s s o c i a t i o n,１９６７,６２(３１８):３９９４０２．[１９]㊀成平．极大似然估计与似然比检验的几点注记[J]．应用概率统计,２００３,１９(１):５５５９．R e s e a r c ho nC h i n e s e a n dE n g l i s h W o r dF r e q u e n c y D i s t r i b u t i o nB a s e d o n W o r dF r e q u e n c y S t a t i s t i c sA l g o r i t h mL I J i e,S U N R e n c h e n g(C o l l e g e o fC o m p u t e r S c i e n c e&T e c h n o l o g y,Q i n g d a oU n i v e r s i t y,Q i n g d a o２６６０７１,C h i n a)A b s t r a c t:A i m i n g a t t h e p r o b l e m s e x i s t i n g i n t h e p o w e r l a w j u d g m e n tm e t h o d,t h i s p a p e r s t u d i e s t h e f r eＧq u e n c y d i s t r i b u t i o no fC h i n e s ea n dE n g l i s hw o r d sb a s e do nt h e p r e v i o u s r e s e a r c ho n p o w e r l a wd i s t r i b uＧt i o n,c o m b i n e dw i t h t h em a x i m u ml i k e l i h o o d f i t t i n g m e t h o da n dw o r d f r e q u e n c y s t a t i s t i c s a l g o r i t h m．T h e j u d g m e n t o f p o w e r l a w d i s t r i b u t i o n i nd o u b l e l o g a r i t h m i cc o o r d i n a t es y s t e mi s g i v e n,a n dt h ew o r df r eＧq u e n c y s t a t i s t i c s a n d p o w e r l a wd i s t r i b u t i o n a r e f i t t e d．T h e r e s u l t s s h o wt h a t i n t h e d o u b l e l o g a r i t h m i c c oＧo r d i n a t e s y s t e m,t h e d i s t r i b u t i o n i m a g e b e i n g a n a p p r o x i m a t e s t r a i g h t l i n e i s a n e c e s s a r y c o n d i t i o n f o r j u dＧg i n g t h e p o w e r l a wd i s t r i b u t i o n,b u t n o t a s u f f i c i e n t c o n d i t i o n．O n t h ew o r d f r e q u e n c y s t a t i s t i c a l d i s t r i b uＧt i o nm o d e l o f n a t u r a l l a n g u a g e,t h e p o w e r l a wd i s t r i b u t i o no f t h e o b s e r v a t i o nd a t a i s p r o p o s e d．T h e pＧv a lＧu e s o b t a i n e d a r e０．１４a n d０．１９,r e s p e c t i v e l y,b o t h g r e a t e r t h a n０．１,a n d t h e pＧv a l u e s o f t h eP o i s s o nd i s t r iＧb u t i o n,t h e e x p o n e n t i a l d i s t r i b u t i o n,a n d t h e e x t e n s i v e e x p o n e n t i a l d i s t r i b u t i o na r e a l l０,t h a t i s,t h e a sＧs u m p t i o n s s a t i s f y i n g o t h e rd i s t r i b u t i o n s c a nb ed i r e c t l y e x c l u d e d．T h eb e s t f i t f o r t h eo b s e r v a t i o nd a t a i s t h e p o w e r l a wd i s t r i b u t i o n．I t s h o w s t h a t t h ew o r d f r e q u e n c y d i s t r i b u t i o no f n a t u r a l l a n g u a g e s a t i s f i e s t h e p o w e r l a w,a n db o t hC h i n e s e a n dE n g l i s h a r e a p p l i c a b l e．T h i s r e s e a r c h i s o f g r e a t s i g n i f i c a n c e f o r p e o p l e t o u n d e r s t a n d t h e d e v e l o p m e n t p r o c e s s o f l a n g u a g e．K e y w o r d s:w o r d f r e q u e n c y s t a t i s t i c s;p o w e r l a wd i s t r i b u t i o n;m a x i m u ml i k e l i h o o d e s t i m a t i o n;K S s t a t i sＧt i c s。

Python教学中实用型词频统计案例展示

第来自12 期专题策划21
2 大学英语四、六级考试高频词分析
我们对大学英语四、六级历年考试真题进行分析，从中挖掘出常考词。这一案例对学生吸引力非常大，且案例运行结果实用性强，能辅助学生进行复习，提高考试成绩。
该案例是一项综合性案例，展示了 Python 多个知识点的运用，包括：首先利用 Reqests 和 Beatifulsoup 两个 Python 第三方库爬取相关网页获得英语考试历年考题以及四、六级词汇表；然后对试题文本进行规范化处理，得到其中的四级或六级单词，并进行词频统计；最后把词频统计结果保存为 CSV 文件，并利用 Matplotlib 库对高频词及每年出现次数进行直观显示。下面以英语六级考试为例，详细介绍该案例的具体实现过程及结果。 2.1 历年试题及词汇表的获取
摘要：针对目前程序设计课程中的教学案例实用性差的问题，分析大学生在学习和生活中遇到的实际问题以及当前的热点问题，依托 Python 强大的计算生态环境，提出“Python 实用型案例教学”的观点，并具体针对词频统计问题，给出了大学英语四、六级考试高频词求解和可视化展示案例以及古诗字频统计及可视化展示案例，最终达到提高学生程序设计学习兴趣和解决实际问题能力的目的。关键词：Python 程序设计；实用性；案例教学；词频统计；计算生态
而另一方面，Python 有强大的计算生态环境，
全球有超过十万个第三方库，几乎覆盖所有技术领域 [5]。依托这样的生态圈，国内高校中从事 Python 教学的老师可以便捷高效地创建出新的教学案例。什么样的教学案例能引起学生的共鸣，这是一个值得思考的问题。针对上述国内 Python 教学案例中的问题，依托 Python 强大的计算生态环境，我们提出了 Python 实用型案例教学方法。一是通过分析大学生在学习和生活中遇到的实际问题，构建相应的教学案例；二是针对热点问题、热点资讯构造教学案例。这些案例不仅能让学生感知 Python 计算生态圈的功能之强大和多样，更能增强学生程序设计学习兴趣，激发学生自主学习和运用 Python 计算生态，最终提高实际解决问题的能力。

英语词频统计表

376 low
416 several
377 cost
417 return
378 little
418 build
379 matter
419 spend
380 community 420 force
381 remain
421 condition
382 figure
422 itself
383 type
423 paper
72 your
112 down
73 me
113 yeah
74 no
114 so
75 other
115 thing
76 gihrough
78 should
118 back
79 these
119 still
80 people
120 must
序号单词 121 child 122 here 123 over 124 too 125 put 126 own 127 on 128 no 129 work 130 become 131 more 132 old 133 government 134 mean 135 part 136 leave 137 life 138 great 139 where 140 case 141 woman 142 over 143 seem 144 same 145 us 146 work 147 need 148 feel 149 system 150 each 151 might 152 may 153 much 154 ask 155 group 156 number 157 yes 158 however 159 another 160 again
序号单词 1 the 2 be 3 of 4 and 5a 6 in 7 to 8 have 9 it 10 to 11 for 12 i 13 that 14 you 15 he 16 on 17 with 18 do 19 at 20 by 21 not 22 this 23 but 24 from 25 they 26 his 27 that 28 she 29 or 30 which 31 as 32 we 33 an 34 say 35 will 36 would 37 can 38 if 39 their 40 go

语料库常用统计方法

语料库常用统计方法在当今信息爆炸的时代，语料库作为一种大规模的语言数据集，对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。

而要从海量的语料中提取有价值的信息，就需要运用各种统计方法。

接下来，让我们一起深入了解一些语料库常用的统计方法。

一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。

简单来说，就是计算某个词在语料库中出现的次数。

通过词频统计，我们可以了解到哪些词在特定的语料中使用最为频繁，哪些词相对较少出现。

例如，在一个关于科技新闻的语料库中，“人工智能”“大数据”等词可能会有较高的词频，而在一个文学作品的语料库中，“情感”“风景”等词可能更常见。

词频统计不仅能帮助我们快速把握语料的主题和重点，还能为词汇的重要性排序提供依据。

为了进行词频统计，首先需要对语料进行预处理，包括分词、去除标点符号和停用词（如“的”“了”“啊”等常见但对语义影响不大的词）。

然后，通过编程语言（如 Python）中的相关库（如 collections 库）或者专门的语料库分析工具（如 AntConc），可以轻松实现词频的计算和排序。

二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。

常见的词汇多样性统计方法包括类符/形符比（TypeToken Ratio，简称 TTR）和标准化类符/形符比（Standardized TypeToken Ratio）。

类符指的是语料库中不同的单词，形符则是单词出现的总次数。

TTR 就是类符数量除以形符数量。

例如，一个包含100 个单词的文本，其中不同的单词有 50 个，那么 TTR 就是 05。

然而，TTR 会受到文本长度的影响，文本越长，TTR 往往越低。

为了克服这一问题，标准化类符/形符比通过对文本进行分段计算 TTR，然后取平均值来得到更稳定和可靠的结果。

词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。

一般来说，文学作品的词汇多样性往往高于科技文献，而高水平的作者通常能够在作品中展现出更高的词汇多样性。

基于语音交互的智能舰船模拟器语言模型设计

64 C W T 中国水运 2021·03摘　要：语言模型是语音识别技术中的一个重要模块，研究语音识别技术并将其作为新的交互方式引入舰船模拟器中，将在一定程度上提高其自动化程度。

本文分析了语言模型的建模技术，搭建了舰船领域的专用语料库；采用N-Gram 语言模型建模方法建立语言模型；最后，采用困惑度评价和语音识别实验对语言模型性能进行评估，为舰船模拟器适应智能无人船的发展需求奠定了研究基础。

关键词：语言模型；语音识别；舰船模拟器；语料库中图分类号：U675.79 文献标识码：A 文章编号：1006—7973（2021）03-0064-04基于语音交互的智能舰船模拟器语言模型设计符斌，王宇星，丛龙腾，张振（中国船舶工业系统工程研究院，北京 100094）DOI 编码：10.13646/ki.42-1395/u.2021.03.021随着人工智能的发展热潮，语音识别技术在识别性能上有很大的提升[1]，作为自然的交互方式融入到日常产品应用中，传统的交互方式应时而变，革命性的交互方式不断涌现出来，从鼠标键盘到触控、手势、语音、眼控等。

例如语音输入法、车载语音控制、能听懂人说话的智能家居等[2-4]。

在电子技术发展智能化的时代中，航海智能化成为一种技术发展趋势[5]。

近年来，在智能化无人驾驶船舶成为航海领域研究热点的背景下，越来越多的人工智能技术将会成为船舶智能化发展的新需求，其中包括语音识别技术、图像识别技术、无人驾驶技术等。

舰船模拟器作为我国航海教育培训的重要工具，从研发初始至今仍采用传统的鼠标键盘进行交互，操作较为繁琐，影响了用户便捷的使用。

同时，在智能无人驾驶船舶发展的初步阶段，舰船模拟器将会作为重要的方案论证工具进行建造技术分析和建设方案论证实验。

将语音识别应用于舰船模拟器中，为模拟器寻求更智能的人机交互方式，以满足智能无人驾驶船舶的高度自动化集控系统的需求。

例如在驾驶员给模拟器控制台下操纵命令时，首先通过语音识别技术识别出当前命令，然后识别出来的命令计算机进行复述，如果正确并经驾驶员确认后，控制台设备自动进行相应的操作，用户不再需要复杂的设备，通过声音操作模拟器即可方便使用，这对于航海智能化发展有一定的促进意义[6]。

语料库——精选推荐

语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。

计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。

后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpus linguistics），并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来，机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。

因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub-language）中获得一定的成功。

为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。

一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。

欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。

mapreduce词频统计案例

mapreduce词频统计案例咱来唠唠这个MapReduce词频统计的事儿哈。

想象一下，你有一大堆书，每本书就是一个文本文件，里面装满了各种各样的单词。

现在你想知道每个单词在这些书里总共出现了多少次，这可咋整呢？这时候MapReduce就闪亮登场啦。

一、Map阶段。

1. 就好比你找了一群小助手（Map任务），每个小助手负责一本书。

小助手拿到书后就开始逐字查看。

比如说，这个小助手看到一个单词“apple”，他就会在自己的小本子上记一笔：“apple，1”，意思就是他看到“apple”这个单词出现了1次。

要是再看到一个“apple”，就再记一笔，变成“apple，2”。

就这样，这个小助手把整本书里的每个单词出现的次数都这么记下来。

2. 对于不同的小助手，他们都各自负责自己那本书，都在做着同样的事情，把每个单词的出现次数统计好。

这就像是每个小助手都在自己的小世界（自己负责的那本书）里把单词和对应的出现次数整理得清清楚楚。

二、Shuffle阶段。

三、Reduce阶段。

1. 这时候又有新的助手（Reduce任务）出现啦。

他们专门负责把那些相同单词的出现次数加起来。

比如说对于“apple”这个单词，前面好几个小助手统计出来的结果可能是“apple，1”“apple，3”“apple，2”之类的，这个Reduce助手就会把这些数字加起来，得到“apple，6”，这就表示在所有的书里，“apple”这个单词总共出现了6次。

2. 这个Reduce助手会对每个单词都这么干，把相同单词的出现次数全部加起来，最后就得到了每个单词在所有这些书里的出现频率啦。

这样，我们就知道哪个单词出现得多，哪个单词出现得少，就像知道哪类水果在这个“书的果园”里最常见一样。

最后呢，我们就得到了一个超级清晰的结果，就像一个单词排行榜，每个单词旁边都写着它出现的次数，一目了然，这就是MapReduce词频统计的神奇之处啦。

国内主题词表研究的热点与趋势：基于词频统计与知识图谱方法

国内主题词表研究的热点与趋势：基于词频统计与知识图谱方法作者：余丰民来源：《档案管理》2012年第06期摘要：通过1980年～2003年和2004年～2011年两个时间段的词频统计与可视化知识图谱等方法的比较分析与研究，展现了国内主题词表研究领域的热点和趋势，认为：国内对主题词表的研究内容在时间上有明显的分界线、研究趋势展现了知识组织的演化过程、主题词表基于语义描述语言的本体转换是目前学界研究的热点和未来研究的趋势。

关键词：主题词表；词频统计；知识图谱；研究热点；研究趋势Abstract：Based on word frequency statistics and visualization of knowledge mapping and other methods of comparative analysis and research in two periods of 1980—2003 and 2004—2011， the article shows the areas of research focus and trends of Thesaurus in China. That is： there is a clear dividing line in two periods， and trends show that the evolution process of knowledge organization system， Thesaurus based on semantic description language ontology conversion is currently a focus of academic research and future research trends.Keywords：Thesaurus； Word Frequency Statistics；Knowledge Mapping；Research Focus；Research Trends1 引言主题词表（叙词表）是一种情报检索语言，它在早期情报检索和知识组织中发挥着非常重要的作用。

11.5 应用实例(词频统计)

应用：文件中单词词频统计
பைடு நூலகம்
应用：文件中单词词频统计
[例] 给定一个英文文本文件，统计文件中所有单词出现的频率，并输出词频最大的前10%的单词及其词频。假设单词字符定义为大小写字母、数字和下划线，其它字符均认为是单词分隔符，不予考虑。【分析】关键：对新读入的单词在已有单词表中查找，如果已经存在，则将该单词的词频加1，如果不存在，则插入该单词并记词频为1。如何设计该单词表的数据结构才可以进行快速地查找和插入？
散列表！
int main() { int TableSize = 10000； /* 散列表的估计大小 */ int wordcount = 0, length; HashTable H; ElementType word; FILE *fp; char document[30]= "HarryPotter.txt“; /* 要被统计词频的文件名 */ H = InitializeTable( TableSize ); /* 建立散列表 */ if(( fp = fopen(document, “r” ))==NULL) FatalError(“无法打开文件!\n” ); while( !feof( fp ) ){ length = GetAWord( fp, word ); /* 从文件中读取一个单词 */ if(length > 3){ /* 只考虑适当长度的单词 */ wordcount++; /*统计文件中单词总数 */ (1) 统计最大词频； InsertAndCount( word, H ); (2)用一组数统计从1到最大词频 } 的单词数； (3)计算前10%的词频应该是多少 } (4)输出前10%词频的单词 fclose( fp ); printf("该文档共出现 %d 个有效单词，", wordcount); Show( H ，10.0/100 ); /* 显示词频前10%的所有单词 */ DestroyTable( H ); /* 销毁散列表 */ return 0; }

专业学术英语词汇表编制及其在EAP教学中的应用

词汇习得一直以来被看作是语言学习中的一个关键
文章编号：０７—７１（０ｔ０一１０— ３１０１１２１）ｌ０００ＧＬ已被广泛视为英语学习者，别是英语初学者应率先Ｓ特掌握的词汇。在此基础上，中高级英语学习者，特别是将英语用于学术用途的学习者，将注意力转移到学术英语应
Ｃｘｅｄ＆Ｎｔｎ２０）ｏｈａａｏ（０１将英语词汇划分为四类，ｉ即高频词汇、学术词汇、业词汇和低频词汇Ｊ专。高频词汇涵术语篇９％以上的词汇。除此以外，０学术语篇还包括大约５的专业词汇，％以及其它５出现频率更低的英语词汇。％
１０
科专业学术英语词汇研究。在Ｈｌｄ＆Ｔｅ２０）ｙａｎｓ（０７进行的学科间学术英语词汇的语篇覆盖率对比研究中，ＷＬ学术Ａ
料，还可将各部分分别进行保存，以对比在不同语步写作
中学术英语词汇的使用情况。Ｊ ¨ 。与此同时，还应剔除图
摘要：以基于词频的英语词；分类方法和Ｃｘｅｄ学术英语词汇表（ＷＬ）ｒ－ｏｈａＡ的开发经验为基础，讨了运用语料探
库分析软件编制专业学术英语词汇表（Ａ）ＳＷＬ的主要方法，包括专业语料库的创建、词频统计及词表的生成与分析。专业学术英语词汇表对于外语教师掌握学习者的专业学术英语词；量、估学术用途英语教学内容的词汇ｒ评－负荷量、进行专业学术英语的体裁教学均具有较强的实用性和使用价值。关键词：学术英语词ｊ；料库；ｒ语－学术用途英语中图分类号：３９３Ｈ１．文献标识码：Ａ

法律案例词频分析(3篇)

第1篇摘要：随着法律信息化的发展，法律案例成为法律研究和司法实践的重要资源。

通过对法律案例进行词频分析，可以揭示案例中的关键信息、法律术语的分布规律以及法律关系的演变趋势。

本文以某地区法院审理的1000份民事案件为样本，运用词频分析方法，对案例中的关键词、法律术语进行统计和分析，以期为法律研究和司法实践提供参考。

一、引言法律案例是司法实践的重要组成部分，通过对案例的深入研究，可以总结出法律规则、法律原则以及法律关系的演变趋势。

随着信息技术的发展，法律案例的收集、整理和分析变得更加便捷。

词频分析作为一种常用的文本分析方法，可以揭示文本中的关键信息、重要概念以及语言特点。

本文通过对法律案例进行词频分析，旨在揭示民事案件中关键词、法律术语的分布规律，为法律研究和司法实践提供参考。

二、研究方法1. 数据来源本文以某地区法院审理的1000份民事案件为样本，数据来源于中国裁判文书网。

2. 数据处理（1）数据清洗：对案例文本进行预处理，包括去除标点符号、停用词、数字等非关键词，以及将法律术语规范化。

（2）词频统计：使用Python编程语言，对处理后的文本进行词频统计，得到每个关键词的词频。

（3）关键词分析：根据词频，选取高频关键词进行分析，揭示民事案件中的关键信息。

三、结果与分析1. 关键词分析（1）高频关键词在1000份民事案件中，出现频率较高的关键词有“被告”、“原告”、“法院”、“判决”、“证据”、“责任”等。

这些关键词反映了民事案件的基本要素，如当事人、法律关系、诉讼过程等。

（2）法律术语分析通过对法律术语的词频统计，发现以下法律术语在民事案件中较为常见：- 合同法：合同、违约、履行、解除、损害赔偿等；- 民法通则：民事行为、民事责任、权利、义务、侵权等；- 侵权责任法：侵权、赔偿、因果关系、过错等；- 物权法：所有权、占有、使用权、收益权、处分权等。

2. 案例类型分析通过对民事案件类型的词频分析，可以发现以下类型较为常见：- 合同纠纷：合同、违约、履行、解除、损害赔偿等；- 侵权纠纷：侵权、赔偿、因果关系、过错等；- 亲属关系纠纷：婚姻、抚养、赡养、财产分割等；- 交通事故纠纷：交通事故、赔偿、责任等。

基于给定词语列表统计词频

基于给定词语列表统计词频基于给定词语列表并统计词频，统计结果输出到csv中。

有两种实现方法方法一：常规的统计给定关键词的词频思路：•第一步，整理好待查询query_words•第二步，新建一个csv文件，并且将query_words以列名写入csv中•第三步，对文本分词，得到词语列表wordlist•第四步，对每一个query_words中的词语计算其在wordlist中的个数•第五步，写入csv中。

import jiebaimport csv#待统计词频的文本数据texts = ['北京上海广州深圳都是一线城市，而成都是西部中心城市。

青岛位于山东，是山东的经济中心。

','在上海，出租车司机都会问你，你是干哪行的，什么工作，多挣钱？','两个城市都是人口超大城市，但去年北京人口下降了2.2万人，有人分析可能和疏散低端产业有关。

','分析产业结构，就能发现两个城市之间的差异。

但一个地方的财政收入不仅包括一般公共预算收入，']#统计这些词在texts中每条文本中的词频query_words = ['工作', '发展', '经济', '工作', '消费', '收入', '存款', '人口']#新建csv文件csvf = open('词频统计.csv', 'w', encoding='gbk', newline = '') writer = csv.writer(csvf)#列名写入csv中writer.writerow(('工作', '发展', '经济', '工作','消费', '收入', '存款', '人口'))for text in texts:#分词wordlist = jieba.lcut(text)line = []for queryword in query_words:#line收集词频结果line.append(wordlist.count(queryword))#将query_words词语列表中的词频写入csv中writer.writerow(tuple(line))#关闭csvfcsvf.close()我们查看运行结果import pandas as pddf = pd.read_csv('词频统计.csv', encoding='gbk')df.head()方法二、结合sklearn思路：•首先，让Countervector学会给定的关键词列表，从中学会特征词空间。

PYE6.6-实例10-文本词频统计v2.5

word, count = items[i] print("{0:<10}{1:>5}".format(word, count))
CC BY-NC-SA 4.0 嵩天
- 中文文本分词 - 使用字典表达词频 - 扩展程序解决问题
原创 @嵩天老师团队
举一反三
应用问题的扩展
- 《红楼梦》、《西游记》、《水浒传》… - 政府工作报告、科研论文、新闻报道 … - 进一步呢？未来还有词云…
小花絮
CC BY-NC-SA 4.0 嵩天
全国计算机等级考试二级 Python科目

全国计算机等级考试（简称NCRE）是教育部批准，由教育部考试中心主办，面向社会，用于考查应试人员计算机应用知识与技能的全国性计算机水平考
试体系。二级Python语言科目在 2018年9月首考，异常火爆，快去报名试试吧！
word, count = items[i] print("{0:<10}{1:>5}".format(word, count))
CC BY-NC-SA 4.0 嵩天
- 中文文本分词 - 使用字典表达词频 - 扩展程序解决问题
原创 @嵩天老师团队
>>> 曹操孔明刘备关羽张飞商议如何主公军士吕布
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15): word, count = items[i]
- 使用字典表达词频
print("{0:<10}{1:>5}".format(word, count))
>>> 曹操孔明将军却说玄德关公丞相二人不可荆州玄德曰孔明曰不能如此张飞

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第2页共36页
目录
目录退出
待统计文本文件
第3页共36页
目录
目录退出
本案例需一个词表文件,如图所示.
词表文件内容
第4页共36页
目录
目录退出
本案例最终统计出每个词在文本中出现的次数.运行
效果如图所示.
运行效果
第5页共36页
目录
目录退出
本案例最终统计出的结果保存在文件out.txt中.效果如
案例二十基于词表的词频统计
本案例知识要点链表的使用文件操作哈希表的使用快速排序法类的设计和使用
第1页共36页
目录
目录退出
一,案例需求
案例描述词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类.本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数. 案例效果图本案例需要一个待统计文本文件,如图所示.
第17页共36页
目录
目录退出
第18页共36页
目录
目录退出
第19页共36页
目录
目录退出
第20页共36页
目录
目录退出
第21页共36页
目录
目录退出
第22页共36页
目录
目录退出
第23页共36页
目录
目录退出
第24页共36页
目录
目录退出
第25页共36页
目录
目录退出
第35页共36页
目录
目录退出
第36页共36页
目录
目录退出
五,案例总结与提高
案例总结本案例类的设计并不复杂,但是要求读者除了具备C++基本知识和简单的数据结构知识以外,还要求读者掌握文件流, 哈希表,快速排序,算法设计,主函数接口等诸多知识点,否则案例理解起来比较困难.本案例用到的许多知识点在数据结构教材中都有很详细的讲述,读者可以查找相关书籍熟悉这些知识,对照程序来理解掌握这些知识,逐步提升程序设计水平.
图所示.
out.txt文件
第6页共36页
目录
目录退出
功能说明 (1)本案例需要一个文本和一个词表, 统计出每个词在文本中出现的次数.统计的原则包括以下两种: 交集型.例如"内存在涨价",需要统计"内存"和"存在"两个词各一次(假设这两个词都在词表中). 组合型.例如"中美关系在发展", 需要统计"中美","关系"和"中美关系"(假设这3个词都在词表中).
第11页共36页
目录
目录退出
第12页共36页
目录
目录退出
第13页共36页
目录
目录退出
第14页共36页
目录
目录退出
第15页共36页
目录
目录退出
第16页共36页
目录
目录退出
2.主程序设计在主函数中声明了一个 SYMBOLTABLE类的对象,依次调用哈希表类的构造函数,统计函数,输出函数即可.另外,为了记录程序的运行时间,包含了time头文件,调用 clock函数,能精确到毫秒.主程序有详细的注释,清晰易懂,流程图略.
第26页共36页
目录
目录退出
第27页共36页
目录
目录退出
第28页共36页
目录
目录退出
第29页共36页
目录
目录退出
第30页共36页
目录
目录退出
第31页共36页
目录
目录退出
第32页共共36页
目录
目录退出
第34页共36页
目录
目录退出
第10页共36页
目录
目录退出
三,案例设计
1.类的设计根据案例分析,需要设计出两个结构体 NODE和TABLE,同时还需要设计一个类 SYMBOLTABLE.其中,结构体NODE是哈希桶(哈希桶即哈希表中各个同地址值的元素构成的链表)中节点的数据结构, TABLE是哈希表的结构,SYMBOLTABLE 类提供了诸如哈希函数,查找词汇,遍历哈希表,将词汇插入哈希表中,快速排序等功能.
第9页共36页
目录
目录退出
(3)哈希函数(散列函数)的实现.用
char word[15]存储的词得到一个关键字, 然后除以某个素数,得到的余数为散列地址.由于数据较多,要高速完成搜索, 散列到每个相同地址的元素要尽量少, 因此素数要很大,关键字的范围也要很大而且不重叠. (4)按字符的字典序排序输出.哈希表是乱序存储的,因此可先遍历哈希表, 将所有词频大于0的词存入数组中,用快速排序法对这个数组中的元素进行排序.
第7页共36页
目录
目录退出
文本和词表的格式如下:
文本是一个长句,句中只包含汉字,不包含数字,标点,空格,回车以及其他任何特殊符号.文本规模小于或等于50 000汉字. 词表的规模小于或等于100 000个词,所有词不重复,词在2～7个汉字之间,每个词占一行. 实现基于词表的词频统计,从磁盘中读取词表和文本,将词频统计结果输出到磁盘中,输出结果要求按字典序排序,并计算出程序运行时间.
第37页共36页
目录
目录退出
案例提高可以考虑采用更高效,冲突更少的哈希函数(HashFun(const string &s)) 来完成本案例. 可以试着改用平衡树(AVL)作为数据结构.关于平衡树的相关知识可查阅数据结构教材.
第38页共36页
目录
目录退出
�
第8页共36页
目录
目录退出
二,案例分析
根据需要构造一个哈希表类,在类中实现如下操作: (1)建立哈希表,将词表在内存中存储起来,这个存储的过程就是类的构造函数.案例中的词表是数量较大的词组,词与词之间用空格隔开.因此可用文件流函数getline来实现.每次调用getline函数便得到一个存有词的字符串,然后将字符串按照某种散列函数插入到哈希表中,一直到词表全部存储为止. (2)统计词频.从词表中读取文本文件,存储在一个字符串中,因为每个汉字存储在两字节中,所以词在 4～14字节之间,用char word[15]即可表示一个词.考虑到词频统计的交集性和组合性原则,可将在文本字符串中的每个汉字与其后的汉字分别组成2～7个汉字的词,在词表中进行搜索,每被搜到一次,将统计次数加1.循环直到文本末尾.