齐普夫定理
问题的引入大数定律
2
解 因为 X 1 , X 2 ,, X n ,是相互独立的,
所以 X 1 , X 2 ,, X n ,也是相互独立的,
2 由 E ( X k ) 0, 得 E ( X k ) D( X k ) [ E ( X k )] 2 , 2 2
说明离散型随机变量有有限方差, 故满足契比雪夫定理的条件.
E ( X n ) na 2
1 1 1 0 (1 2 ) na 2 2 0, 2n 2 n 2n
2
2017/12/3
说明每一个随机变量都有数学期望, 检验是否具有有限方差?
( na )2 0 ( na )2 1 1 1 P 1 2 2n 2 n 2n 2 1 2 E( X n ) 2( na )2 2 a 2 , 2n Xn
定理三(伯努利大数定理)
伯努利
显然
nA X 1 X 2 X n ,
设 n A 是 n 次独立重复试验中事件 A 发生 的次数 , p 是事件 A 在每次试验中发生的概 率, 则对于任意正数 0, 有 n n lim P A p 1 或 lim P A p 0. n n n n
由契比雪夫不等式可得
1 P Xk 1 2 , n n k 1 在上式中令 n , 并注意到概率不能大于1, 则 1 n P X k 1. n k 1
n 2
(这个接近是概率意义下的接近) 即在定理条件下, n个随机变量的算术平均, 当n 无限增加时, 几乎变成一个常数.
0 na 1 1 P 1 2 2n 2 n 问是否满足契比雪夫定 理 ? 具有如下分布律: Xn na 1 2n 2
强极值原理 霍普夫
强极值原理霍普夫全文共四篇示例,供读者参考第一篇示例:霍普夫(Hopf)是一位20世纪伟大的数学家,他在数学领域做出了许多贡献,其中著名的强极值原理就是他的杰作之一。
强极值原理是指在微分几何中的一个基本定理,它揭示了曲面上的极值点的性质,为研究曲面的拓扑性质提供了重要的工具。
在数学分析中,极值原理是对函数的最大值和最小值的性质进行研究的一种方法。
在微分几何中,强极值原理是研究曲面上的极值点的性质与拓扑性质的关系。
强极值原理告诉我们,在曲面上局部极值点的附近,曲面的几何和拓扑性质是严格相关的。
具体来说,强极值原理告诉我们,如果一个曲面上的点是极小值点,那么在该点附近的任意曲线上,该点仍然是极小值点。
这意味着在极小值点处,曲率必须是非负的。
同样地,如果一个曲面上的点是极大值点,那么在该点附近的任意曲线上,该点仍然是极大值点。
这意味着在极大值点处,曲率必须是非正的。
霍普夫的强极值原理为微分几何领域的研究提供了重要的工具。
它不仅揭示了极值点的性质,而且还帮助我们理解曲面的整体拓扑性质。
强极值原理的应用范围非常广泛,它在地震学、气象学、生物学等领域都得到了广泛的应用。
第二篇示例:强极值原理,也称为霍普夫定理,是一个数学定理,它关于在随机独立同分布的情况下,极大值和极小值出现的概率。
霍普夫定理是概率论和数理统计中非常重要的定理,它可以帮助我们理解随机事件的规律性和规律性。
强极值原理最早由霍普夫(Emil Julius Gumbel)于1958年提出,在统计学和气象学领域得到了广泛的应用。
霍普夫定理有时也被称为极值定理或Gnedenko-Holshunov定理,是概率论中关于极大值和极小值分布的一个非常重要的结论。
霍普夫定理指出,在独立同分布的情况下,最大值和最小值的极限分布函数具有一定的特殊形式。
具体来说,若一个随机变量序列满足一定的条件,那么这个序列的最大值或最小值在适当归一化下会收敛到极值分布。
在实际应用中,强极值原理可以帮助我们预测自然界中一些罕见而重要的极端事件,比如自然灾害和金融市场的崩溃等。
三奇定理数学
三奇定理数学
三奇定理,代表着高等数学中的三个著名结果,分别是柯西-施
瓦茨定理、魏尔斯特拉斯逼近定理和泰勒展开定理。
柯西-施瓦茨定理,是指在复数空间下,对于两个可微函数f(z)
和g(z),它们在某个区域上连续可导,那么它们的乘积f(z)g(z)的导
函数也连续可导,并且满足(d/dz)(f(z)g(z)) = f'(z)g(z) +
f(z)g'(z)。
魏尔斯特拉斯逼近定理,是指对于任意一个在闭区间上连续的函
数f(x),存在一列多项式函数P_n(x),使得P_n(x)可以无限逼近
f(x)。
也就是说,对于给定的精度ε>0,存在一个多项式函数P_n(x),使得在闭区间上 |f(x) - P_n(x)| < ε。
泰勒展开定理,是指对于具有充分多次可导性质的函数f(x),在某个特定点x=a的附近,函数f(x)可以通过一个无穷的幂级数表示出来。
具体地说,如果f(x)在x=a处的某个邻域内具有n+1次连续可导
性质,那么f(x)在该邻域内可以表示为它的泰勒展开式:f(x) = f(a) + f'(a)(x-a) + f''(a)(x-a)^2/2! + ... + f^n(a)(x-a)^n/n!。
这三个定理在数学分析和实变函数理论中起着重要的作用,为研
究函数的性质和逼近提供了重要的工具和方法。
位序规模法则齐普夫定律
位序规模法则齐普夫定律位序规模法则(Zipf's Law)是由美国语言学家乔治·金德尔·齐普夫(George Kingsley Zipf)在20世纪30年代提出的,用于描述自然语言中词汇频率与位序之间的关系。
该定律认为,一个词的位序顺序与它出现的频率成反比。
齐普夫定律可以用一个简单的公式来表示:f=k/r其中,f代表词频,r代表位序,k为常数。
该公式表明,位序越低的词,出现的频率越高;位序越高的词,出现的频率越低。
多数情况下,这个定律是在大规模的语言文本中得出的。
它适用于几乎所有的自然语言,包括英语、法语、中文等。
齐普夫定律具有普遍性和稳定性,被广泛应用于语言学、信息论、经济学等领域。
齐普夫定律的背后有三个基本假设:1.词汇分布随机:根据齐普夫定律,词频和词的位序成反比的关系,意味着词汇的分布是随机的,而不是由任何特定的原因导致的。
这是齐普夫定律的一个基本假设,尽管它在现实世界中并不总是成立。
2.差异性:齐普夫定律的另一个假设是,词频和位序之间的关系是由词汇的不同性质引起的。
一些词出现频率高,而另一些词出现频率低。
这种差异性是文化、语言以及人类思维方式的反映。
3.统计稳定性:齐普夫定律还假设词频和位序之间的关系是稳定的。
也就是说,在不同的文本和语境中,这个关系保持相对不变。
关于齐普夫定律的解释有很多,但没有一个统一的理论可以完全解释它。
然而,有一些常见的解释被广泛接受。
一个常见的解释是“富者愈富”(The Rich Get Richer)的原则。
这个理论认为,词频高的词在使用过程中更容易被人们接触到和记住,因此它们的频率会变得更高,这与经济学中的富者愈富的概念相似。
齐普夫定律有许多实际应用。
其中一个重要的应用是在信息检索和引擎中。
根据齐普夫定律,用户更有可能和点击频率高的词,因此引擎会根据词频来排序结果。
此外,齐普夫定律在自然语言处理、文本挖掘和语音识别等领域也得到了广泛应用。
城市规模齐普夫定律
城市规模齐普夫定律1.引言1.1 概述城市规模齐普夫定律是经济地理学中一个重要的规律,它描述了城市人口规模与城市数量之间的关系。
该定律由美国经济学家乔治·齐普夫于1949年提出,他发现在一个国家或地区,城市的人口规模越大,城市的数量越少。
齐普夫定律的背后是一个有趣的现象,在大多数国家中,几个大城市拥有大部分人口,而小城镇的人口数量则相对较少。
这种城市规模不均衡的现象是齐普夫定律的基础。
在这篇长文中,我们将详细探讨城市规模齐普夫定律的概念和应用。
首先,我们将介绍城市规模齐普夫定律的基本原理和定义。
然后,我们将深入探讨该定律在城市规划、经济发展和区域规划等领域的应用。
借助具体案例,我们将阐述城市规模齐普夫定律如何影响城市的发展和人口分布。
在结论部分,我们将总结城市规模齐普夫定律的重要性,并展望该定律的未来研究方向。
我们将探讨城市规模不均衡背后的经济、社会和环境影响,以及如何通过合理规划和政策措施来解决这些问题。
通过本文的阐述,我们希望读者对城市规模齐普夫定律有更深入的了解,并能够将其应用于实际问题的解决和决策中。
城市是人类活动的中心,了解城市规模齐普夫定律对于实现城市的可持续发展和合理规划至关重要。
1.2 文章结构文章结构:本文主要通过以下几个部分来论述城市规模齐普夫定律的概念、应用、重要性以及未来研究方向。
首先,在引言部分(1.引言)中,我们将对整篇文章进行一个概述,介绍城市规模齐普夫定律的背景和基本概念,并简要说明文章的结构和目的。
接下来,在正文部分(2.正文),我们将详细介绍城市规模齐普夫定律的概念(2.1 城市规模齐普夫定律的概念)。
我们将解释这一定律的内涵和定义,并举例说明其在实际中的应用。
我们将阐述该定律对于城市发展和规划的重要性,以及如何利用该定律来预测城市的未来发展趋势。
然后,在正文部分继续(2.2 城市规模齐普夫定律的应用),我们将探讨城市规模齐普夫定律在不同领域中的应用。
第五章 齐普夫定律
二、主题词频分析
1、主题词的数量统计 、 具体应用: (1)判定核心期刊和情报源 判定核心期刊和情报源 对某主题词负载的文献数量按文献类型、 来源、作者、机构、时间等分类统计,从中 可以得到所需要的数据。 例见P152。
二、主题词频分析
1、主题词的数量统计 、 (2)由主流主题词判别核心知识 由主流主题词判别核心知识 在一个多学科的知识领域中,各学科的发 展并不平衡,可以发现一些主题词占据所有 主题词总数的一大部分,这些主题词可能就 是该知识领域目前状况下的研究热点,这些 知识对该知识领域的发展形成了前沿,代表 现阶段的主流思潮。 例见P154。
第三节 齐普夫定律的应用
一.文献自动标引 3.标引加权 . 对于单篇论文, 对于单篇论文,与标引同样的数据基础可以用来为 文献的各种专门检索词提供一个加权系统, 文献的各种专门检索词提供一个加权系统,给每一 个标引词分配一个与其在文献中发生频率直接相符 的权值。 的权值。 对于文献集合:如果有N篇文献 篇文献, 对于文献集合:如果有 篇文献,某一个检索词涉 及其中的n篇 那么给这个词以log(N/n)+1的权值, 的权值, 及其中的 篇,那么给这个词以 的权值 将取得较好的检索效果。 将取得较好的检索效果。
一.多参数词频分布规律
2.芒代尔布罗修正式 . 芒代尔布罗(美籍法国数学家):运用信息论和 概率论的方法来研究词的频率分布规律,重新解释 了齐普夫定律,并修正了定律的表达式。 词是由空格隔开的一些有一定顺序的字母序列, 句子是用词来编码的词的序列,文章是由句子的增 减过程而形成的句子的序列。 词的三参数频率分布规律,其形式为:P144。
一.多参数词频分布规律
1.朱斯的修正 . Joos(美国语言学家 )指出:在齐普夫公式中, 不仅C是一个参数,而且r的负指数也是一个 参数: 当词典收词多时,负指数的值会增大,即图 像中的a角会增大; 当词典收词小时,负指数值会减少,即图像 中的a角会变小。 朱斯修正式(P144)称为双参数词频分布律
郑州大学信息计量学期末考试整理答案
文献计量学:1、文献计量的三大规律的基本内容、发展状况、局限性和常见的应用1)、洛特卡经验规律:a、是揭示文献著者与数量关系的基本定律。
b、数字表达式为:f(x)=c/x的平方,x表示科学工作者发表的论文数量,f(x)表示发表x 篇论文的著者出现的频率。
上式也称倒数平方定律。
发表一篇论文的著者出现的频率为60%;发两篇论文的著者数量大约是发表一篇论文的著者数量的1/4;发表n篇论文的著者数量大约是发表一篇论文的著者数量的1/n的平方;C、在某一时间内,写了x篇论文的作者数占作者总数的百分比f(x)与其撰写的论文数x的平方成反比。
特点:1、科学论文在作者上集中与分散的分布现象2、采用频次排序的方法,即按某类作者出现的频次大小(实际发表论文数)的排位,而非按照作者所写的论文多少比较来对作者进行等级排序,因而等级上会有空位。
3、论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述。
4、目前对洛特卡定律的研究主要集中在两个方面:a、对洛特卡一般公式的推导,验证公式的应用范围和估计参数。
B、对洛特卡定理的机理及适用性的研究。
2)、洛特卡定律的局限性:局限性:洛特卡定律是对两组数据统计的推广,是对信息生产的一般理论估计,不是一个精确的统计分布统计,因而有其局限性。
有以下局限:A、统计数据不全,洛特卡定律是根据化学、物理学科得出的结论,其他学科应用是应作一定的修改。
B、对合作者的处理过于简单。
C、对高产作者的处理。
D、洛特卡的数学抽取方法欠科学,在数量大的情况下预测结果才比较客观。
3)、洛特卡定律的具体应用:a、在情报图书馆学方面,一般用它来发表不同数目文章的著者数量和特定学科的文献数量,从而便于掌握文献的增长趋势,进行文献情报的科学管理和情报学的理论研究。
b、在预测科学方面,从统计或估计的科学著者数量懒预测文献数目的增长速度很文献的流动方向,也可以预测科学家数量的增长和科学发展的规模及趋势。
第三章 信息分布
第三章信息分布第一节信息产生与分布中的马太效应1、马太效应:在社会信息流的产生、传递和利用过程中,信息及其相关因素常常表现出明显的核心趋势和集中趋向,如少数出版社成为某类图书的权威出版机构,为数不多的科学期刊因刊载了某学科领域的大量论文而成为该学科的核心期刊等,这就是信息产生与分布中的马太效应。
2、信息分布中的核心趋势和集中取向(1)核心趋势:如高产作者群体的形成、期刊信息密度增大、高频词汇的确立等都是信息生产主体的主观期望与采取实际步骤的结果。
(2)集中取向:如一篇论文多次被引、一个网站被众多用户点击,某些图书频繁地被借阅,这种富集是社会选择和影响的结果。
(3)二者的效果是一致的,仅仅是积累的程度不一样。
前者可能是相乘的累积,后者是相加的累积;前者是主动选择,后者是被动接受;前者是自增生过程,后者倾向大变量分布过程。
3、马太效应的积极意义和负面影响(06简答)(1)积极意义:①在实际工作中,利于突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,为降低信息管理成本、提高信息利用效益提供指导和方法。
②在理论上,利于认识信息集中和分散的特征、趋势和规律,发现信息管理学的基础性定律。
(2)负面影响①马太效应描述信息对象的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,因循守旧、不思进取,按经验和简单的规则从事复杂多变的信息管理工作。
②马太效应所形成的信息分布富集有时仅仅是表面的、外在的,有的优势积累过程中带有突发性和受统计学因素的影响,使得信息价值失真。
③若过分注重马太效应所形成的核心信息源,就会忽略分布在其他信息源中有价值的信息;若任核心信息源的优势过度积累而不加控制,高度专门化,其所含的信息就会越来越单一,会使其丧失更多的用户。
④马太效应青睐名人、拒绝新人的习惯势力不利于新人成长,限制了新思想、新知识和新信息的产生和传播。
第二节信息生产者分布规律1、洛特卡定律(1)定义:实际上是科学论文在作者上集中与分散的分布现象。
自然语言处理及计算语言学相关术语中英对译表三_计算机英语词汇
multilingual processing system 多语讯息处理系统multilingual translation 多语翻译multimedia 多媒体multi-media communication 多媒体通讯multiple inheritance 多重继承multistate logic 多态逻辑mutation 语音转换mutual exclusion 互斥mutual information 相互讯息nativist position 语法天生假说natural language 自然语言natural language processing (nlp) 自然语言处理natural language understanding 自然语言理解negation 否定negative sentence 否定句neologism 新词语nested structure 崁套结构network 网络neural network 类神经网络neurolinguistics 神经语言学neutralization 中立化n-gram n-连词n-gram modeling n-连词模型nlp (natural language processing) 自然语言处理node 节点nominalization 名物化nonce 暂用的non-finite 非限定non-finite clause 非限定式子句non-monotonic reasoning 非单调推理normal distribution 常态分布noun 名词noun phrase 名词组np (noun phrase) completeness 名词组完全性object 宾语{语言学}/对象{信息科学}object oriented programming 对象导向程序设计[面向对向的程序设计]official language 官方语言one-place predicate 一元述语on-line dictionary 线上查询词典 [联机词点]onomatopoeia 拟声词onset 节首音ontogeny 个体发生ontology 本体论open set 开放集operand 操作数 [操作对象]optimization 最佳化 [最优化]overgeneralization 过度概化overgeneration 过度衍生paradigmatic relation 聚合关系paralanguage 附语言parallel construction 并列结构parallel corpus 平行语料库parallel distributed processing (pdp) 平行分布处理paraphrase 转述 [释意;意译;同意互训]parole 言语parser 剖析器 [句法剖析程序]parsing 剖析part of speech (pos) 词类particle 语助词part-of relation part-of 关系part-of-speech tagging 词类标注pattern recognition 型样识别p-c (predicate-complement) insertion 述补中插pdp (parallel distributed processing) 平行分布处理perception 知觉perceptron 感觉器 [感知器]perceptual strategy 感知策略performative 行为句periphrasis 用独立词表达perlocutionary 语效性的permutation 移位petri net grammar petri 网语法philology 语文学phone 语音phoneme 音素phonemic analysis 因素分析phonemic stratum 音素层phonetics 语音学phonogram 音标phonology 声韵学 [音位学;广义语音学] phonotactics 音位排列理论phrasal verb 词组动词 [短语动词]phrase 词组 [短语]phrase marker 词组标记 [短语标记]pitch 音调pitch contour 调形变化pivot grammar 枢轴语法pivotal construction 承轴结构plausibility function 可能性函数pm (phrase marker) 词组标记 [短语标记] polysemy 多义性pos-tagging 词类标记postposition 方位词pp (preposition phrase) attachment 介词依附pragmatics 语用学precedence grammar 优先级语法precision 精确度predicate 述词predicate calculus 述词计算predicate logic 述词逻辑 [谓词逻辑]predicate-argument structure 述词论元结构prefix 前缀premodification 前置修饰preposition 介词prescriptive linguistics 规定语言学 [规范语言学] presentative sentence 引介句presupposition 前提principle of compositionality 语意合成性原理privative 二元对立的probabilistic parser 概率句法剖析程序problem solving 解决问题program 程序programming language 程序设计语言 [程序设计语言] proofreading system 校对系统proper name 专有名词prosody 节律prototype 原型pseudo-cleft sentence 准分裂句psycholinguistics 心理语言学punctuation 标点符号pushdown automata 下推自动机pushdown transducer 下推转换器qualification 后置修饰quantification 量化quantifier 范域词quantitative linguistics 计量语言学question answering system 问答系统queue 队列radical 字根 [词干;词根;部首;偏旁]radix of tuple 元组数基random access 随机存取rationalism 理性论rationalist (position) 理性论立场 [唯理论观点]reading laboratory 阅读实验室real time 实时real time control 实时控制 [实时控制]recursive transition network 递归转移网络reduplication 重叠词 [重复]reference 指涉referent 指称对象referential indices 指针referring expression 指涉词 [指示短语]register 缓存器[寄存器]{信息科学}/调高{语音学}/语言的场合层级{社会语言学}regular language 正规语言 [正则语言]relational database 关系型数据库 [关系数据库]relative clause 关系子句relaxation method 松弛法relevance 相关性restricted logic grammar 受限逻辑语法resumptive pronouns 复指代词retroactive inhibition 逆抑制rewriting rule 重写规则rheme 述位rhetorical structure 修辞结构rhetorics 修辞学robust 强健性robust processing 强健性处理robustness 强健性schema 基朴school grammar 教学语法scope 范域 [作用域;范围]script 脚本search mechanism 检索机制search space 检索空间searching route 检索路径 [搜索路径]second order predicate 二阶述词segmentation 分词segmentation marker 分段标志selectional restriction 选择限制semantic field 语意场semantic frame 语意架构semantic network 语意网络semantic representation 语意表征 [语义表示] semantic representation language 语意表征语言semantic restriction 语意限制semantic structure 语意结构semantics 语意学sememe 意素semiotics 符号学sender 发送者sensorimotor stage 感觉运动期sensory information 感官讯息 [感觉信息]sentence 句子sentence generator 句子产生器 [句子生成程序]sentence pattern 句型separation of homonyms 同音词区分sequence 序列serial order learning 顺序学习serial verb construction 连动结构set oriented semantic network 集合导向型语意网络 [面向集合型语意网络]sgml (standard generalized markup language) 结构化通用标记语言shift-reduce parsing 替换简化式剖析short term memory 短程记忆sign 信号signal processing technology 信号处理技术simple word 单纯词situation 情境situation semantics 情境语意学situational type 情境类型social context 社会环境sociolinguistics 社会语言学software engineering 软件工程 [软件工程]sort 排序speaker-independent speech recognition 非特定语者语音识别spectrum 频谱speech 口语speech act assignment 言语行为指定speech continuum 言语连续体speech disorder 语言失序 [言语缺失]speech recognition 语音辨识speech retrieval 语音检索speech situation 言谈情境 [言语情境]speech synthesis 语音合成speech translation system 语音翻译系统speech understanding system 语音理解系统spreading activation model 扩散激发模型standard deviation 标准差standard generalized markup language 标准通用标示语言start-bound complement 接头词state of affairs algebra 事态代数state transition diagram 状态转移图statement kernel 句核static attribute list 静态属性表statistical analysis 统计分析statistical linguistics 统计语言学statistical significance 统计意义stem 词干stimulus-response theory 刺激反应理论stochastic approach to parsing 概率式句法剖析 [句法剖析的随机方法]stop 爆破音stratificational grammar 阶层语法 [层级语法]string 字符串[串;字符串]string manipulation language 字符串操作语言string matching 字符串匹配 [字符串]structural ambiguity 结构歧义structural linguistics 结构语言学structural relation 结构关系structural transfer 结构转换structuralism 结构主义structure 结构structure sharing representation 结构共享表征subcategorization 次类划分 [下位范畴化] subjunctive 假设的sublanguage 子语言subordinate 从属关系subordinate clause 从属子句 [从句;子句] subordination 从属substitution rule 代换规则 [置换规则] substrate 底层语言suffix 后缀superordinate 上位的superstratum 上层语言suppletion 异型[不规则词型变化] suprasegmental 超音段的syllabification 音节划分syllable 音节syllable structure constraint 音节结构限制symbolization and verbalization 符号化与字句化synchronic 同步的synonym 同义词syntactic category 句法类别syntactic constituent 句法成分syntactic rule 语法规律 [句法规则]syntactic semantics 句法语意学syntagm 句段syntagmatic 组合关系 [结构段的;组合的] syntax 句法systemic grammar 系统语法tag 标记target language 目标语言 [目标语言]task sharing 课题分享 [任务共享] tautology 套套逻辑 [恒真式;重言式;同义反复] taxonomical hierarchy 分类阶层 [分类层次] telescopic compound 套装合并template 模板temporal inference 循序推理 [时序推理] temporal logic 时间逻辑 [时序逻辑] temporal marker 时貌标记tense 时态terminology 术语text 文本text analyzing 文本分析text coherence 文本一致性text generation 文本生成 [篇章生成]text linguistics 文本语言学text planning 文本规划text proofreading 文本校对text retrieval 文本检索text structure 文本结构 [篇章结构]text summarization 文本自动摘要 [篇章摘要] text understanding 文本理解text-to-speech 文本转语音thematic role 题旨角色thematic structure 题旨结构theorem 定理thesaurus 同义词辞典theta role 题旨角色theta-grid 题旨网格token 实类 [标记项]tone 音调tone language 音调语言tone sandhi 连调变换top-down 由上而下 [自顶向下]topic 主题topicalization 主题化 [话题化]trace 痕迹trace theory 痕迹理论training 训练transaction 异动 [处理单位]transcription 转写 [抄写;速记翻译]transducer 转换器transfer 转移transfer approach 转换方法transfer framework 转换框架transformation 变形 [转换]transformational grammar 变形语法 [转换语法] transitional state term set 转移状态项集合transitivity 及物性translation 翻译translation equivalence 翻译等值性translation memory 翻译记忆transparency 透明性tree 树状结构 [树]tree adjoining grammar 树形加接语法 [树连接语法] treebank 树图数据库[语法关系树库]trigram 三连词t-score t-数turing machine 杜林机 [图灵机]turing test 杜林测试 [图灵试验]type 类型type/token node 标记类型/实类节点type-feature structure 类型特征结构typology 类型学ultimate constituent 终端成分unbounded dependency 无界限依存underlying form 基底型式underlying structure 基底结构unification 连并 [合一]unification-based grammar 连并为本的语法 [基于合一的语法] universal grammar 普遍性语法universal instantiation 普遍例式universal quantifier 全称范域词unknown word 未知词 [未定义词]unrestricted grammar 非限制型语法usage flag 使用旗标user interface 使用者界面 [用户界面]valence grammar 结合价语法valence theory 结合价理论valency 结合价variance 变异数 [方差]verb 动词verb phrase 动词组 [动词短语]verb resultative compound 动补复合词verbal association 词语联想verbal phrase 动词组verbal production 言语生成vernacular 本地话v-o construction (verb-object) 动宾结构vocabulary 字汇vocabulary entry 词条vocal track 声道vocative 呼格voice recognition 声音辨识 [语音识别]vowel 元音vowel harmony 元音和谐 [元音和谐]waveform 波形weak verb 弱化动词whorfian hypothesis whorfian 假说word 词word frequency 词频word frequency distribution 词频分布word order 词序word segmentation 分词word segmentation standard for chinese 中文分词规范word segmentation unit 分词单位 [切词单位]word set 词集working memory 工作记忆 [工作存储区]world knowledge 世界知识writing system 书写系统x-bar theory x标杠理论 ["x"阶理论]zipf's law 利夫规律 [齐普夫定律]。
齐普夫定律和吉布斯法则
齐普夫定律和吉布斯法则介绍齐普夫定律(Zipf’s Law)和吉布斯法则(Gibbs’ Law)是两个与自然语言处理相关的定律和法则。
它们揭示了自然语言中词汇的频率分布以及词汇之间的关联性。
本文将详细探讨这两个定律和法则的原理、应用以及局限性。
一、齐普夫定律1.1 定义齐普夫定律是由美国语言学家乔治·齐普夫(George Kingsley Zipf)在20世纪30年代提出的。
它指出,在一个大规模的文本语料库中,词汇的出现频率与其在排序后的词汇表中的排名成反比。
换句话说,排名第n的词汇出现的频率大约是排名第1的词汇出现频率的1/n。
### 1.2 原理齐普夫定律的原理可以通过数学公式来表示: f = k / r 其中,f是词汇的出现频率,r是词汇在排序后的词汇表中的排名,k是一个常数。
该定律表明,出现频率最高的词汇是非常常见的,而出现频率较低的词汇则更加罕见。
### 1.3 应用齐普夫定律在自然语言处理领域有着广泛的应用。
例如,在信息检索中,可以使用该定律来对查询词进行排序,优先返回排名靠前的词汇。
此外,在文本压缩和编码中,也可以利用齐普夫定律来对词汇进行编码,使得出现频率高的词汇可以用较短的编码表示,从而实现更高效的压缩和解压缩。
### 1.4 局限性虽然齐普夫定律在大多数自然语言的语料库中都成立,但也存在一些例外情况。
例如,在特定领域的专业文本中,词汇的频率分布可能会受到特殊领域术语的影响,而不符合齐普夫定律的规律。
此外,齐普夫定律只能描述词汇的频率分布,对于词汇之间的语义关联性没有提供明确的解释。
二、吉布斯法则2.1 定义吉布斯法则是由美国物理化学家威尔斯·吉布斯(Josiah Willard Gibbs)在19世纪末提出的。
它是熵的一种形式,用于描述分子在热力学平衡状态下的分布情况。
在自然语言处理中,吉布斯法则被用来描述词汇之间的关联性。
### 2.2 原理吉布斯法则的原理可以通过以下公式表示:P(w1, w2, …, wn) = P(w1) * P(w2|w1)* P(w3|w1,w2) * … * P(wn|w1,w2,…,wn-1) 其中,P(w1, w2, …, wn)是词汇序列w1, w2, …, wn的联合概率,P(wi|w1,w2,…,wi-1)是给定前面词汇序列的条件下,第i个词汇的概率。
齐普夫定理
称齐普夫第二表达式 英文正文中低频词的数量
I1为出现一次的词的数量
In为出现n次的词的数量
与正文的长度和常数C无关,仅与单词的频率有 关
齐普夫定律的应用
文献标引和词表编制 信息检索 在图书情报管理中的应用
词表编制
叙词表和标引可以提高计算机检索的效率 根据齐普夫定律的频率分布方法,通过标 引试验,找出被标引文献与叙词使用频率 的分布特征,确定合乎需要的参数值。 选用原始文献中的术语,统计其发生的频 率,研究分布特征,最后决定合乎使用频 率的词
词的序号的对数为横坐标 log r 词的绝对频率的对数为纵坐标 lognr
定量公式:fr×r=C 令:tanα=γ Log(r γ×nr)=log C
C tan tan 1 45 1 n n Cr r r r n C C 1 n r r r ( f , c ) fr r c r T r T T
等级r与频率f均取对数。 虚线:lnr+lnf=lnc 实线:blnr+lnf=lnc (斜率为b)
齐普夫定律的局限性
对出现频率特别高的词和特别低的词,并 不能完全地反映分布规律
低频率的词,序号相同的很多 高频率的词,序号相同的词随着频率的增高而
越来越少
齐普夫定律的发展
朱斯(M. Joos)修正 芒戴尔伯特B. Mandelbrot修正式 布斯(B. Booth)的齐普夫第二定律
朱斯修正式
单参数词频分配律--〉双参数词频分布律
中, c和r的负指数(以γ 表示)都是参数 γ 不是一个常数而是一个参数
齐普夫定律
文献标引
自动标引
利用计算机对每一个词的频率进行统计分析,筛选出 适合标引的词汇。 卢恩(Luhn)的频率自动索引方法
去掉高频词 去掉后缀 找出相应的词干
加权标引
斯派克 琼斯(Spack Jones)的加权法 如果有N篇文章,某个检索词涉及其中的n篇,给那么 这个词log(N/n)+1的权值,可得到较佳的检索效果
c cT r= n= → pr r
仅仅出现一次的词汇,可能有许多个,一般而言:
cT 2 r 0 .5 ≤ < 1 .5 → < ≤ 2 r 3 cT
rmin
2cT = < r ≤ 2cT = rmax = D 3
布斯修正公式
In 2 = I1 n(n + 1)
称齐普夫第二表达式 英文正文中低频词的数量
向量空间模型(Vector Space Model)
v 为词t在文本 d 中的词频,N 为训练文本的
v W 其中, (t, d )为词t在文本
v v d 中的权重,而tf (t , d )
总数, 为训练文本集中出现t的文本数,分 nt 母为归一化因子。
v W (t , d ) = v tf (t , d ) × log( N / nt + 0.01) v 2 ∑t∈dv tf (t , d ) × log( N / nt + 0.01)
词的序号的对数为横坐标 log r 词的绝对频率的对数为纵坐标 lognr
定量公式:fr×r=C 令:tanα=γ Log(r γ×nr)=log C
C → n r = Cr −1 r
n r C −1 n r C = γ r = ( = f r , = c) fr × r = c → T r T T
位序规模法则齐普夫定律
位序规模法则齐普夫定律齐普夫定律(Zipf's Law),首先由乌尔斯福特·齐普夫(George Kingsley Zipf)在1935年提出,可以表述为“一个语料库中每个观察到的词汇出现的概率等于它在频率排序中的位置的倒数,即把所有出现过的词汇按频率从大到小排序,就能得出这个定律。
一、历史背景齐普夫定律最早由乌尔斯福特·齐普夫在1935年提出,但他的研究很快受到语言学家和哲学家的质疑。
由于语言中潜在的繁复性和复杂性,一般认为这种理论都不可能存在,但是齐普夫定律甚至比预期更强劲。
之后,虽然齐普夫定律在语言学及其他学科中得到认可,但也有许多关于它的疑问和争论。
齐普夫定律的定义为:对于一个语料库中特定的特殊词,其词频f和它出现顺序位置数目n之间的关系呈现出1/n的形式,即:f∝1/n。
三、应用场景齐普夫定律具有广泛的应用场景,比如语言学、自然语言处理、信息泄露分析、催化剂中药物设计等。
1、语言学:齐普夫定律可以用来解释语言学中存在的一种形式,即在一组语言中,出现次数最多的词汇一般也是出现次数最少的词汇,这就是经典的“大多数-少数”现象,这也就是所谓的“齐普夫定律”。
2、自然语言处理:齐普夫定律可以为自然语言处理技术提供有力的计算模型,特别是有关词頻和文言出現頻率的預測,以及根據文本自動賦題等,这些都将有助于提高文本自动分析效率和准确性。
3、信息泄露检测:齐普夫定律可以用来检测敏感信息泄露,特别是在某些未经授权的媒体上发布的信息,可以通过对密码的统计分析,从而判断出是否存在信息泄露的可能性。
4、催化剂设计:齐普夫定律可以帮助化学家设计更有效的催化剂,可以通过对化学反应中所用到的物质的统计分析,从而找到有助于化学反应速度加快的物质组合。
四、优缺点齐普夫定律有着广泛的应用,可以准确的捕捉和推导出语言、信息等特点的规律;但是也存在一些问题,比如由于齐普夫定律是以均一的概率分布来描述的,所以实际的情况可能因人而异,因此齐普夫定律的可靠性有待提高。
高斯分布方差
高斯分布方差定义1:概率论中最重要的一种分布,也是自然界最常见的一种分布。
该分布由两个参数——平均值和方差决定。
概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。
正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
因其曲线呈钟形,因此人们又经常称之为钟形曲线。
我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
Zipf分布有一个基本定律,就是大家常说对于内容的访问遵循80/20原则,也就是20%的内容,会占有80%的访问量。
Zipf分布与其类似。
这是一个定性的原则,定量来说,内容访问近似符合Zipf定律(Zipf’s law), 这个定律是美国语言学家Zipf发现的,他在1932年研究英文单词的出现频率时,发现如果把单词频率从高到低的次序排列,每个单词出现频率和它的符号访问排名存在简单反比关系:这里r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率.(单词频率分布中C约等于0.1, a约等于1)后人将这个分布称为齐夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的单词很少被使用。
这个定理也在很多分布里面得到了验证,比如人们的收入,互联网的网站数量和访问比例,互联网内容和访问比例(其他分>布两个常数有所不同,a越大,分布越密集,对于VOD来说某些时候符合双zipf分布)。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~··(来自维基百科)齐夫定律可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。
新经济地理学精品PPT课件
外部经济理论
外部经济由马歇尔最早提出,后人也曾给予补充。马 歇尔认为外部经济包括三种类型:市场规模扩大,提 高中间投入品的规模效益;劳动力市场供应;信息交 换和技术扩散。前两者被称为金钱的外部性,即通过 规模效应所形成的外部经济;后者被称为技术的外部 经济,它并不与收益递增的市场结构有关。
这种经济地理学传统之所以没有得到经济学家的关注, 是因为:①认为集聚是外部经济形成的,尤如医生告 诉人们鸦片让人昏睡是因为其有麻醉性质,并没有给 予彻底的解释;②该方法并没有提供深层次的分析结 构,并没有将集聚与更微观的经济特点联系起来。
2. 这主要是因为这些理论都是以规模报酬不变和完全竞争 为假设前提的,这与现实情况并不相符。
3. 克鲁格曼引入了规模报酬递增和不完全竞争,并运用迪 克西特与斯蒂格利兹(Dixit—Stiglitz, D-S)模型和新贸易, 新增长理论成功地解释了行业内贸易专业化和无限增长等 经济现象。
新经济地理学和新古典学派国际(区域)经济学的比 较
伴着深秋的脚步, 让我们一起走进新经济地理学的殿堂
区域经济学:陈凯
新经济地理学(New Economic Geography)
一,古典区位理论(五个方面)
1. 德国几何学: 韦伯(Weber A)的工业区位理论 中心地方理论
2. 社会物理学: 齐普夫定律(Zip’s law) 3. 积累因果关系: 缪尔达尔 4.当地外部经济 : 亚当·斯密, 阿尔弗雷德·马歇尔 5. 地租和土地利用:J.H.杜能
例子:录像带市场,达尔顿(Dalton)结婚礼品
(三)、D—S垄断竞争模型
1. 人们可以在完全竞争的框架下对外部规模经济问题进行研究,但内 部规模经济却无法和竞争性的市场结构相兼容。
pappus定理
pappus定理
pappus定理是古希腊几何学家pappus于3世纪发现的一种重要定理,它是由古希腊几何学家euclid提出的一种证明方法,目前仍然是极其重要的定理,在几何学和其他数学领域中都有重要的应用。
pappus定理被古希腊几何学家euclid提出,其目的是为了证明任意一组数字的总和大于或等于一定的平方和。
这个定理可以被描述为:一组任意n个数字的积和乘积等于n-2次平方和的积。
这里的
n-2是根据输入的n个数的总和来计算的,通过这种证明方法,可以简化很多数学推导过程。
pappus定理可以应用于多种几何概念,包括平面几何和空间几何。
例如,在平面几何中,如果有一个图形由m个点和n条边构成,那么pappus定理可以用来计算这个图形的周长。
进一步来说,如果这m个点具有n-2次方程式,那么pappus定理可以用来计算这些方程式的可行解。
在空间几何中,pappus定理可以应用于多面体,它可以计算出多面体的体积。
而且,它也可以用于求解多边形的面积。
另外,pappus 定理也可以应用于计算向量的积分运算。
pappus定理还可以应用于概率论和统计学。
举个例子,可以使用pappus定理来计算多变量函数的梯度,从而可以计算出某一函数在某一点的单调性。
在概率论和统计学中,pappus定理也可以用于进行线性回归分析,可以用来推断和预测数据。
pappus定理是一个众所周知的定理,它可以被应用于各种几何
概念,也可以应用于概率论和统计学,是几何学和数学领域中一个重要的工具。
它的推导对于提出问题和求解问题非常重要,因此pappus 定理在许多学科中都得到广泛应用。
第五章 齐普夫定律
二、主题词频分析
2、主题词之间的联系统计 、 (1)主题知识结构分布 ) 学科间的交叉、渗透和融合是当代科学发展的基 本趋势。反映在主题词上,表现为各学科主题词在 相同的知识领域内被运用。主题词频可以定量地反 映这一趋势。 (2)主题关联分析 ) 如果以主题词成对出现为统计对象,则成对主题 词的出现频率便反映了这二个主题之间的密切程度 (主题词耦合)。
帕欧(M.L.Pao):所谓词频适中的词(有效词) 应为那些词频在:
n= −1+ 1+ 8I1 2
例如:某篇文献中仅出现一次的词有800个,则 分辨力最强的词应该为? 词频分布与有效词的分辨力之间的数量关系的 分布图见P150。
基于卢恩思想的词频统计抽词标引法,在理论上 研究得比较深入,使用的也较多,其基本步骤为: (1)输入原文:首先将待处理的原文信息输入到系统 中; (2)抽词:标识出组成文献的各个单词;利用停用词 表排除文献中的非实义词; (3)统计分析:通过程序控制统计分析剩余各词的出 现频率; −1+ 1+8I1 (4)筛选:根据 n = 筛选出适合于进行标引 2 的词进行标引。
第三节 齐普夫定律的应用
一.文献自动标引 4.自动文摘: .自动文摘:
有效词在句子中的相对位置以及句子中所含的有 效词数可以用来确定句子的重要性 :
ri = p q
2 i i
ri=pi:一个句子中所含的有效词的数目; qi:该句中所有的总词数。
二、主题词频分析
主题词频的数量统计; 主题词频之间的关联统计。
第三节 齐普夫定律的应用
前苏联文献计量学家哈通就明确指出: 前苏联文献计量学家哈通就明确指出: 齐普夫定律是解决社会科学分布现象的最好 定律。 定律。 1、文献自动标引 、 2、主题词频分析 、 3、英语学习指导 、
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949
齐普夫的最省力法则
例子:
从A地到B地时,可以走不同的路;从经济上、安全上、时间上并 结合本人的主观条件(如身体情况)及客观情况(所处的环境) 等种种因素来考虑,设法选择一条最符合自己要求的道路,使得 自己付出的“力”最小。
在图书情报管理中的应用
处理与语言文字有关的问题 将“最省力法则”的原理应用于图书情报信
息事业的管理
合理选择图书馆或者信息中心的最佳地理位置, 使得使用者能以最省力途径方便到达
用以设计图书馆、信息中心资料库的排架
齐普夫公式的汇总
齐普夫第一定律:关于高频词的定律
单参数定律:fr ×r=c 双参数定律: Pr=cr-γ 三参数定律:Pr=c(r+a)-b
贡东:美国贝尔电话公司物理学家,电话线路的通讯能力
根据德韦和阿叶斯的资料,得到词频分布图
词的序号的对数为横坐标 log r 词的绝对频率的对数为纵坐标 lognr
定量公式:fr×r=C 令:tanα=γ Log(r γ×nr)=log C
nr
C r
tan tan451 n r
Cr1
nr T
文献计量学05
齐普夫定律
大纲
齐普夫与最省力法则 齐普夫定律的形成 齐普夫定律的基本原理 齐普夫定律的发展 齐普夫定律的应用
齐普夫
George Kingsley Zipf (1902-1950):美国哈佛大 学教授、著名的语言学家和心理学家
用大量的统计数据来验证前人有关词频分布规律 的研究成果
W (t, d )
tf (t, d ) log(N / nt 0.01)
tf td
(t, d ) log(N
/ nt
0.01)
2
信息检索
用于估计信息检索系统所需要的存储量 倒排档的大小,取决于同属性字段种不同
词的数量以及每个词的出现频率 按照齐普夫定律,计算词频出现的几率
横坐标:等级序号r 纵坐标:相应的频率f
等级r与频率f均取对数。 虚线:lnr+lnf=lnc 实线:blnr+lnf=lnc (斜率为b)
齐普夫定律的局限性
对出现频率特别高的词和特别低的词,并 不能完全地反映分布规律
低频率的词,序号相同的很多 高频率的词,序号相同的词随着频率的增高而
双参数词频分布公式
Pr=cr-γ
γ>0,c>0,对于r=1,……,D,参数γ,c要使
n r 1pr来自1当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频
分布律
芒戴尔伯特修正公式
三参数频率分布律
Pr=c(r+a)-b 0 ≤ a<1,b>0,c>0,对于r=1,……,D,参数a,b,c要使
齐普夫定律可以分成两大定律
高频词分布的定律 (齐普夫第一定律) 低频词分布的定律(齐普夫第二定律)
布斯的修正
齐普夫的推导
Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不 同词出现的总次数,n为序位为r的词汇的绝对频率
r c n cT
pr
r
仅仅出现一次的词汇,可能有许多个,一般而言:
越来越少
齐普夫定律的发展
朱斯(M. Joos)修正 芒戴尔伯特B. Mandelbrot修正式 布斯(B. Booth)的齐普夫第二定律
朱斯修正式
单参数词频分配律--〉双参数词频分布律
Pr=cr-γ中, c和r的负指数(以γ表示)都是参数 γ 不是一个常数而是一个参数
当词典收词多时,γ 会增大,即图像中的α角会增大;当收 词少的时候, γ 会减少,α 角会变小。
词频分为绝对词频和相对词频,绝对词频,即使用词在文 本中出现的频率表示文本,相对词频为归一化的词频,其 计算方法主要运用 TF-IDF 公式。
向量空间模型(Vector Space Model)
其 为中词t,W在(t文,d)为本词dt中在的文词本频d,中N的为权训重练,文而本tf的(t, d) 总 母数为,归n一t为化训因练子文。本集中出现t的文本数,分
Luhn的频率自动标引法
向量空间模型(Vector Space Model)
基本思想是以向量来表示文本(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,一般可以选择词作为特征项
由这些词作为向量的维数来表示文本,最初的向量表示完 全是 0、1 形式,即如果文本中出现了该词,那么文本向 量的该维为 1,否则为 0。
C r
r 1
(nr T
f
r
,
C T
c) fr r c
• C的值究竟是不是常数,还必须加以验证
齐普夫定律的确立
检验E. Condon关系式的可靠性并研究C的性质
确定c是一个参数,使得
n
pr 1
r 1
验证了单参数词频分布公式的正确性
Fr × r=c (或者pr × r=c)
齐普夫定律的基本原理
n
pr 1
参数c:与出现频率最高的词的概率有关
r 1
参数b:与高概率词的数量多少有关,对于r<50的高频词,b是 r的非减函数,随着r的增大,参数b并不减少
参数a:与词的数量n有关。
当a=0,公式形式为Pr=cr-b 当a=0,b=1时,公式形式为Pr=cr-1
齐普夫词汇分布图
齐普夫第二定律
0.5 cT 1.5 2 r 2
r
3 cT
rm in
2cT 3
r
2cT
rm a x
D
布斯修正公式
In 2 I1 n(n 1)
n=2,3,4……
称齐普夫第二表达式
英文正文中低频词的数量
I1为出现一次的词的数量 In为出现n次的词的数量
与正文的长度和常数C无关,仅与单词的频率有 关
齐普夫第二定律:关于低频词的定律
In 2 I1 n(n 1)
词的出现频率、词的序号
艾斯杜(J. Estoup,速记员)发现(1916)
较长的文章中,词频分布的定量化形式, Nr×r=C(常数)
词的序号:1,2,…,r,…,D (1:绝对频率最大的词,D:绝对频率最小的词)
词的绝对频率:n1,n2,…,nr,…,nD
贡东(E. Condon)的公式
齐普夫定律的基本内容 齐普夫定律的图像描述 齐普夫定律的局限性
齐普夫定律的基本内容
齐普夫定律
fr ×r=c
Fr:频次,r:等级序号
齐普夫定律的“最省力法则”的解释
任何语言中,凡是使用频率最高的词,功能总 是不会太大;因为其本身在这个场合中价值小, 因而传递它们所需要的“力”就不大。
齐普夫定律的图像描述
利用语言表达思想时,会受到两个方向相反的力的作用
单一化力:希望尽量简短 多样化力:希望能被对方理解 单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双
曲线。
齐普夫经验法则的形成
齐氏定律形成的基础 齐氏定律的确立
齐氏定律形成的基础
频率词典(词表)
每一个词在一定长度的文件中出现的频率 两个最基本的数量指标
齐普夫定律的应用
文献标引和词表编制 信息检索 在图书情报管理中的应用
词表编制
叙词表和标引可以提高计算机检索的效率 根据齐普夫定律的频率分布方法,通过标
引试验,找出被标引文献与叙词使用频率 的分布特征,确定合乎需要的参数值。 选用原始文献中的术语,统计其发生的频 率,研究分布特征,最后决定合乎使用频 率的词
文献标引
自动标引
利用计算机对每一个词的频率进行统计分析,筛选出 适合标引的词汇。
卢恩(Luhn)的频率自动索引方法
去掉高频词 去掉后缀 找出相应的词干
加权标引
斯派克 琼斯(Spack Jones)的加权法 如果有N篇文章,某个检索词涉及其中的n篇,给那么
这个词log(N/n)+1的权值,可得到较佳的检索效果