齐普夫定理

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

齐普夫定律的应用
文献标引和词表编制 信息检索 在图书情报管理中的应用
词表编制
叙词表和标引可以提高计算机检索的效率 根据齐普夫定律的频率分布方法,通过标
引试验,找出被标引文献与叙词使用频率 的分布特征,确定合乎需要的参数值。 选用原始文献中的术语,统计其发生的频 率,研究分布特征,最后决定合乎使用频 率的词
0.5 cT 1.5 2 r 2
r
3 cT
rm in
2cT 3
r
2cT
rm a x
D
布斯修正公式
In 2 I1 n(n 1)
n=2,3,4……
称齐普夫第二表达式
英文正文中低频词的数量
I1为出现一次的词的数量 In为出现n次的词的数量
与正文的长度和常数C无关,仅与单词的频率有 关
在图书情报管理中的应用
处理与语言文字有关的问题 将“最省力法则”的原理应用于图书情报信
息事业的管理
合理选择图书馆或者信息中心的最佳地理位置, 使得使用者能以最省力途径方便到达
用以设计图书馆、信息中心资料库的排架
齐普夫公式的汇总
齐普夫第一定律:关于高频词的定律
单参数定律:fr ×r=c 双参数定律: Pr=cr-γ 三参数定律:Pr=c(r+a)-b
文献标引
自动标引
利用计算机对每一个词的频率进行统计分析,筛选出 适合标引的词汇。
卢恩(Luhn)的频率自动索引方法
去掉高频词 去掉后缀 找出相应的词干
加权标引
斯派克 琼斯(Spack Jones)的加权法 如果有N篇文章,某个检索词涉及其中的n篇,给那么
这个词log(N/n)+1的权值,可得到较佳的检索效果
词的出现频率、词的序号
艾斯杜(J. Estoup,速记员)发现(1916)
较长的文章中,词频分布的定量化形式, Nr×r=C(常数)
词的序号:1,2,…,r,…,D (1:绝对频率最大的词,D:绝对频率最小的词)
词的绝对频率:n1,n2,…,nr,…,nD
贡东(E. Condon)的公式
齐普夫定律的基本内容 齐普夫定律的图像描述 齐普夫定律的局限性
齐普夫定律的基本内容
齐普夫定律
fr ×r=c
Fr:频次,r:等级序号
齐普夫定律的“最省力法则”的解释
任何语言中,凡是使用频率最高的词,功能总 是不会太大;因为其本身在这个场合中价值小, 因而传递它们所需要的“力”就不大。
齐普夫定律的图像描述
双参数词频分布公式
Pr=cr-γ
γ>0,c>0,对于r=1,……,D,参数γ,c要使
n r 1
pr
1
当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频
分布律
芒戴尔伯特修正公式
三参数频率分布律
Pr=c(r+a)-b 0 ≤ a<1,b>0,c>0,对于r=1,……,D,参数a,b,c要使
C r
r 1
(nr T
f
r
,
C TLeabharlann Baidu
c) fr r c
• C的值究竟是不是常数,还必须加以验证
齐普夫定律的确立
检验E. Condon关系式的可靠性并研究C的性质
确定c是一个参数,使得
n
pr 1
r 1
验证了单参数词频分布公式的正确性
Fr × r=c (或者pr × r=c)
齐普夫定律的基本原理
文献计量学05
齐普夫定律
大纲
齐普夫与最省力法则 齐普夫定律的形成 齐普夫定律的基本原理 齐普夫定律的发展 齐普夫定律的应用
齐普夫
George Kingsley Zipf (1902-1950):美国哈佛大 学教授、著名的语言学家和心理学家
用大量的统计数据来验证前人有关词频分布规律 的研究成果
Luhn的频率自动标引法
向量空间模型(Vector Space Model)
基本思想是以向量来表示文本(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,一般可以选择词作为特征项
由这些词作为向量的维数来表示文本,最初的向量表示完 全是 0、1 形式,即如果文本中出现了该词,那么文本向 量的该维为 1,否则为 0。
词频分为绝对词频和相对词频,绝对词频,即使用词在文 本中出现的频率表示文本,相对词频为归一化的词频,其 计算方法主要运用 TF-IDF 公式。
向量空间模型(Vector Space Model)
其 为中词t,W在(t文,d)为本词dt中在的文词本频d,中N的为权训重练,文而本tf的(t, d) 总 母数为,归n一t为化训因练子文。本集中出现t的文本数,分
齐普夫第二定律:关于低频词的定律
In 2 I1 n(n 1)
齐普夫定律可以分成两大定律
高频词分布的定律 (齐普夫第一定律) 低频词分布的定律(齐普夫第二定律)
布斯的修正
齐普夫的推导
Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不 同词出现的总次数,n为序位为r的词汇的绝对频率
r c n cT
pr
r
仅仅出现一次的词汇,可能有许多个,一般而言:
越来越少
齐普夫定律的发展
朱斯(M. Joos)修正 芒戴尔伯特B. Mandelbrot修正式 布斯(B. Booth)的齐普夫第二定律
朱斯修正式
单参数词频分配律--〉双参数词频分布律
Pr=cr-γ中, c和r的负指数(以γ表示)都是参数 γ 不是一个常数而是一个参数
当词典收词多时,γ 会增大,即图像中的α角会增大;当收 词少的时候, γ 会减少,α 角会变小。
利用语言表达思想时,会受到两个方向相反的力的作用
单一化力:希望尽量简短 多样化力:希望能被对方理解 单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双
曲线。
齐普夫经验法则的形成
齐氏定律形成的基础 齐氏定律的确立
齐氏定律形成的基础
频率词典(词表)
每一个词在一定长度的文件中出现的频率 两个最基本的数量指标
W (t, d )
tf (t, d ) log(N / nt 0.01)
tf td
(t, d ) log(N
/ nt
0.01)
2
信息检索
用于估计信息检索系统所需要的存储量 倒排档的大小,取决于同属性字段种不同
词的数量以及每个词的出现频率 按照齐普夫定律,计算词频出现的几率
n
pr 1
参数c:与出现频率最高的词的概率有关
r 1
参数b:与高概率词的数量多少有关,对于r<50的高频词,b是 r的非减函数,随着r的增大,参数b并不减少
参数a:与词的数量n有关。
当a=0,公式形式为Pr=cr-b 当a=0,b=1时,公式形式为Pr=cr-1
齐普夫词汇分布图
齐普夫第二定律
横坐标:等级序号r 纵坐标:相应的频率f
等级r与频率f均取对数。 虚线:lnr+lnf=lnc 实线:blnr+lnf=lnc (斜率为b)
齐普夫定律的局限性
对出现频率特别高的词和特别低的词,并 不能完全地反映分布规律
低频率的词,序号相同的很多 高频率的词,序号相同的词随着频率的增高而
贡东:美国贝尔电话公司物理学家,电话线路的通讯能力
根据德韦和阿叶斯的资料,得到词频分布图
词的序号的对数为横坐标 log r 词的绝对频率的对数为纵坐标 lognr
定量公式:fr×r=C 令:tanα=γ Log(r γ×nr)=log C
nr
C r
tan tan451 n r
Cr1
nr T
1948年出版了《人类行为与最省力法则-人类生态 学引论》
Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949
齐普夫的最省力法则
例子:
从A地到B地时,可以走不同的路;从经济上、安全上、时间上并 结合本人的主观条件(如身体情况)及客观情况(所处的环境) 等种种因素来考虑,设法选择一条最符合自己要求的道路,使得 自己付出的“力”最小。
相关文档
最新文档