信息技术领域术语用字分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表$ 次数 数量 比例
& 个等级 $ 然后统计了术语用字在各个使用次数
等级的分布情况 ’ 见表 $ (&
术语用字使用次数分级表
#%%% 以上 -& %)&!
-%%%0.+++ 次 $,% &)’(
#%%0$%%% 次 $.# ’)$#
$%%0.++ 次 .$, $&)&!
$%0++ 次 ’#. !&)&!
!0+ 次 ’#! !&)’.
$次 !+( $!).!
统计结果显示 # 使用次数在 $%" 次以上的汉 字 共 有 &’% 个 $ 占 全 部 术 语 汉 字 的 (!)!!* % 使 用 次数在 $%%% 次以上的汉字共有 $+& 个 $ 占全部术 语汉字的 ,)(#* % 使用次数在 -% 到 ++ 次之间的 汉 字 有 ’#. 个 $ 占 术 语 汉 字 的 !&)&!* % 使 用 次 数 在 $% 次以下的共有 ++& 个 $ 占 全 部 术 语 汉 字 的 我们首先将术语用字和 , 现代汉语常用字表 + 中的 (#%% 常用汉字进行了比较 & 结果发现 $ 全部 术语用字中 $ 有 !!-& 个汉字在常用汉字 中 $ 占 术 语用字的 +()#+* $ 超出常用汉字的汉字只有 -.! 个 $ 只占全部术语用字的 ’).-*& 这说明术语用字 基本包含在常用字范围之内 $ 术语用字中并没有 很多的罕用汉字 & 我 们 首 先 统 计 分 析 了 超 出 (#%% 常 用 汉 字 范 围的那 -.! 个术语用字的分布情况 & 这些字中 $ 使 用次数从 .., 次到 - 次不等 $ 其中使用次数大于 等于 -% 次的汉字有 -+ 个 $ 这些字是 , 帧 * 馈 * 耦 * 迭 *阈 *幂 *熵 *浏 *轭 *弈 *猝 *簧 *兹 *铠 *沌 *孪 *箝 * 曝 * 斐 +& 使用次数在 -% 次 以 下 的 有 -!( 个 $ 如 ,镍 *煽 *柯 *幺 *伽 *闩 *镉 *酉 *迪 *笺 *涅 *锗 *烯 * 氙 *荫 * 苯 *苜 *缇 *眩 *甄 *璐 *瑚 *珞 *牒 +等 & 我们进一步统计了常用汉字中不在术语出现 的汉字 $ 这类汉字共有 -!,($ 占常用汉字的 (&* & 就是说有三分之一的常用汉字是不出现在术语中 的 $ 如 #, 们 * 么 * 她 * 又 * 呀 * 怎 * 哪 * 呢 * 吃 * 啊 * 妈 * 该 * 王 * 谁 * 县 * 孩 * 江 * 李 * 咱 * 京 * 苦 * 爸 + 等 $ 我们把 这类汉字称作非术语用字 & 这些字对我们鉴别是 不是术语也有很重要的作用 & 我们又进一步将术语用字的次数和 , 现代汉 语研究语料库 +’ 孙宏林等 $-++&& 以下简称 , 语料 库 +( 的汉字使用次数表进行了比较 & 我们假定这
$5%5#$ 条术语中提取出来并且统计使用频度的 %
二 #术语的使用次数
我们统计到的术语用字及符号共有 !67! 个 $ 其中的符号包括数字 # 英文字母和其他符号 & 如标 点符号等 )$ 这些符号合起来共有 8!5 个 % 去掉这 些符号 $ 最后得到汉字 !5#& 个 % 下面我们将对这 些汉字进行分析 % 从数量来看 $ 术语用字还是非常有限的 $ 没有 超过 !#"" 个汉字 % 我们将某个汉字在术语数据库 中文术语中出现的次数总和定义为该汉字的使用 次数 % 全部术语用字的使用次数从 8 次到 8!5"6 ,!",
一 #引
言
文术语 ’ 半连接 ($ 因为对应的英文术 语 分 别 是 ’’()* +,--.+/0,-( 和 ’1.2034,0- ($ 我 们 统 计 中 文 术 语的时候 $ 将这两条合并为一条 $ 就是说 ’ 半连接 ( 只作为一条术语参加统计 % 最后得到不重复的中 文术语 $5%5#$ 条 % 我们分析的术语用字就是从这
表* 数量 比例 术语临界字数量表 首尾临界字 尾临界字
’’& 次 $ 使用频率是百万分之 )*)%("$ 而在语料库
中的使用次数是 + 次 $ 使用频率是百万分之 "%#&# 下面我们分别从两个角度再举例说明 % )+ * 两个字集都出现的汉字 $ 在术语数据库中 的使用频率高出在语料库中的使用频率的汉字 # 其 中 属 于 数 据 库 的 频 率 是 语 料 库 使 用 频 率 的 #" 倍以上的汉字有 & 帧 + 滤 + 栈 + 链 + 冗 + 磁 + 器 + 函 + 椭 + 址 +缆 + 噪 +芯 +频 +钮 +码 + 蠕 +簧 +序 +嵌 ’等 # )! * 两个字集都出现的汉字 $ 在术语数据库中 的使用频率低于在语料库中的使用频率的汉字 # 我们以语料库用字的使用频率是术语用字的使用 频度的 !"" 倍以上的汉字为例 $ 这些汉字共有 !) 个 $它 们 是 &这 +也 +那 +他 +些 +啦 +党 +将 +是 +但 + 把 +吧 + 了 + 都 +儿 +您 +妇 +我 +饭 + 娘 + 你 +此 +其 +没 + 赶 +革 ’等 #
!"#$#%&’$ ()#*+,-, ./ 0)/.$12&-.) 3’%").*.4+ 5’$1,
!"#$ %&#$’"#( 6’+7.$8, * 0-*,92(/0,- /.+’-,),:; *0.)<= /.92= >’0-.1. +’(9(+/.91 0- /.921= >’0-.1. +’(9? (+/.9 9:,&$2%& *@- A’01 1/B<; C. DB0)< ( <(/(D(1. ,* !5#& >’0-.1. +’(9(+/.91 *9,2 85%5#8 0-? *,92(/0,- /.+’-,),:; /.921= C. C(-/ /, E-,C ’,C 2(-; >’0-.1. +’(9(+/.91 (9. B1.< 0- /’. /.921 (-< ’,C /’.; (9. B1.< 0- /’. /.921= 1B+’ (1 *9.FB.-+;= G,10/0,- ./+H I. ()1, +,2G(9. C0/’ /’. 5#"" >,22,- >’(9(+/.91H J1 ( 9.1B)/= C. E-,C /’(/ C’0+’ +’(9(+/.91 (9. ,*/.- B1.< 0- /’. /.921= (-< 1,2. ,* /’.2 (9. ,-); B1.< 0- /’. /.921H
!&)&!* & 例如 ,叙 * 青 * 曝 *衷 *纲 *斐 * 窥 * 蒙 *闸 *疲 *
剩 *跨 * 暂 *滚 *见 *擦 *墨 * 历 *携 *托 +等 & ’( ( 术语罕用字 & 这类汉字的使用次数在 -% 次以下 $ 共有 +.# 个汉字 $ 占全部汉字的 .%)%’* & 除了上面列出的部分使用次数为 - 次的汉字以 外 $, 晚 * 旨 * 忠 * 券 * 泽 * 鱼 * 药 * 徙 * 钻 * 狭 * 祖 * 妹 * 姊 *镁 *祝 *镇 *辗 *仄 *啮 *幽 +等 的 使 用 次 数 也 在
次不等 & 举例如下 # 使用次数超过 $ 万次的有 ! 个字 # 器 ’$!(%!( 数 ’$%+$( (& 使 用 次 数 在 #%%% 和 $%%%% 次 之 间 的 有 $# 个$ 这些字以及他们的使用次数分别是#信 ’,.!&(* 电 ’,%,. (* 机 ’&%$! (* 制 ’’+(’(* 系 ’’,,’(* 程 ’’,!( (* 统 ’’(#% (* 分 ’#+%#(* 式 ’##$%(* 线 ’#.,! (* 序 ’#.%+ (* 字 ’#(&,(* 用 ’#((#(*理 ’#%&+(* 路 ’#%.$ (& 也有相反的情况 $ 即有些术语用字出现的次
, 语言信息处理 ,
! 术语标准化与信息技术 " !""# 年第 $ 期
信息技术领域术语用字分析
!邢红兵& 北京语言大学 )
关键词 *信息技术领域 + 术语 + 术语用字 +汉字 摘 要 * 本文以一个包括 85%5#8 条术语的数据库抽取的术语用字数据库为基础 $ 分析了 术语用字的数量及使用情况 % 并将术语用字和 ’ 现代汉语常用字表 ( 的 5#"" 个汉字进行比较 $ 同时将术语用字的使用情况和真实语料中汉字的使用频度进行比较 $ 在此基础上分析出术语 常用字和术语专用字 % 文章还统计了信息技术领域术语用字的首字和尾字的特点及使用情况 % 这些属性会对术语的自动提取及术语学相关的研究有一定的帮助 %
-% 次之内 $也属于这类汉字 &
这 个 结 果 说 明 $ 在 !(#, 个 术 语 用 字 中 $ 有
’%* 的字比较常用 $ 有 .%*的汉字是比较罕用的 &
- !"-
, 语言信息处理 , 个语料库的汉字代表通用领域汉字的使用情况 # 比较发现 $ 信息技术领域用字和通用领域用字是 有很大的差别的 $ 主要表现在两个字集里面的汉 字在使用次数上有很大差别 % 有些通用领域的常 用字 $ 在信息技术领域非常罕用 $ 例如 & 这 ’ 在术语 中出现 ! 次 $ 频率是百万分之 !%&’ $ 而在语料库中 使 用 $’&&’ 次 $ 频 率 为 百 万 分 之 &#()%*#( 而 有 些 术语中使用次数很多的汉字在语料库中则非常罕 用 $ 比如汉字 & 帧 ’ 在术语数据库中的使用次数是
与通用领域相比 $ 信息技术领域是一个专业 领域 $ 这个领域的语言和通用领域语言相比有着 自身的特点 $ 它在用字 # 用词等方面都有所体现 % 比如在用字上 $ 信息技术领域用字和通用领域的 用字在数量上和使用频度上都存在差异 % 但是目 前这方面的研究不多 $ 利用这些特点来进行术语 提取的研究也还不够深入 % 本研究旨在通过分析 信息技术领域术语用字 $ 来发现信息技术领域语 言材料中使用的汉字 & 以下简称 ’ 术语用字 () 的特 点 % 希望数据库以及相关的统计结果能够为信息 技术领域术语自动提取研究提供帮助 % 我们以 ! 英汉信息技术词典 " 为基础 $ 建 立 了 信息技术领域术语数据库$ 该数据库包括术语
$%#%!& 条 % 排除一些由于对应的英文术语不同 $
但是中文术语相同的情况 $ 例如在库中有两个中
! 术语标准化与信息技术 "!""# 年第 $ 期
- 语言信息处理 数很少 $ 比如使用次数为 $ 次的字就有 !+( 个 $ 例 如 ,讶 *牒 *攒 *缎 *仔 *浊 *拙 *赶 *蛀 *肘 *囊 *蹈 *拯 * 蒸 *甄 *蓬 *铡 *遭 *些 *祸 *瑟 *谕 *缸 *浴 *狱 *羽 *煎 * 秀 *肋 *桃 *樱 *雄 *患 *荫 *毅 *鄙 *劫 *谚 *倦 *厌 *蜕 * 淹 *迅 * 渲 *炫 *朱 *侣 *奋 *驿 +等 & 以上列举说明尽管术语用字只有 !(#+ 个 $ 但 是这些汉字的使用情况差别很大 & 为了更好地说 明这个问题 $ 我们把术语用字按照使用次数分为
#%%% 次以上的汉字以外 $ห้องสมุดไป่ตู้还包括使用次数在 $%%/ .+++ 次 的 汉 字 $ 例 如 ) 缓 * 故 * 缆 * 束 * 宽 * 条 * 专 *
始 * 维 * 板 *脱 *略 *宏 *司 * 底 *轨 *当 *乱 *逐 * 幕 +等 & ’! ( 术语次常用字 & 这类字的使用次数在 -% 次到 ++ 次之间 $ 共有 ’#! 个汉字 $ 占全部 汉 字 的
! 术语标准化与信息技术 " !""# 年第 $ 期
字的数量要比整个术语用字少 $ 能够为临界点的 确立提供数量更小的可选字集 # 从统计结果来看 $ 出现在临界位置 ) 包括首字 和尾字 * 的汉字共有 !-&+ 个 $ 其中包括 * 类 % 作为 临界字时只出现在首字的位置 $ 我们称之为首临 界字 ( 作为临界字可以出现在术语的首字和尾字 的位置 $ 我们称之为首尾临界字 ( 作为临界字时只 出现在尾字的位置 $我们称之为尾临界字 # 这 * 类 临界字的数量和比例见表 *#
三 *术语用字同常用汉字的比较
.%)%’* &
从这个结果可知 $ 术语用字的使用情况明显 地不均衡 & 我们根据使用情况将术语用字再按照 它们构成术语的次数分为 ( 个等级 # ’$ (术语常用字 & 构造术语的使用次数大于等 于 $%% 次的汉字 $ 这些汉字共有 &’% 个 $ 占全部术 语汉字的 (!)!!*& 除了上面所列举的使用次数在
& 个等级 $ 然后统计了术语用字在各个使用次数
等级的分布情况 ’ 见表 $ (&
术语用字使用次数分级表
#%%% 以上 -& %)&!
-%%%0.+++ 次 $,% &)’(
#%%0$%%% 次 $.# ’)$#
$%%0.++ 次 .$, $&)&!
$%0++ 次 ’#. !&)&!
!0+ 次 ’#! !&)’.
$次 !+( $!).!
统计结果显示 # 使用次数在 $%" 次以上的汉 字 共 有 &’% 个 $ 占 全 部 术 语 汉 字 的 (!)!!* % 使 用 次数在 $%%% 次以上的汉字共有 $+& 个 $ 占全部术 语汉字的 ,)(#* % 使用次数在 -% 到 ++ 次之间的 汉 字 有 ’#. 个 $ 占 术 语 汉 字 的 !&)&!* % 使 用 次 数 在 $% 次以下的共有 ++& 个 $ 占 全 部 术 语 汉 字 的 我们首先将术语用字和 , 现代汉语常用字表 + 中的 (#%% 常用汉字进行了比较 & 结果发现 $ 全部 术语用字中 $ 有 !!-& 个汉字在常用汉字 中 $ 占 术 语用字的 +()#+* $ 超出常用汉字的汉字只有 -.! 个 $ 只占全部术语用字的 ’).-*& 这说明术语用字 基本包含在常用字范围之内 $ 术语用字中并没有 很多的罕用汉字 & 我 们 首 先 统 计 分 析 了 超 出 (#%% 常 用 汉 字 范 围的那 -.! 个术语用字的分布情况 & 这些字中 $ 使 用次数从 .., 次到 - 次不等 $ 其中使用次数大于 等于 -% 次的汉字有 -+ 个 $ 这些字是 , 帧 * 馈 * 耦 * 迭 *阈 *幂 *熵 *浏 *轭 *弈 *猝 *簧 *兹 *铠 *沌 *孪 *箝 * 曝 * 斐 +& 使用次数在 -% 次 以 下 的 有 -!( 个 $ 如 ,镍 *煽 *柯 *幺 *伽 *闩 *镉 *酉 *迪 *笺 *涅 *锗 *烯 * 氙 *荫 * 苯 *苜 *缇 *眩 *甄 *璐 *瑚 *珞 *牒 +等 & 我们进一步统计了常用汉字中不在术语出现 的汉字 $ 这类汉字共有 -!,($ 占常用汉字的 (&* & 就是说有三分之一的常用汉字是不出现在术语中 的 $ 如 #, 们 * 么 * 她 * 又 * 呀 * 怎 * 哪 * 呢 * 吃 * 啊 * 妈 * 该 * 王 * 谁 * 县 * 孩 * 江 * 李 * 咱 * 京 * 苦 * 爸 + 等 $ 我们把 这类汉字称作非术语用字 & 这些字对我们鉴别是 不是术语也有很重要的作用 & 我们又进一步将术语用字的次数和 , 现代汉 语研究语料库 +’ 孙宏林等 $-++&& 以下简称 , 语料 库 +( 的汉字使用次数表进行了比较 & 我们假定这
$5%5#$ 条术语中提取出来并且统计使用频度的 %
二 #术语的使用次数
我们统计到的术语用字及符号共有 !67! 个 $ 其中的符号包括数字 # 英文字母和其他符号 & 如标 点符号等 )$ 这些符号合起来共有 8!5 个 % 去掉这 些符号 $ 最后得到汉字 !5#& 个 % 下面我们将对这 些汉字进行分析 % 从数量来看 $ 术语用字还是非常有限的 $ 没有 超过 !#"" 个汉字 % 我们将某个汉字在术语数据库 中文术语中出现的次数总和定义为该汉字的使用 次数 % 全部术语用字的使用次数从 8 次到 8!5"6 ,!",
一 #引
言
文术语 ’ 半连接 ($ 因为对应的英文术 语 分 别 是 ’’()* +,--.+/0,-( 和 ’1.2034,0- ($ 我 们 统 计 中 文 术 语的时候 $ 将这两条合并为一条 $ 就是说 ’ 半连接 ( 只作为一条术语参加统计 % 最后得到不重复的中 文术语 $5%5#$ 条 % 我们分析的术语用字就是从这
表* 数量 比例 术语临界字数量表 首尾临界字 尾临界字
’’& 次 $ 使用频率是百万分之 )*)%("$ 而在语料库
中的使用次数是 + 次 $ 使用频率是百万分之 "%#&# 下面我们分别从两个角度再举例说明 % )+ * 两个字集都出现的汉字 $ 在术语数据库中 的使用频率高出在语料库中的使用频率的汉字 # 其 中 属 于 数 据 库 的 频 率 是 语 料 库 使 用 频 率 的 #" 倍以上的汉字有 & 帧 + 滤 + 栈 + 链 + 冗 + 磁 + 器 + 函 + 椭 + 址 +缆 + 噪 +芯 +频 +钮 +码 + 蠕 +簧 +序 +嵌 ’等 # )! * 两个字集都出现的汉字 $ 在术语数据库中 的使用频率低于在语料库中的使用频率的汉字 # 我们以语料库用字的使用频率是术语用字的使用 频度的 !"" 倍以上的汉字为例 $ 这些汉字共有 !) 个 $它 们 是 &这 +也 +那 +他 +些 +啦 +党 +将 +是 +但 + 把 +吧 + 了 + 都 +儿 +您 +妇 +我 +饭 + 娘 + 你 +此 +其 +没 + 赶 +革 ’等 #
!"#$#%&’$ ()#*+,-, ./ 0)/.$12&-.) 3’%").*.4+ 5’$1,
!"#$ %&#$’"#( 6’+7.$8, * 0-*,92(/0,- /.+’-,),:; *0.)<= /.92= >’0-.1. +’(9(+/.91 0- /.921= >’0-.1. +’(9? (+/.9 9:,&$2%& *@- A’01 1/B<; C. DB0)< ( <(/(D(1. ,* !5#& >’0-.1. +’(9(+/.91 *9,2 85%5#8 0-? *,92(/0,- /.+’-,),:; /.921= C. C(-/ /, E-,C ’,C 2(-; >’0-.1. +’(9(+/.91 (9. B1.< 0- /’. /.921 (-< ’,C /’.; (9. B1.< 0- /’. /.921= 1B+’ (1 *9.FB.-+;= G,10/0,- ./+H I. ()1, +,2G(9. C0/’ /’. 5#"" >,22,- >’(9(+/.91H J1 ( 9.1B)/= C. E-,C /’(/ C’0+’ +’(9(+/.91 (9. ,*/.- B1.< 0- /’. /.921= (-< 1,2. ,* /’.2 (9. ,-); B1.< 0- /’. /.921H
!&)&!* & 例如 ,叙 * 青 * 曝 *衷 *纲 *斐 * 窥 * 蒙 *闸 *疲 *
剩 *跨 * 暂 *滚 *见 *擦 *墨 * 历 *携 *托 +等 & ’( ( 术语罕用字 & 这类汉字的使用次数在 -% 次以下 $ 共有 +.# 个汉字 $ 占全部汉字的 .%)%’* & 除了上面列出的部分使用次数为 - 次的汉字以 外 $, 晚 * 旨 * 忠 * 券 * 泽 * 鱼 * 药 * 徙 * 钻 * 狭 * 祖 * 妹 * 姊 *镁 *祝 *镇 *辗 *仄 *啮 *幽 +等 的 使 用 次 数 也 在
次不等 & 举例如下 # 使用次数超过 $ 万次的有 ! 个字 # 器 ’$!(%!( 数 ’$%+$( (& 使 用 次 数 在 #%%% 和 $%%%% 次 之 间 的 有 $# 个$ 这些字以及他们的使用次数分别是#信 ’,.!&(* 电 ’,%,. (* 机 ’&%$! (* 制 ’’+(’(* 系 ’’,,’(* 程 ’’,!( (* 统 ’’(#% (* 分 ’#+%#(* 式 ’##$%(* 线 ’#.,! (* 序 ’#.%+ (* 字 ’#(&,(* 用 ’#((#(*理 ’#%&+(* 路 ’#%.$ (& 也有相反的情况 $ 即有些术语用字出现的次
, 语言信息处理 ,
! 术语标准化与信息技术 " !""# 年第 $ 期
信息技术领域术语用字分析
!邢红兵& 北京语言大学 )
关键词 *信息技术领域 + 术语 + 术语用字 +汉字 摘 要 * 本文以一个包括 85%5#8 条术语的数据库抽取的术语用字数据库为基础 $ 分析了 术语用字的数量及使用情况 % 并将术语用字和 ’ 现代汉语常用字表 ( 的 5#"" 个汉字进行比较 $ 同时将术语用字的使用情况和真实语料中汉字的使用频度进行比较 $ 在此基础上分析出术语 常用字和术语专用字 % 文章还统计了信息技术领域术语用字的首字和尾字的特点及使用情况 % 这些属性会对术语的自动提取及术语学相关的研究有一定的帮助 %
-% 次之内 $也属于这类汉字 &
这 个 结 果 说 明 $ 在 !(#, 个 术 语 用 字 中 $ 有
’%* 的字比较常用 $ 有 .%*的汉字是比较罕用的 &
- !"-
, 语言信息处理 , 个语料库的汉字代表通用领域汉字的使用情况 # 比较发现 $ 信息技术领域用字和通用领域用字是 有很大的差别的 $ 主要表现在两个字集里面的汉 字在使用次数上有很大差别 % 有些通用领域的常 用字 $ 在信息技术领域非常罕用 $ 例如 & 这 ’ 在术语 中出现 ! 次 $ 频率是百万分之 !%&’ $ 而在语料库中 使 用 $’&&’ 次 $ 频 率 为 百 万 分 之 &#()%*#( 而 有 些 术语中使用次数很多的汉字在语料库中则非常罕 用 $ 比如汉字 & 帧 ’ 在术语数据库中的使用次数是
与通用领域相比 $ 信息技术领域是一个专业 领域 $ 这个领域的语言和通用领域语言相比有着 自身的特点 $ 它在用字 # 用词等方面都有所体现 % 比如在用字上 $ 信息技术领域用字和通用领域的 用字在数量上和使用频度上都存在差异 % 但是目 前这方面的研究不多 $ 利用这些特点来进行术语 提取的研究也还不够深入 % 本研究旨在通过分析 信息技术领域术语用字 $ 来发现信息技术领域语 言材料中使用的汉字 & 以下简称 ’ 术语用字 () 的特 点 % 希望数据库以及相关的统计结果能够为信息 技术领域术语自动提取研究提供帮助 % 我们以 ! 英汉信息技术词典 " 为基础 $ 建 立 了 信息技术领域术语数据库$ 该数据库包括术语
$%#%!& 条 % 排除一些由于对应的英文术语不同 $
但是中文术语相同的情况 $ 例如在库中有两个中
! 术语标准化与信息技术 "!""# 年第 $ 期
- 语言信息处理 数很少 $ 比如使用次数为 $ 次的字就有 !+( 个 $ 例 如 ,讶 *牒 *攒 *缎 *仔 *浊 *拙 *赶 *蛀 *肘 *囊 *蹈 *拯 * 蒸 *甄 *蓬 *铡 *遭 *些 *祸 *瑟 *谕 *缸 *浴 *狱 *羽 *煎 * 秀 *肋 *桃 *樱 *雄 *患 *荫 *毅 *鄙 *劫 *谚 *倦 *厌 *蜕 * 淹 *迅 * 渲 *炫 *朱 *侣 *奋 *驿 +等 & 以上列举说明尽管术语用字只有 !(#+ 个 $ 但 是这些汉字的使用情况差别很大 & 为了更好地说 明这个问题 $ 我们把术语用字按照使用次数分为
#%%% 次以上的汉字以外 $ห้องสมุดไป่ตู้还包括使用次数在 $%%/ .+++ 次 的 汉 字 $ 例 如 ) 缓 * 故 * 缆 * 束 * 宽 * 条 * 专 *
始 * 维 * 板 *脱 *略 *宏 *司 * 底 *轨 *当 *乱 *逐 * 幕 +等 & ’! ( 术语次常用字 & 这类字的使用次数在 -% 次到 ++ 次之间 $ 共有 ’#! 个汉字 $ 占全部 汉 字 的
! 术语标准化与信息技术 " !""# 年第 $ 期
字的数量要比整个术语用字少 $ 能够为临界点的 确立提供数量更小的可选字集 # 从统计结果来看 $ 出现在临界位置 ) 包括首字 和尾字 * 的汉字共有 !-&+ 个 $ 其中包括 * 类 % 作为 临界字时只出现在首字的位置 $ 我们称之为首临 界字 ( 作为临界字可以出现在术语的首字和尾字 的位置 $ 我们称之为首尾临界字 ( 作为临界字时只 出现在尾字的位置 $我们称之为尾临界字 # 这 * 类 临界字的数量和比例见表 *#
三 *术语用字同常用汉字的比较
.%)%’* &
从这个结果可知 $ 术语用字的使用情况明显 地不均衡 & 我们根据使用情况将术语用字再按照 它们构成术语的次数分为 ( 个等级 # ’$ (术语常用字 & 构造术语的使用次数大于等 于 $%% 次的汉字 $ 这些汉字共有 &’% 个 $ 占全部术 语汉字的 (!)!!*& 除了上面所列举的使用次数在