走进计算机汉字字库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
字体选型是字库开发的基础工作。任何一 套字体的选定都要经过反复的比较、论证、 试做,只有在字体风格、规范程度、字稿 质量、美观性等各方面都具有相当水平, 才可以确定选用。计算机里使用的一种字 种字体都要有一套相应的字库。市场上不 仅可以见到宋、仿、黑、楷、隶书等传统 印刷字体,还可以见到行楷、姚体、舒体、 美黑等一大批风格各异、特点突出的新字 体。据悉,北大方正现在已经开发出72种 简繁体字库。
这/r 虽/c 不是/vl 人人/n 办/v 得到/v , /w 但/c 那/r 一/m 国/n 文字/n 最好/a 请/v 那/r 一/m 国人/n 来/vd 做/v 教师 /n ,/w 却是/vl 比较/d 适宜/a 的/u 办 法/n 。
大致/d 有/v 二/m 种/v 情况/n :/w 一 /m 是/vl 法律/n 对/a 我国/n 公民/n 的 /u 适用/v 范围/n ;/w 二/m 是/vl 法律 /n 对外/d 国人/n 的/u 适用/v 范围/n 。
词语数 词语数比例
词频数 词频比例
语文类
地名、人名、机构名
70884
42597
62%
48%
9158401
255172
97.3%
2.7%
思考之六:
语文词语词表的覆盖率该如何计算
常用汉字的覆盖率: 2500字,98.4% 3500字,99.5%
通用词语的覆盖率?
思考之七: 异形词的普遍性与重要性
核心语料库的加工精度主要指: 1.“词”切分是否准确 2.词性标注是否准确
加工精度是如何影响着词汇的数量与分布; 分词错误的普遍性与可接受程度;
冒出了不存在的“错词”
用压电材料做小平面镜阵来代替一 块反射镜,每块小平面镜可以自动调 节,或者把主镜设计得可以快速改变 其局部的形状,以在最后的焦平面上 获得消除大气湍动和光学像差影响的 天体像。
中文信息处理的三个阶段:
1. 字处理:输入、显示、排序、排版;字形、 字量;
2. 词处理:词语切分、语法属性标注、词 汇单位、词汇统计、词语构成、义项划 分、义项统计
3. 句处理:语法搭配、句型、句式、语法 组合、
下面是对汉字显示问题的探讨
走进计算机汉字字库(《光明日报》98.9.8) 王 生 随着计算机的推广和普及,计算机汉字字库
一/m 国/n 大事/n ,/w 无/v 一/m 不 /d 坏/a 在/p "/w 争功/v 妒嫉/v "/w 和 /c "/w 蜚语/n 中伤/v "/w 之上/nd , /w 难道/d 我/r 国人/n 真/d 有/v 此/r 特性/n 真/d 改/v 不/d 掉/v 此种/r 特性 /n 吗/u !/w
一地在要工 上是中国 有人我
“词”单位的研究
“词单位”的研究是词汇研究的一项基础工 作。
词的大小,词的切分,直接影响到“词单 位”的存在。
汉语的“词”是什么?汉语的词概括什么 来区分?
汉语“词”的认定
乌云 白云 彩云 阵云 黑云 校景 校道 校服 校警 校花
校舍 校区 校规 喷漆 喷气 喷油 喷饭 喷汤
喷粪
词表的提取
“词单位”的集成,就是词表的形成。 词表是某领域词汇全貌的反映。
从大规模语料中提取词表,就是完成从最 原始的“矿料”中提取成品的任务,是一 项要经历多个环节的复杂工作。
1. 词典语料库的词表——成熟、稳定的词 语——研究重心是有与无;
2. 真实语料的词表——语言与言语的混成 物——研究重心是是与否
挖-根子,戴帽子,打-棍子,那就不好了嘛。一 来就是五-子-登科 一顶“文艺-黑线-专政-论”的帽子 还给它起了一个吓人的名字“狼-桃”
目-不-旁-视 剧-画-就是-我国-的-连环画 一-辆-人-货车 其-燃料-多用-枣-木炭
思考之பைடு நூலகம்:语文词语的地位
从核心语料库共提取词语163162条:
德国-队 芬兰-队、日本-队、香港队 已-不是-专注-于-劲歌-劲-曲
思考之三:
机器分词对词的“意义完整性”的影 响
白-磷 滤-纸
X-光-室 卫-线 信-徒 互济-会 行为-科学 实行-党委-集体领导-下-的首长-分工-负责制
思考之四:新词、言语词的难产
千万不要认为我这县长能一-掌-遮-天 现在不是提倡访-富-问-甜吗 从上面三例,可以总结出“傻-论”者的观点 这一席话,言-简-情深 先定一个框框,拿框子去套,接着就是抓-辫子,
船/n 上/nd 有/v 英国人/n ,/w 也/d 有 /v 经营/v 商业/n 的/u 别/r 国人/n , /w 你/r 可/vu 去/v 问/v 他们/r "/w 。
/w
中国/ns 的/u 人民/n 是/vl 多疑/a 的/u 。 /w 无论/c 那/r 一/m 国人/n ,/w 都/d 指/v 这/r 为/vl 可笑/a 的/u 缺点/n 。
汉字字库技术有新突破
记者 刘德金(计算机世界报 1994年 第27期) 近十年来我国的汉字信息处理技术得到了较大进展,
推动了我国计算机应用技术的发展。单就汉字字库 技术来讲发展也是相当快的,在点阵字库的基础上, 发展了矢量汉字技术、曲线汉字字库技术,这些字 库技术在提高汉字处理的分辨率、压缩存储容量方 面都已经有了明显的进步。但这些字库技术都是将 每个汉字看成一个独立的不可分的基本单位,字库 描述的基本单位仍然是字,描述一个字的轮廓仍然 占用较多的存储空间。根据中国汉字是按偏旁、部 首结构而成的这一特点,很多专家学者做为汉字基 本描述单位来构造汉字整字的新思路,并且也做了 大量的工作,但由太大,只用简单拼凑的办法拼出 来的字很不理想,所以至今这种字库设备未被计算 机厂家采纳。
尊从(1)——遵从(51) 啄磨(1)——琢磨(143) 绉纹(3)——皱纹(118) 蕴酿(1)——酝酿(117) 心惊胆颤(2)——心惊胆战(4) 席梦司(1)——席梦思(3) 稀里哗拉(2)——稀里花啦(2) 一骨古脑(1)——一古脑(22) 一刀两段(1)——一刀两断(7)
“核心语料库”
本文所利用的语料是国家语委“通用语 料库”中的核心语料库。
“核心语料库的字数为2000万字,由 7000万语料中筛选出来。由于《选材原 则》是经几次专家论证确定的,核心语 料库的语料筛选工作,在语料分科、年 限划分、比例、字数等方面基本上仍依 照《选材原则》进行。”(《说明》)
应用语言学概论
计算语言学:
通过建立形式化的数学模型,来分 析、处理自然语言,并在计算机 上用程序来实现分析和处理的过 程,从而达到以机器来模拟人的 部分乃至全部语言能力的目的。
计算语言学有时也叫做计量语言 学,数理语言学、自然语言理解、 自然语言处理、人类语言技术
处理汉语的计算语言学通常也叫做 “中文信息处理”
“错词”的可容度:
以“国人”为例:
过去/nt 几/m 年中/nt 两/m 国人/n 民 间/n 频繁/a 的/u 交往/v 。/w
及/c 古/a 梵文/n ,/w 古/a 波斯/ns 文 /n 及/c 突厥/ns 回鹘/n 诸/r 国/n 文字 /n 无算/v ;/w 我/r 国人/n 始/v 稍稍 /d 知之/v 。
五笔字型更深远的意义还在于它以自 己特有的快捷、准确,证明汉字是可以适 应现代科技时代需要的。长期以来汉字必 须改革的一个坚强理论支柱就是汉字不适 应现代科技发展的要求,不适应电子计算 机的发展,难以进行中文信息处理。而现 在证明,汉字在电脑中不仅可以进行处理, 而且处理的速度可以很快。它的输入速度 已经超过了英文字母的全拼式输入方法。 汉字已经不再是一个过了时的古代社会遗 物。
使已有的“词”消失
用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜 /n ,/w 每/r 块/q 小/a 平面/n 镜/n 可 以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上 /nd 获得/v 消除/v 大气/n 湍/v 动/v 和 /c 光学/n 像/n 差/a 影响/v 的/u 天体 /n 像/n 。/w
ID8092/JN10000402/《实测天体物理学》
“做小”
用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜 /n ,/w 每/r 块/q 小/a 平面/n 镜/n 可 以/vu 自动/a 调节/v ,/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ,/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上 /nd 获得/v 消除/v 大气/n 湍/v 动/v 和 /c 光学/n 像/n 差/a 影响/v 的/u 天体 /n 像/n 。/w
在鸣-沙-山上-看完-大漠-落日-的-人群结队-滚-将-上来。
文化大革命-的-后遗症,二-十年-不治!
黄-老-曾-到-戏园子-来看-戏
思考之二:机器分词频率标准的强制性
围成 仅限于 本市 遥指 中日 攻下 单靠 这么回事
(他)换好(了入殓的衣服) 一些-硫酸-溅到-了-腿上
也一步一步地走向我。但人们对计算机汉字字库 是如何产生的还不是很清楚。 汉字字库的发展大致经历了三个阶段,最初 是点阵字库,之后是向量字库,现在则用曲线字 库。一套精美的汉字字库从设计到最后成型,一 般需要2-3年的时间。汉字字库的开发生产的流 程大致可以分为以下几个阶段:字体选型、字稿 设计、字的扫描和数字化拟合、人工修字和补字、 质量检查、成库、功能测试。
长沙工程兵学院曾冬初先生经多年的研究实现了 这一理想,他研究出了一种高精度、省内存的多 级结构汉字字库技术。其基本思想是充分利用汉 字的笔划数远远小于汉字字符集这一实际,将汉 字条形描述由上到下细分成若干级,每级分别编 码,最低级是以笔划或组成笔划的曲线段为基本 描述单位。利用汉字多级结构原理,形成公用的 多级结构文件。技术上突破的关键在于对任何一 个整字进行结构描述进,利用了多级座标平移、 旋转、放大及缩小技术进行优化造出令人满意的 字型。目前曾先生已研制出含五种字体的国标汉 字集(含6763个汉字)
核心语料库的特点:
1. 真实语料:包括语言词与言语词; 2. 加工语料:分词与词性标注; 3. 机器处理与人工干预共同作用的产物:
在提取词表的工作中,碰到了许多理 论与实践上的问题,或是新启之,或 是补校之,或是刊误之,都需要我们 对此进行深入的思考,并作出妥善的 解决。
思考之一:语料库的加工精度问题
“国人”的分词正确率
xuhao word number frequency all_frequency
12311 国人 71 0.001%
91.048%
总用例:71 误例:16 正例:55
总字符串:3144 误例:3089 正例:55
正例比:55/71 正确率:78%
正例比:55/3144 正确率:1.75%
机器分词将向面向人的研究,以探讨”语言 真实面貌”为目的的研究带来极大的副作 用。
保留语言真实面貌,就应该把“词”建立在” 意义完整”、“独立运用”的基本要求上。 要按“词”的本来面目来切分词单位。
思考之八:书面语与口语的差异
正在研制中的“通用词表”里面收儿化词 997条。
在1991-2005(5)约3.5亿字的《人民 日报》中,词频总数26971次;
儿化词去“儿”化的词频为249556次。 口语与书面语中的“儿化”有无之比
1︰10
思考之九:机器分词的局限
机器分词的基本作法是“词典主义”,词典 中有的词予以保留,没有的词被切割.具有 某种作用,但破坏了“真实语料”的本来面 貌。