走进计算机汉字字库

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一/m 国/n 大事/n ，/w 无/v 一/m 不 /d 坏/a 在/p "/w 争功/v 妒嫉/v "/w 和 /c "/w 蜚语/n 中伤/v "/w 之上/nd ， /w 难道/d 我/r 国人/n 真/d 有/v 此/r 特性/n 真/d 改/v 不/d 掉/v 此种/r 特性 /n 吗/u ！/w
“国人”的分词正确率
xuhao word number frequency all_frequency
12311 国人 71 0.001%
91.048%
总用例：71 误例：16 正例：55
总字符串：3144 误例：3089 正例：55
正例比：55/71 正确率：78%
正例比：55/3144 正确率：1.75%
一地在要工上是中国有人我
“词”单位的研究
“词单位”的研究是词汇研究的一项基础工作。
词的大小，词的切分，直接影响到“词单位”的存在。
汉语的“词”是什么？汉语的词概括什么来区分？
汉语“词”的认定
乌云白云彩云阵云黑云校景校道校服校警校花
校舍校区校规喷漆喷气喷油喷饭喷汤
长沙工程兵学院曾冬初先生经多年的研究实现了这一理想，他研究出了一种高精度、省内存的多级结构汉字字库技术。其基本思想是充分利用汉字的笔划数远远小于汉字字符集这一实际，将汉字条形描述由上到下细分成若干级，每级分别编码，最低级是以笔划或组成笔划的曲线段为基本描述单位。利用汉字多级结构原理，形成公用的多级结构文件。技术上突破的关键在于对任何一个整字进行结构描述进，利用了多级座标平移、旋转、放大及缩小技术进行优化造出令人满意的字型。目前曾先生已研制出含五种字体的国标汉字集（含６７６３个汉字）
使已有的“词”消失
用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜 /n ，/w 每/r 块/q 小/a 平面/n 镜/n 可以/vu 自动/a 调节/v ，/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ，/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上 /nd 获得/v 消除/v 大气/n 湍/v 动/v 和 /c 光学/n 像/n 差/a 影响/v 的/u 天体 /n 像/n 。/w
挖-根子，戴帽子，打-棍子，那就不好了嘛。一来就是五-子-登科一顶“文艺-黑线-专政-论”的帽子还给它起了一个吓人的名字“狼-桃”
目-不-旁-视剧-画-就是-我国-的-连环画一-辆-人-货车其-燃料-多用-枣-木炭
思考之五：语文词语的地位
从核心语料库共提取词语163162条：
汉字字库技术有新突破
记者刘德金（计算机世界报 1994年第27期）近十年来我国的汉字信息处理技术得到了较大进展，
推动了我国计算机应用技术的发展。单就汉字字库技术来讲发展也是相当快的，在点阵字库的基础上，发展了矢量汉字技术、曲线汉字字库技术，这些字库技术在提高汉字处理的分辨率、压缩存储容量方面都已经有了明显的进步。但这些字库技术都是将每个汉字看成一个独立的不可分的基本单位，字库描述的基本单位仍然是字，描述一个字的轮廓仍然占用较多的存储空间。根据中国汉字是按偏旁、部首结构而成的这一特点，很多专家学者做为汉字基本描述单位来构造汉字整字的新思路，并且也做了大量的工作，但由太大，只用简单拼凑的办法拼出来的字很不理想，所以至今这种字库设备未被计算机厂家采纳。
“错词”的可容度：
以“国人”为例：
过去/nt 几/m 年中/nt 两/m 国人/n 民间/n 频繁/a 的/u 交往/v 。/w
及/c 古/a 梵文/n ，/w 古/a 波斯/ns 文 /n 及/c 突厥/ns 回鹘/n 诸/r 国/n 文字 /n 无算/v ；/w 我/r 国人/n 始/v 稍稍 /d 知之/v 。
在鸣-沙-山上-看完-大漠-落日-的-人群结队-滚-将-上来。
文化大革命-的-后遗症，二-十年-不治！
黄-老-曾-到-戏园子-来看-戏
思考之二：机器分词频率标准的强制性
围成仅限于本市遥指中日攻下单靠这么回事
（他）换好（了入殓的衣服）一些-硫酸-溅到-了-腿上
中文信息处理的三个阶段:
1. 字处理:输入、显示、排序、排版;字形、字量;
2. 词处理：词语切分、语法属性标注、词汇单位、词汇统计、词语构成、义项划分、义项统计
3. 句处理：语法搭配、句型、句式、语法组合、
光明日报》98.9.8) 王生随着计算机的推广和普及，计算机汉字字库
核心语料库的加工精度主要指： 1.“词”切分是否准确 2.词性标注是否准确
加工精度是如何影响着词汇的数量与分布；分词错误的普遍性与可接受程度；
冒出了不存在的“错词”
用压电材料做小平面镜阵来代替一块反射镜，每块小平面镜可以自动调节，或者把主镜设计得可以快速改变其局部的形状，以在最后的焦平面上获得消除大气湍动和光学像差影响的天体像。
也一步一步地走向我。但人们对计算机汉字字库是如何产生的还不是很清楚。汉字字库的发展大致经历了三个阶段，最初是点阵字库，之后是向量字库，现在则用曲线字库。一套精美的汉字字库从设计到最后成型，一般需要2－3年的时间。汉字字库的开发生产的流程大致可以分为以下几个阶段：字体选型、字稿设计、字的扫描和数字化拟合、人工修字和补字、质量检查、成库、功能测试。
尊从（1）——遵从（51）啄磨（1）——琢磨（143）绉纹（3）——皱纹（118）蕴酿（1）——酝酿（117）心惊胆颤（2）——心惊胆战（4）席梦司（1）——席梦思（3）稀里哗拉（2）——稀里花啦（2）一骨古脑（1）——一古脑（22）一刀两段（1）——一刀两断（7）
核心语料库的特点：
1. 真实语料：包括语言词与言语词； 2. 加工语料：分词与词性标注； 3. 机器处理与人工干预共同作用的产物：
在提取词表的工作中，碰到了许多理论与实践上的问题，或是新启之，或是补校之，或是刊误之，都需要我们对此进行深入的思考，并作出妥善的解决。
思考之一：语料库的加工精度问题
ID8092/JN10000402/《实测天体物理学》
“做小”
用/v 压/v 电/n 材料/n 做小/v 平面/n 镜/n 阵/n 来/vd 代替/v 一块/d 反射镜 /n ，/w 每/r 块/q 小/a 平面/n 镜/n 可以/vu 自动/a 调节/v ，/w 或者/c 把/p 主/n 镜/n 设计/v 得/u 可以/vu 快速/a 改变/v 其/r 局部/n 的/u 形状/n ，/w 以/p 在/p 最后/n 的/u 焦/a 平面/n 上 /nd 获得/v 消除/v 大气/n 湍/v 动/v 和 /c 光学/n 像/n 差/a 影响/v 的/u 天体 /n 像/n 。/w
字体选型是字库开发的基础工作。任何一套字体的选定都要经过反复的比较、论证、试做，只有在字体风格、规范程度、字稿质量、美观性等各方面都具有相当水平，才可以确定选用。计算机里使用的一种字种字体都要有一套相应的字库。市场上不仅可以见到宋、仿、黑、楷、隶书等传统印刷字体，还可以见到行楷、姚体、舒体、美黑等一大批风格各异、特点突出的新字体。据悉，北大方正现在已经开发出72种简繁体字库。
这/r 虽/c 不是/vl 人人/n 办/v 得到/v ， /w 但/c 那/r 一/m 国/n 文字/n 最好/a 请/v 那/r 一/m 国人/n 来/vd 做/v 教师 /n ，/w 却是/vl 比较/d 适宜/a 的/u 办法/n 。
大致/d 有/v 二/m 种/v 情况/n ：/w 一 /m 是/vl 法律/n 对/a 我国/n 公民/n 的 /u 适用/v 范围/n ；/w 二/m 是/vl 法律 /n 对外/d 国人/n 的/u 适用/v 范围/n 。
应用语言学概论
计算语言学:
通过建立形式化的数学模型,来分析、处理自然语言，并在计算机上用程序来实现分析和处理的过程，从而达到以机器来模拟人的部分乃至全部语言能力的目的。
计算语言学有时也叫做计量语言学，数理语言学、自然语言理解、自然语言处理、人类语言技术
处理汉语的计算语言学通常也叫做 “中文信息处理”
思考之八：书面语与口语的差异
正在研制中的“通用词表”里面收儿化词 997条。
在1991-2005（5）约3.5亿字的《人民日报》中，词频总数26971次；
儿化词去“儿”化的词频为249556次。口语与书面语中的“儿化”有无之比
1︰10
思考之九：机器分词的局限
机器分词的基本作法是“词典主义”,词典中有的词予以保留,没有的词被切割.具有某种作用,但破坏了“真实语料”的本来面貌。
机器分词将向面向人的研究,以探讨”语言真实面貌”为目的的研究带来极大的副作用。
保留语言真实面貌,就应该把“词”建立在” 意义完整”、“独立运用”的基本要求上。要按“词”的本来面目来切分词单位。
喷粪
词表的提取
“词单位”的集成，就是词表的形成。词表是某领域词汇全貌的反映。
从大规模语料中提取词表，就是完成从最原始的“矿料”中提取成品的任务，是一项要经历多个环节的复杂工作。
1. 词典语料库的词表——成熟、稳定的词语——研究重心是有与无；
2. 真实语料的词表——语言与言语的混成物——研究重心是是与否
词语数词语数比例
词频数词频比例
语文类
地名、人名、机构名
70884
42597
62%
48%
9158401
255172
97.3%
2.7%
思考之六：
语文词语词表的覆盖率该如何计算
常用汉字的覆盖率： 2500字，98.4% 3500字，99.5%
通用词语的覆盖率?
思考之七：异形词的普遍性与重要性
船/n 上/nd 有/v 英国人/n ，/w 也/d 有 /v 经营/v 商业/n 的/u 别/r 国人/n ， /w 你/r 可/vu 去/v 问/v 他们/r "/w 。
/w
中国/ns 的/u 人民/n 是/vl 多疑/a 的/u 。 /w 无论/c 那/r 一/m 国人/n ，/w 都/d 指/v 这/r 为/vl 可笑/a 的/u 缺点/n 。
五笔字型更深远的意义还在于它以自己特有的快捷、准确，证明汉字是可以适应现代科技时代需要的。长期以来汉字必须改革的一个坚强理论支柱就是汉字不适应现代科技发展的要求，不适应电子计算机的发展，难以进行中文信息处理。而现在证明，汉字在电脑中不仅可以进行处理，而且处理的速度可以很快。它的输入速度已经超过了英文字母的全拼式输入方法。汉字已经不再是一个过了时的古代社会遗物。
德国-队芬兰-队、日本-队、香港队已-不是-专注-于-劲歌-劲-曲
思考之三：
机器分词对词的“意义完整性”的影响
白-磷滤-纸
X-光-室卫-线信-徒互济-会行为-科学实行-党委-集体领导-下-的首长-分工-负责制
思考之四：新词、言语词的难产
千万不要认为我这县长能一-掌-遮-天现在不是提倡访-富-问-甜吗从上面三例，可以总结出“傻-论”者的观点这一席话，言-简-情深先定一个框框，拿框子去套，接着就是抓-辫子，
“核心语料库”
本文所利用的语料是国家语委“通用语料库”中的核心语料库。
“核心语料库的字数为2000万字，由 7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的，核心语料库的语料筛选工作，在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行。”（《说明》）