声数码汉字输入法及其发明人唐懋宽先生
第三章汉字编码原理
㈣标调拼音码
• 汉语是有声调的语言,汉语的声调是一 个重要的“音位”,具有重要的辨义功 能。有一种乐器叫做“雷琴”,可以只 用“音高”就能模拟汉语的句子。这个 例子足以说明汉语声调的重性。
• 拼音码为了降低重码率,采用标调的办法,这 样的拼音码,我们称之为“标调拼音码”。 • 汉语的音节是有数的:不加声调只有412个, 加声调则有1300个左右。 • 汉字共有6万个。收在《基本集》中的有67 63个。 • 不加声调平均每个音节约有15个重码,加上 重码分布的不平衡,个别的音节就有几十甚至 上百个; • 如果加上声调,平均每个音节只有不到4个重 码了。
拼音编码的瓶颈
• 同音字繁多,影响输入 • 《新华字典》中,读SHI音的字有72个, • 《汉语词典》中,读YI音的字有164个。
• • • • • • • •
同音词也影响编码输入 Shi-shi的词就有如下的24条: 失实、失时、诗史、失事、 失势、施事、实施、时时、 事事、时事、时势、时世、 时式、史诗、史实、试试、 誓师、事实、适时、事势、 逝世、世事、视事、实时
• 一般的编码方案多采用26个英文字母 作码元, • 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, • 还有的把字母键盘区的其它功能键也利 用上的。 • 这种需要增加码元数的方案多数是形码 方案。
3、确定编码规则
• 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 • 实际上最难做到。 • 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 • 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 • 人为地增加许多规定,势必增加用户的学习量。
利用汉语拼音的汉字输入方法[发明专利]
专利名称:利用汉语拼音的汉字输入方法专利类型:发明专利
发明人:曾宗国
申请号:CN00130560.3
申请日:20000929
公开号:CN1346083A
公开日:
20020424
专利内容由知识产权出版社提供
摘要:一种利用汉语拼音的汉字输入方法,其配合运用一选择器以选择拼音符号的输入,选择器包括有预定数量的按键,该方法是根据拼音符号结构的声母、韵母与声调等,作不同的选单分类,将声调分为5组、将声母与韵母分配组成预定组数的群组后再分成4组,而据以分配设定作为选择器中9个按键被按压时的代表值,以供使用者选择而进行汉字输入。
本输入方法最多输入5码便可在一般按键数较少的无线通信产品中利用汉语拼音完成汉字的输入。
申请人:曾宗国
地址:中国台湾
国籍:CN
代理机构:永新专利商标代理有限公司
代理人:徐娴
更多信息请下载全文后查看。
正规拼音汉字输入法[发明专利]
专利名称:正规拼音汉字输入法专利类型:发明专利
发明人:柳德钟
申请号:CN95111796.3
申请日:19951011
公开号:CN1144353A
公开日:
19970305
专利内容由知识产权出版社提供
摘要:正规拼音汉字输入法简称正拼输入法或正拼码,属计算机汉字音码键盘输入法。
它以54个无声调及带声调的拼音字母为构件,以汉语拼音方案规范为输入规则,输入过程完全模拟汉字的拼音书写过程;可混合输入汉字和拼音字母;有汉字拼音查询功能;输入中可智能地修改拼音字母的声调;正拼码模块可挂接在汉字操作系统上。
正拼码完全符合国家汉语拼音方案及中小学语文教学的规范,将对计算机检索、汉字输入和语言文字的规范化起促进作用。
申请人:柳德钟
地址:214025 江苏省无锡市曹张新村327号302室
国籍:CN
更多信息请下载全文后查看。
汉字输入方法发展的历史回顾
汉字输入方法发展的历史回顾由于汉字有数以万计,电脑键盘不可能为每一个汉字而造一个按键。
因此,人们需要替汉字编码(检索出汉字的代码),用数个键来输入一个汉字。
中文输入法的发展过程,是“万码奔腾”的过程,在30年间出现了上千种编码方法。
最早的汉字输入法,一般认为是从70年代末期或者80年代初期有了个人电脑PC开始诞生的,虽然更早有电报码,用0~9十个数字中的四位组合构成每一个汉字,便于邮电局发送电报之用,但通常意义上,人们还是认为从1981年国家标准局发布《信息交换用汉字编码字符集基本集》GB2312-80以来,个人计算机上开始使用五笔或者拼音输入汉字才是输入法广为使用的真正开始。
在台湾的汉字输入法历史则可追溯至1976年由朱邦复发明之仓颉输入法开始。
汉字输入法的发展,一方面是输入法软件的功能的改进和完善,另一方面是新型输入法编码的不断涌现。
前者主要是针对拼音输入法,后者则出现了“万码奔腾”的局面。
早期的输入法软件大都为收费软件,很多企业或个人依靠销售输入法软件挣钱,如今收费的输入法已经很少,绝大多数输入法软件都是免费的产品。
拼音类的输入法包括大陆的拼音输入法和台湾的注音输入法等。
拼音输入法相比其他输入法有着天然的优势,因为现代每一个接受教育的中国人在还没学习汉字前就先用大量时间学习汉语拼音或注音符号,原本只是用来标记汉字读音的拼音也就可以轻松地作为汉字的输入编码。
拼音输入法另一个优势就是接近口语话,所以拼音输入法可以在极短时间内被广泛接受。
但是拼音输入法有着致命的弱点,就是汉字输入法编码时,单字重码率异常高,即使词组重码率也非常高。
为了让拼音能够较快速的录入汉字,只有借助复杂的输入法软件来提高拼音输入能力,比如支持智能排序,以词定字,整句输入,云输入功能等,纵观拼音输入法的发展,也即拼音输入法软件的发展。
在中文输入法诞生之初就最先出现拼音输入法,但是当时的拼音输入法软件功能差,字序固定,不支持词组和整句输入,甚至文字不能和编码一起显示。
22756740_汉语拼音,如此一路走来
据不完全统计,我国95%的用户在电脑或手机上采用拼音法进行文字输入。
不知道你有没有想过,若是没有拼音,我们该如何输入文字呢?尤其是在电脑还没有发明的年代,莫非要将所有的汉字都汇集到一张巨大的键盘上吗?没错,还真就是这样。
1915年9月29日,山东留美学生祁暄发明了我国最早的中文打字机。
这种打字机自带巨大的“键盘”,而且不止一个。
一个汉字一个铅模,常用汉字总结出近5000个,组成一个字盘;不常用的汉字几千个,组成另一个字盘;生僻字也要组成一个字盘。
这样下来就有了好几摞的字盘,使用起来更不像现在键盘一样简便。
打字员首先要在铅字盘上用一个小钳把铅字钳起,再按一键时,小钳就会举起铅字,隔着色带印在纸上。
这样的打字方式对打字员提出了很高的职业要求——眼神要好,动作要快,还必须细心认真,否则一页纸输入快满时,不小心输入了一个错字,一整张就全部作废。
如果到现在还是用这种方式,我们就不可能愉快地和小伙伴们交流了。
在现在通用的拼音输入法中,所有的汉字都可以用26个英文字母加上数字进行准确的选择。
和大多数国家的表音文字不同,汉字是象形文字,那么每个汉字的读音是如何从古至今流传下来,并最终形成了通过26个拉丁字母来表示的汉语拼音方案的呢?拼音从“书同文”开始关于汉字是何时出现、由何人创立众说纷纭,有结绳说、仓颉造字说、刻划说和图画说等。
甲骨文作为现存最早的汉字,约在公元前1300年殷商时期出现。
随着汉字不断演变,不同地区使用的汉字虽有相似之处,但仍有很多不同。
直到秦始皇一统天下,用行政力量大力推进“书同文”,才确定了每个汉字的标准写法。
从此汉字就像母亲的脐带一样,把全国各地区的人们紧紧联系在一起,虽然历经分分合合,但大一统是每一位雄才大略政治家的基础目标,也是民族魂魄中的不变渴求。
统一的文字,很大程度上在心里奠定了中华民族的疆域版图。
秦始皇实现了“书同文”,却没有提出“语同音”,盖因为当时六国大多集中在黄河流域,方言的问题并不突出,孔子周游列国,未见史籍有翻译官同行的记载便是佐证。
’96国际计算机唯一金奖发明技术——“三维天然码”汉字输入法
’96国际计算机唯一金奖发明技术——“三维天然码”汉字
输入法
佚名
【期刊名称】《科技进步与对策》
【年(卷),期】1997(014)001
【总页数】1页(P76)
【正文语种】中文
【中图分类】N
【相关文献】
1.生态·透水·景观·艺术:国家唯一发明专利和实用新型专利产品获中国国际专利技术与产品交易会金奖 [J],
2.三维码汉字输入法及计算机辅助编码 [J], 刘汉龙
3.海尔荣获国际唯一发明金奖 [J], 无
4.万码奔腾踏键盘中华汉字我登先──访笔顺码汉字输入法发明人王颂平女士 [J], 李鸿笙
5.发明“四笔码”82岁老人获国际金奖 [J], 座铭
因版权原因,仅展示原文概要,查看原文内容请购买。
汉字输入法的故事
汉字输入法的故事
在上个世纪70年代初期,计算机开始进入人们的生活,然而,由
于计算机一直以来是西方的发明,在处理中文输入时遇到很大的困难。
为了解决这个问题,中国学者开始着手研究中文计算机输入法。
起初,中文计算机输入法主要有五笔输入法、拼音输入法、智能ABC输入法等,但因限制较多,体验不好,普及度不高。
后来,由朱啸虎等人研究出来的“联想输入法”诞生了。
与其它输入法不同,联想
输入法可以根据用户的输入过程自动给出相应的词汇,极大地提高了
中文计算机输入的效率和精确度。
在移动互联网的普及及人工智能技术的进步下,现在的中文输入
法更加智能、实用、人性化。
用户在输入文字时可以通过语音输入、
手写输入、拼音输入、五笔输入等多种方式进行选择,同时各大输入
法还提供了丰富的主题、表情、云同步等功能,使用户享受到更好的
使用体验。
然而,中文输入法的演化历程也并非一帆风顺。
从最开始的研究
到硬件框架、软件框架的构建、到最后的人工智能技术的应用、算法
的优化,这个过程中的每一步都不可避免地面临了前所未有的挑战和
困难。
因此,它需要学者不断努力、创新、突破,享受发明带来的成就,同时也需要用户保持开放心态、接受新的输入方式,享受科技带
来的便捷。
中文输入法的完善,体现了科技对生活的巨大促进作用,同时也折射了中国文化的博大精深和中华民族永不放弃追求进步的精神。
在未来的发展道路上,中文输入法还将继续完善智能、便捷、人性化的特点,使得中文输入可以更好地服务人们的生活和工作。
并且,随着语音交互不断普及,人与计算机之间也将迎来一个全新的交互方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字一共有多少个,有各家字典及前人的研究可以作为依据;至于汉语一共有多少个词,这可是谁也说不清楚的问题,更不要说词语的使用频率了。
词频的统计,比字频统计更加复杂,更加困难。首先一条:“词”的概念界定很不清楚,有的学者甚至提出“汉字词无定类”的说法;其次,词语的使用频率,各行各业各不相同,一个极不常用的语词,某一行业的人却可能极为常用。因此,只有经过大数量和大面积的统计,求得的概率,才能更接近正确。
唐懋宽出生在一个普通的农民家庭,五十年代毕业于山东师范大学生物系。山东的煎饼卷大葱,造成了他梗直、憨厚、坚韧不拔的优良品格:一旦他决定了要做的事情,那是十头牛也拉不回来的。早在大学读书的时候,他就为汉字的落后难学、不便于机械化处理和现代化通信苦苦地思考、探索过解决的办法。
从国际化、机械化、易学易用着眼,汉字现代化信息处理的最佳方案当然应该在汉语拼音方案的基础上进行。但是汉语普通话一共只有411个音节(加声调可分一千三百多个音节),而汉字总数多达五六万甚至七八万,现代通用汉字也在一万五千个左右。如何运用这少量的音节表达丰富多采的汉字,的确是一个需要认真对待的问题。六十年代初,唐懋宽用手工操作对《毛泽东选集》进行了用字频率统计,发现四卷书只用了2051个汉字,由此唐先生得到了启发:将汉字按照最常用、常用、次常用、不常用进行分类、优选、组合,一定可以顺利地解决汉字机械化处理中难以解决的同音字问题。
A类方案,“不一样就是不一样噢!”
尽管汉字键盘输入方案已经有几百上千种之多,但是作为全国唯一的A类音码方案,自有其与众不同的独到之处。简而言之,声数码的最大特点,第一是容易学,凡是学过汉语拼音的人,除了键位之外,需要记忆的规则并不多;第二是词语量丰富,十万条词,几乎囊括了当代汉语口头的、书面的所有通用词语,最适宜于作家、编辑、记者、教师等非专业录入人员学习使用;第三是由北京星式电子技术研究所依据声数码特点开发出近百种从幼儿教育开始到小学、中学直到高考的各科练习题库和模拟试题库软件,不但成龙配套,自成体系,而且与教委教学大纲同步,逐年更新,是中小学生最好的家庭教师;第四是打字速度可以提高,能够自然过渡到专业录入人员水平;第五是简繁体汉字通用,为海峡两岸文化的交流和统一奠定了基础。
由于唐先生有比较扎实的准备工作,他的汉字编码进行得比较顺利。一九八四年春天,一个以汉语拼音为基础的、有频率统计作为选字选词依据的、因输入汉字极快而被誉为“神速码”的声数码汉字键盘输入方案,终于产生了。
可以这样说:“神速码”的产生,不但并不神速,二十年时间的摸索探究,简直是历尽艰辛,一言难尽!
是“种瓜得瓜”呢?还是“歪打正着”?
声数码汉字键盘输入法,是山东烟台福山师范学校教师唐懋宽先生在一九八四年六月研制成功的。声数码并不是音码和数码的结合体,而是音码的一种,其特色是经过大数量的字频、词频统计,把两千多个常用汉字分为三类:最常用字用一码输入,常用字用两码输入,次常用字用三码输入,必要的时候再加上声调的区别,这样,就可以离散百分之八十三的常用汉字,给高速盲打奠定了可行的基础。因此,“声数码”的“数”字,似乎可以解释成跟“频度”有关。
经过预赛、决赛,历时一个月,特等奖被北京市西城区广宁伯街小学四年级刘怡同学所获得。她以看打每分钟120字和听打每分钟100字的优异成绩,获得了四个年级组的全场冠军。
她所使用的汉字输入法,是声数码。
其实,声数码汉字输入法在比赛中获得第一名,这可不是第一次了。早在一九八六年三月,在“全国首届汉字编码键盘输入评测会”上,声数码的输入速度一直鳌头独占,获得了与会者“神速”的赞叹,最后被认定为唯一的国家级A类音码方案。一九九一年六月,在“全国中文信息学会成立十周年展览会”上,声数码又创造了每分钟输入320字的非正式高速记录,完全可以用来代替速记记录讲话。在九二年海峡两岸计算机中文输入大赛中,声数码录入人员荣获了四枚金牌、三枚银牌、三枚铜牌,并创造了正确输入每分钟259.7个汉字的正式的世界记录。
六十年代,计算机只有巨型的,个人机还没有出现__即便有,也不是工资微薄的中学老师所敢问津。唐先生所进行的字频统计工作,无例外地当然只能用最原始的手工抄写或剪刀浆糊翦贴来完成。经过大数量的字频统计,他把两千个常用汉字分为最常用、常用、次常用和不常用这样四类,归并的结果,发现前三类常用字共1700个,占常用汉字总数的83%,剩余的17%,有15%可以用组词的办法解决。这样,真正需要直接选择的字,只剩下2%了。
时间终于进入了八十年代。美国IBM公司推出了PC机,在中国,汉字如何输入电脑,也提到了日程上来。唐先生毕竟是从事“信息学”研究的,得知这一信息以后,立刻拿出几十年来的全部积蓄,买了一台三十多公斤重的老式计算机,开始从事汉字编码的研究。这时候,他的头发已经花白,而家里除了一架既当写字台、又当吃饭桌的卧斗式缝纫机之外,简直一无所有。
唐先生决定深入一步继续研究。从此,全家人的业余时间,就几乎全被既繁琐又枯燥的汉字使用频率统计所占据了。
没有想到的是:唐先生的这一研究,目的并不是为了发明一种汉字编码,结果却发明了一种优秀的汉字编码。这是“种瓜得瓜”呢?还是“歪打正着”?
声数码的产生,并不“神速”
我国八十年代出版的《汉语大字典》,收入汉字五万七千多个,据说动员了四百多名编辑人员,花费了十多年的(工作)时间,方才完成。唐先生一家才几个人,要想利用业余时间完成这种大数量、大面积的词频统计,真是谈何容易!
也许是“挖山不止”的“愚公精神”鼓舞了唐先生一家,二十多年来,一家人日复一日地根据各种报刊杂志抄写成卡片,分类排序,终于完成了将近十万条词的词频统计工作,所积累的卡片,一共有两千万张,装了整整二十多条麻袋!
A类方案,名不虚传,“不一样就是不一样噢!”
更上一层楼
唐懋宽先生虽然已经在汉字键盘输入领域取得了可喜的成绩,但他仍不满足。一方面,要求自己的成果精益求精,继续研究,继续完善;另一方面,他还有志于从事电脑自然语音校读的深入探索,要让电脑自然流畅地发出标准的汉语语音来,希图在多媒体和电脑休闲方面给社会提供更多的贡献。有朝一日,人们将能听到电脑为您用标准的普通话朗读中国文学的里程碑《红楼梦》,让林黛玉的《葬花词》感动得您热泪盈框。
祝愿如今已经白发苍苍的唐懋宽先生更一层楼,在新的领域中取得更大的成绩!
声数码汉字输入法及其发明人唐懋宽先生
吴越
1994-11-25
为纪念邓小平同志“电脑的普及要从娃娃抓起”题词十周年,1994年2~3月,由《电脑报》北京通联总站、全国学生越轨预防与研究专业委员会、北京宣武区教育学院分院和北京星式电子技术研究所联合举办的“星式杯”少年计算机汉字输入比赛在北京进行。参加比赛的,共有北京市三个区的中小学生一百五十多人。输入方法,可以自由选择。