数据与文字的表示方法(含数据校验)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据与文字表示
1981年,GB2312-80国家标准,包括6 763个汉字/682个非汉字字符,称为国标 码 GB2312字符集的构成:
– 一级常用汉字3755个,按汉语拼音排列 – 二级常用汉字3008个,按偏旁部首排列 – 非汉字字符682个
10
汉字标准
GB2312-1980(GB0)(简体)
– Unicode目前定义的99089个字符,其中包括71226 个汉字,平面2的43253个字符都是汉字。平面0上定 义了27973个汉字
14
Universal Character Set ISO
UCS通用字符集 –ISO 10646
数据与文字表示
UTF-16VSUTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但 UTF-16却无法兼容于ASCII编码。c#中默认的就是UTF-16,所以在处理c#字 符串的时候只能是 byte,stream 等方式去处理 – 包含了用于表 达所有已知 语言的字符
8
2.1.2 汉字表示法
数据与文字表示
汉字信息在计算机中的存储、交换、检索等 --汉字内码 8 bit数据仅能表示256个字符,常用汉字6 000多个,故其无法表示汉字 GB2312国家标准采用16位表示,2个字节 与ASCII字符的区别,最高有效位MSB=1
9
GB2312-80国家标准
数据与文字表示
– 数字编码:国标区位码,区码和位码各用两位十进制数字 表示,例如“中” 区位码为5448。 GB2312-80《信息交换用汉字编码字符集》 国标码是四位十六进制数,区位码则是四位的十进制数 特点:无重码,但难记。
– 拼音码:重码率高,需要会读拼音: –犇猋骉蟲麤毳淼掱垚烜屾 – 字形编码:五笔字型输入法
数据与文字表示
Standards
– ASCII-American Standard Code for Information Interc hange (ANSI 7bits)
–
–
EBCDIC-Extended Binary-Coded Decimal Interchange Code (IBM 8bits)
包括拉丁语,希腊语,斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语 的描述,还包括中文,日文和韩文这样的象形文字,以及 平假名,片假名,孟加 – UCS的实际表现 形式,即 怎样将Unicode 拉语,旁遮普语果鲁穆奇字符 (Gurmukhi), 泰米尔语,印 .埃纳德语 定义的数 (Kannada),Malayalam ,泰国语,老挝语,汉语拼音 字转换成程序 数据 (Bopomofo),Hangul,Devangari,Gujarati,Oriya,Telugu 以及其他数也数不 – UTF-8:以字节为单位对Unicode进行编码 清的语. 对于还没有加入的语言,由于正在研究怎样在计算机中最好地编码它们, – UTF-16:.编码 以16位无符 号 整数为单 位(古代北欧 因而最终它们都将被加入 这些语言包括 Tibetian ,高棉语, Runic 文字),埃塞俄比亚语,其他象形文字,以及各种各样的印 -欧语系的语言,还包 – UTF-32编码以32位无符号整数为单 位 括挑选出来的艺术语言比如 Tengwar,Cirth 和克林贡语(Klingon). UCS 还包括 大量的图形的,印刷用的,数学用的和科学用的符号,包括所有由 TeX,Postscript,MS-DOS[2],MS-Windows,Macintosh,OCR字体,以及许 多其他字处理和出版系统提供的字符.
计算机利用寄存器存储数据 寄存器中每个位称bit (Binary DigiT) 最高有效位 (MSB) 最低有效位 (LSB)
Biblioteka Baidu
数据与文字表示
7
6
5
4
3
2
1
0
0
1
0
1 1
0
0
1
MSB Most significant bit
LSB Least significant bit
7
2.1.2 汉字表示法 英文键盘输入汉字--输入编码:
数据与文字表示
12
Charset
<META content="text/html; charset=gb2312" … http-equiv=Content-Type>
数据与文字表示
charset=gb2312 简体中文 charset=big5 繁体中文 charset=EUC_KR 韩语 charset=Shift_JIS 或 EUC_JP 日语 charset=KOI8-R/Windows-1251俄语 charset=iso-8859-2 中欧语系 charset=utf-8 unicode多语言
5
ASCII
使用7bit表示128个字符
– From 000 0000 to 111 1111 2 =128
7
数据与文字表示
注意:ASCII中的数字字符和数字本身不相等 几乎所有计算机均支持该代码集 但不是所有语言都能用128个字符表示 8Bit=1字节 ,MSB=0
6
Terminology
Unicode
4
128 Standard ASCII codes
52 Letters
– a-z, A-Z
数据与文字表示
10 Digits
– 0-9
34 Symbols
– !@#$%^&*() …
32 Control characters
– <CR> <DEL> <ESC> <LF> …
计算机组成原理
2-1 数据与文字的表示方法
Outline
2.1 非数值数据表示法
数据与文字表示
2.2 数值数据表示法
2.3 数据信息的校验
2
2.1 非数值数据表示法 字符表示法 characters 汉字表示法 Chinese characters
数据与文字表示
3
2.1.1 Character representation … 如何使用数值表示字符数据
– 6763个汉字
数据与文字表示
宋 体 隶 书 微 软 雅 黑 华 文 琥 珀
GB13000-1993
– 20902个汉字 (Unicode 1.1版本)
汉字扩展规范GBK1.0 标准1995(非国家标准)
– 21003个字符(兼容GB2312)
GB18030-2000(1/2/4字节编码)
13
Unicode
www.unicode.org
数据与文字表示
用于克服字符数字的限制 为所有语言中的字符分配唯一的代码
16 bit 字符集, 17个平面,一共有17*65536=11141 12个码位 (每个平面有2^16=65536个码位 )
提供唯一的代码
– 不论任何平台 – 不论任何程序 – 不论任何语言
– 27484汉字 (向下兼容GB2312 GBK,GB13000)
11
字模码介绍
字模码是用点阵表示的汉字字型代 码,是汉字的输出形式。 字模点阵的信息量是很大的,所占 存储空间也很大。以16*16为例, 每个汉字要占用32个字节, 因此字模点阵只能用来构成汉字库, 而不能用于机内存储。