数据与文字的表示方法(含数据校验)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据与文字表示
1981年，GB2312-80国家标准，包括6 763个汉字/682个非汉字字符，称为国标码 GB2312字符集的构成：
– 一级常用汉字3755个，按汉语拼音排列 – 二级常用汉字3008个，按偏旁部首排列 – 非汉字字符682个
10
汉字标准
GB2312-1980(GB0)(简体)
– Unicode目前定义的99089个字符，其中包括71226 个汉字,平面2的43253个字符都是汉字。平面0上定义了27973个汉字
14
Universal Character Set ISO
UCS通用字符集 –ISO 10646
数据与文字表示
UTF-16VSUTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但 UTF-16却无法兼容于ASCII编码。c#中默认的就是UTF-16，所以在处理c#字符串的时候只能是 byte,stream 等方式去处理 – 包含了用于表达所有已知语言的字符
8
2.1.2 汉字表示法
数据与文字表示
汉字信息在计算机中的存储、交换、检索等 --汉字内码 8 bit数据仅能表示256个字符，常用汉字6 000多个，故其无法表示汉字 GB2312国家标准采用16位表示,2个字节与ASCII字符的区别，最高有效位MSB=1
9
GB2312-80国家标准
数据与文字表示
– 数字编码：国标区位码，区码和位码各用两位十进制数字表示，例如“中” 区位码为5448。 GB2312-80《信息交换用汉字编码字符集》国标码是四位十六进制数，区位码则是四位的十进制数特点：无重码，但难记。
– 拼音码：重码率高，需要会读拼音： –犇猋骉蟲麤毳淼掱垚烜屾 – 字形编码：五笔字型输入法
数据与文字表示
Standards
– ASCII-American Standard Code for Information Interc hange (ANSI 7bits)
–
–
EBCDIC-Extended Binary-Coded Decimal Interchange Code (IBM 8bits)
包括拉丁语，希腊语，斯拉夫语，希伯来语，阿拉伯语，亚美尼亚语和乔治亚语的描述，还包括中文，日文和韩文这样的象形文字，以及平假名，片假名，孟加 – UCS的实际表现形式，即怎样将Unicode 拉语，旁遮普语果鲁穆奇字符 (Gurmukhi), 泰米尔语，印 .埃纳德语定义的数（Kannada),Malayalam ，泰国语，老挝语，汉语拼音字转换成程序数据（Bopomofo),Hangul,Devangari,Gujarati,Oriya,Telugu 以及其他数也数不 – UTF-8：以字节为单位对Unicode进行编码清的语. 对于还没有加入的语言，由于正在研究怎样在计算机中最好地编码它们， – UTF-16：.编码以16位无符号整数为单位（古代北欧因而最终它们都将被加入这些语言包括 Tibetian ，高棉语， Runic 文字），埃塞俄比亚语，其他象形文字，以及各种各样的印 -欧语系的语言，还包 – UTF-32编码以32位无符号整数为单位括挑选出来的艺术语言比如 Tengwar,Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的，印刷用的，数学用的和科学用的符号，包括所有由 TeX,Postscript,MS-DOS[2]，MS-Windows,Macintosh,OCR字体，以及许多其他字处理和出版系统提供的字符.
计算机利用寄存器存储数据寄存器中每个位称bit (Binary DigiT) 最高有效位 (MSB) 最低有效位 (LSB)
Biblioteka Baidu
数据与文字表示
7
6
5
4
3
2
1
0
0
1
0
1 1
0
0
1
MSB Most significant bit
LSB Least significant bit
7
2.1.2 汉字表示法英文键盘输入汉字--输入编码：
数据与文字表示
12
Charset
<META content="text/html; charset=gb2312" … http-equiv=Content-Type>
数据与文字表示
charset=gb2312 简体中文 charset=big5 繁体中文 charset=EUC_KR 韩语 charset=Shift_JIS 或 EUC_JP 日语 charset=KOI8-R/Windows-1251俄语 charset=iso-8859-2 中欧语系 charset=utf-8 unicode多语言
5
ASCII
使用7bit表示128个字符
– From 000 0000 to 111 1111 2 =128
7
数据与文字表示
注意：ASCII中的数字字符和数字本身不相等几乎所有计算机均支持该代码集但不是所有语言都能用128个字符表示 8Bit=1字节，MSB=0
6
Terminology
Unicode
4
128 Standard ASCII codes
52 Letters
– a-z, A-Z
数据与文字表示
10 Digits
– 0-9
34 Symbols
– !@#$%^&*() …
32 Control characters
– <CR> <DEL> <ESC> <LF> …
计算机组成原理
2-1 数据与文字的表示方法
Outline
2.1 非数值数据表示法
数据与文字表示
2.2 数值数据表示法
2.3 数据信息的校验
2
2.1 非数值数据表示法字符表示法 characters 汉字表示法 Chinese characters
数据与文字表示
3
2.1.1 Character representation … 如何使用数值表示字符数据
– 6763个汉字
数据与文字表示
宋体隶书微软雅黑华文琥珀
GB13000-1993
– 20902个汉字 (Unicode 1.1版本)
汉字扩展规范GBK1.0 标准1995（非国家标准）
– 21003个字符（兼容GB2312）
GB18030-2000(1/2/4字节编码)
13
Unicode
www.unicode.org
数据与文字表示
用于克服字符数字的限制为所有语言中的字符分配唯一的代码
16 bit 字符集, 17个平面，一共有17*65536=11141 12个码位 (每个平面有2^16=65536个码位 )
提供唯一的代码
– 不论任何平台 – 不论任何程序 – 不论任何语言
– 27484汉字（向下兼容GB2312 GBK，GB13000）
11
字模码介绍
字模码是用点阵表示的汉字字型代码，是汉字的输出形式。字模点阵的信息量是很大的，所占存储空间也很大。以16*16为例，每个汉字要占用32个字节，因此字模点阵只能用来构成汉字库，而不能用于机内存储。