常见字符编码规则
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见字符编码规则
AS CⅡ、ISO-8859-1、GB2312、GBK、Unicode
Ucs (university character set)
1.2字节(16位) —— ucs-2
2.4字节(32位) —— ucs-4
UTF (ucs transformation format)
常见的utf编码包括 utf-8、utf-7、utf-16
Utf-8 就是以1个字节(8位)为单位对ucs进行编码。
从ucs-2到utf-8的字符编码转换方式
例
中文字符“汉”unicode字符编码的十六进制为0x6C49,
0x6C49在0x0800——0xFFFF之间。故需用上表格中的3字节模板将0X6C49写成二进制数据的形式( 0110 110001 001001 ), 用这个二进制流即E6B189, 因此“汉”的utf-8字符编码0xE6B189 .
“汉”的unicode编码0110 110001 001001 3字节模板1110 XXXX 10XXXXXX 10XXXXXX
“汉”的utf-8编码11100110 10110001 10001001