常见字符编码规则

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常见字符编码规则

AS CⅡ、ISO-8859-1、GB2312、GBK、Unicode

Ucs (university character set)

1.2字节(16位) —— ucs-2

2.4字节(32位) —— ucs-4

UTF (ucs transformation format)

常见的utf编码包括 utf-8、utf-7、utf-16

Utf-8 就是以1个字节(8位)为单位对ucs进行编码。

从ucs-2到utf-8的字符编码转换方式

中文字符“汉”unicode字符编码的十六进制为0x6C49,

0x6C49在0x0800——0xFFFF之间。故需用上表格中的3字节模板将0X6C49写成二进制数据的形式( 0110 110001 001001 ), 用这个二进制流即E6B189, 因此“汉”的utf-8字符编码0xE6B189 .

“汉”的unicode编码0110 110001 001001 3字节模板1110 XXXX 10XXXXXX 10XXXXXX

“汉”的utf-8编码11100110 10110001 10001001

相关文档
最新文档