字符编码总结 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 文件的存储方式：2进制格存储

文件都有自己的存储格式，比如最常见的txt，cpp，h，c，xml ，png，rmvb各种格式，还有自定义格式。这些文件不论是什么格式，都是存储在计算机硬盘里的2进制格存储，对应不同文件格式，有不同的软件解析。

2 统一字符编码

文本文件对应于人类可以阅读的文本，如何从2进制转换为文本文件呢？起初由于计算机在美国发明，自然大家考虑的是英语如何表示，英语字母总共26个，加上特殊字符，128个字符，7位既一个byte即可表示出来。这个就是大家所熟知的ascill编码。对应关系很简单，一个字符对应一一个byte。

但很快发现，其他非英语国家的文字远远超过ascill码，这时候大家当然想统一字符编码，不同国家出了自己不同的编码方式，中国的gb2312就是自己做出来的编码方式，这样下去每个国家都有自己的编码方式，来回转换太麻烦了。这时候出现了新的编码方式，unicode编码方式，想将编码统一，所以规定了每个字符对应的unicode码。

3 Utf-X编码方式

1、很多文件都是ascii编码，如果用unicode 太浪费。

2、没有标志位说明该几个字节来解析为一个符号。

这时候拯救世界的utf出现了，utf是unicode的一种实现，只不过更聪明了。

utf16是占用两字节，或者四字节，utf32是占用四字节。

utf8是很聪明的一种表示方式。

1、对于单字节符号，字节第一位为0，后面7位表示字节编码。

2、对于n字节符号，第一字节的前n位都设为1，第n＋1位为0，其余位为编码位置。

4 文本编码标志BOM(Byte Order Mark)

对于不同的编码，在文本的最前方有不同的标志，unicode 通常有两位来表示分别是ff fe，或者feff，fffe表示big－endian 编码feff表示litte－endian编码。utf8是efbbbf来开头的。可以看出来utf-8是自解释的，所以不用带这个标志文件，大多数程序是可以识别的。

5 big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是

6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

6 字符编码、内码

字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。

有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。

7 Java的class文件编码方式：utf8

/topic/311583

8 JVM运行时编码方式：utf16

/topic/311583

9 JVM编码方式：utf-8

public static String getJVMEnconding() {

return System.getProperty("file.encoding");

}

10 java读入文件时的字符编码：系统的默认编码来的

参考：/chagaostu/article/details/4601162

1.InputStream is = new FileInputStream("F://shifjst.txt");

2.InputStreamReader streamReader = new InputStreamReader(is,Charset.defaultCh

arset());

3.//等于InputStreamReader streamReader = new InputStreamReader(is);