汉字编码 信息技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基础知识
标题 3 青春 · 奋斗 青春 · 奋斗
常用字符集 和字符编码
ASCII字符集、GB2312字符集、 BIG5字符集、GB18030字符集、 Unicode字符集等。 计算机要准确的处理各种字符集文字, 需要进行字符编码, 以便计算机能够识别和存储各种文字。
汉字编码
Unicode
Unicode(中文:万国码、国际码、统一码、单一码)是计 算机科学领域里的一项业界标准。它对世界上大部分的文字 系统进行了整理、编码,使得电脑可以用更为简单的方式来 呈现和处理文字。Unicode发展由非营利机构统一码联盟负 责,该机构致力于让Unicode方案取代既有的字符编码方案。 因为既有的方案往往空间非常有限,亦不适用于多语环境。 Unicode备受认可,并广泛地应用于电脑软件的国际化与本 地化过程。有很多新科技,如可扩展置标语言、Java编程语 言以及现代的操作系统,都采用Unicode编码。
开始 汉字编码
GB2312 也是ANSI编码里的一种,对ANSI编 码最初始的ASCII编码进行扩充,为了满足国 内在计算机中使用汉字的需要,中国国家标 准总局发布了一系列的汉字字符集国家标准 编码,统称为GB码,或国标码。其中最有影 响的是于1980年发布的《信息交换用汉字编 码字符集 基本集》,标准号为GB 23121980,因其使用非常普遍,也常被通称为国标 码。GB2312编码通行于我国内地;新加坡等 地也采用此编码。几乎所有的中文系统和国 际化的软件都支持GB 2312。
汉字编码 青春 · 奋斗 青春 · 奋斗
UTF-8
为了提高Unicode的编码效率,于 是就出现了UTF-8编码。UTF-8可以 根据不同的符号自动选择编码的长 短。比如英文字母可以只用1个字节 就够了。 UTF-8的编码是这样得出来的,以” 汉”这个字为例: “汉”字的Unicode编码是 U+00006C49,然后把 U+00006C49通过UTF-8编码器进 行编码,最后输出的UTF-8编码是 E6B189。
GB2312
汉字编码
来自百度文库
GB18030
GB 18030,是中华人民共和国现时最新的内码字集,是GB 18030-2000 《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与 GB 2312-1980完全兼容,支持GB 13000及Unicode的全部统一汉字, 共收录汉字70244个。 GB 18030主要有以下特点: 与 UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组 成。 编码空间庞大,最多可定义161万个字符。 支持中国国内少数民族的文字,不需要动用造字区。 本规格的初版是由中华人民共和国信息产业部电子工业标准化研究所起草, 由国家质量技术监督局于2000年3月17日发布。现行版本为国家质量监督 检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5 月1日实施。此规格为在中国境内所有软件产品支持的强制规格。
开始 汉字编码
字符集(Charset):是一个系统支持的所有 抽象字符的集合。字符是各种文字和符号 的总称,包括各国家文字、标点符号、图 形符号、数字等。
字符编码:是一套法则,使用该法则能够对自然语言 的字符的一个集合(如字母表或音节表),与其他东 西的一个集合(如号码或电脉冲)进行配对。即在符 号集合与数字系统之间建立对应关系,它是信息处理 的一项基本技术。通常人们用符号集合(一般情况下 就是文字)来表达信息。而以计算机为基础的信息处 理系统则是利用元件(硬件)不同状态的组合来存储 和处理信息的。元件不同状态的组合能代表数字系统 的数字,因此字符编码就是将符号转换为计算机可以 接受的数字系统的数,称为数字代码。
结语
汉字编码是中国信息技术发展 的支柱。它的出现代表了中国 信息技术的起步。随着需求的 改变,汉字编码仍会朝着需要 的方向发展。
结语
:-)
谢谢观赏
汉字编码
第10小组
第10小组
汉字编码
相信大家一定碰到过,打开某个网页, 却显示一堆像乱码,如“бЇЯАзЪСЯ”、 “�????????”? 这些就是接下来我们要探讨的。 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上 看到的英文、汉字等字符是二进制数转换之后的结果。 通俗的说,按照何种规则将字符存储在计算机中, 如„a‟用什么表示,称为“编码”;反之, 将存储在计算机中的二进制数解析显示出来,称为“解码”, 如同密码学中的加密和解密。在解码过程中, 如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。
相关文档
最新文档