第二章规范的xml文件.ppt.Convertor

合集下载

第2章 格式良好的XML文档

第2章  格式良好的XML文档

第32页
2.7.2 在标记中声明命名空间

命名空间是通过在标记中声明来建立的, 命名空间的声明必须放在开始标记里,而 且必须放在开始标记中标记名称的后面。
XML基础教程
第2章 格式良好的XML文档
第33页
2.7.3 命名空间的作用域

命名空间的作用域就是该命名空间的作用 范围。一个标记中如果使用了命名空间, 那么该命名空间的作用域是该标记及其所 有的子孙标记,除非其子孙标记又声明了 命名空间。
XML基础教程 第2章 格式良好的XML文档
第10页
2.3 XML声明
XML文档的第一行通常是XML声明,声明 以“<?xml”开始,以“?>”结束。声明 中包含了XML文档的相关信息。上面文档 的第一行就是XML声明: <?xml version ="1.0" encoding ="GB2312" standalone="yes" ?>

XML基础教程 第2章 格式良好的XML文档
第29页

如果文本内容中包含大量的“>”、“<” 、“&”、“‘”及“””等特殊符号,需要 花费很大的力气进行转换,转换后的文本 数据中就会出现很多实体引用,导致文本 的可读性变差,怎样解决这个问题呢?在 XML中,可以把这样的文本包含到CDATA (Character Data)段中,包含在CDATA 段中的文本不会被XML解析器解析,直接 提供给应用程序。

第二章 创建XML文档

第二章 创建XML文档

(Music.xml) Music.xml) XML技术导论 XML技术导论 <?xml version=1.0 encoding=GB2312 ?> <!DOCTYPE musiclibrary SYSTEM "Music.dtd"> <!--DVD information in Music.xml--> <!--DVD Music.xml--> <music> <title>春天 <title>春天</title> 春天</title> (共7类错误 类错误) 共 类错误 <publisher>天籁之声音像公司 <publisher>天籁之声音像公司</publisher> 天籁之声音像公司</publisher> <shop>流行风 <shop>流行风</shop> 流行风</shop> <price pricetype=‘RMB’>26.00 <price pricetype=‘RMB’> pricetype=‘RMB’ pricetype=‘RMB’ <music> <title>古筝曲 <title>古筝曲</title> 古筝曲</title> <publisher>白天鹅音像公司 <publisher>白天鹅音像公司</publisher> 白天鹅音像公司</publisher> <shop 1>音乐吧</shop 1> 1>音乐吧 音乐吧</shop <2shop>民乐坊 <2shop>民乐坊</2shop> 民乐坊</2shop> <price pricetype=“RMB”>30.00 <price pricetype=“RMB”> pricetype=“RMB” pricetype=“RMB” </music> <music> <title>巴赫 <title>巴赫</title> 巴赫</title> <publisher>北京音像公司 <publisher>北京音像公司</Publisher> 北京音像公司</Publisher> <shop>音乐吧 <shop>音乐吧</shop> 音乐吧</shop> <price pricetype=‘RMB”>68.00 <price pricetype=“RMB”> pricetype=‘RMB” pricetype=“RMB” </music>

第二章 XML语法规则

第二章 XML语法规则

30
一般来说子元素可以完全代替属性。 要采用子元素的情况: 1. 一个属性不能包含子属性,但子元素可以包含自己的子 元素。故对复杂的信息,要采用复合的子元素来说明。 2. 若元素的开始标记中包含过多的属性,造成整个开始标 记过长而降低程序的可读性,则可以考虑使用子元素代 替属性。 3. 属性不容易扩展。 4. 属性不能够描述文档结构(子元素可以)。 5. 属性很难被程序代码处理。 6. 属性值很难通过DTD进行测试。 但属性很简洁,有很好的可读性,如果使用过多的子元素 会降低可读性。
注释内容中不要出现--; 注释不能嵌套; 可以在除以上限制以外的任何地方放注释。 注释中的内容在解析时会被忽略;
软件学院
文档类型声明
<!DOCTYPE roster SYSTEM "student.dtd">
12
文档类型定义(DTD)是用来定义XML文档数据 一个XML文档只 结构; 有一个DTD声明 文档类型声明是用来声明文档类型定义;
软件学院
元素(续)
我们可以用XML文档来描述这本书: <book> <title>XML 指南</title> <chapter>XML入门简介 <para>什么是HTML</para> <para>什么是XML</para> </chapter> <chapter>XML语法 <para>XML元素必须有结束标记</para> <para>XML元素必须正确的嵌套</para> </chapter> </book>

XML基础教程(第2版)_第2章_规范的XML文件

XML基础教程(第2版)_第2章_规范的XML文件

2.3.2 非空标记_1. 语法格式
非空标记必须由“开始标签”与“结束标签”构成,它们之 间是该标记的内容。 开始标签以“<”标识开始,用“>”标识结束,标识之间 是标记的名称和属性列表开始标签的语法格式分别为: <标记的名称 属性列表 > 或 <标记名称> 注意:在标识“<”和标记名称 之间不要含有空格,允许“>” 的前面可以有空格或回行。
2.2.1 version属性 一个简单的XML声明中可以只包含属性version,目 前该属性的只可以值可以取1.0,指出该XML文件使用 的XML版本。
2.2.2 encoding属性
encoding属性规定XML文件采用哪种字符集进行编码,该属性 的默认值是“UTF-8” . <?xml version="1.0" encoding="UTF-8" ?> 注: encoding属性值不同, XML文件保存时的编码要与之对应。 1. 如果XML使用UTF-8编码,那么标记的名字以及标记包含文本 内容中就可以使用汉字、日文、英文等,XML解析器就会识别 标记的名字并正确解析标记中的文本内容。这时XML文件必须 选择“UTF-8”编码来保存 。 2. 如果在编写XML文件时只准备使用ASCII字符和汉字, 可以 将encoding属性的值设置为“gb2312”。例:

第2章 规范的XML文件.ppt

第2章 规范的XML文件.ppt

序言
主体 尾部
4
规范的XML文档
5
规范性
一个规范的必须满足W3C所指定的标准。一 个规范的XML文件应当满足如下语法规则:
XML文件用“XML声明”开始 XML文件有且仅有一个根标记 XML文件的非根标记都必须封装在根标记中 非空标记必须由“开始标记”与“结束标记”组成 空标记没有“开始标记”和“结束标记” XML文件的标记必须是树型结构
6
处理指令
处理指令目的是告诉XML解析器处理一些信息 或执行一定的动作
格式
<?target instructions?>
注意
XML(不分大小写)在XML标准中为保留字
7
XML声明
规范的XML文档第一行必须为XML声明 声明格式
<?xml version=“1.0” encoding=“编码” standalone=“yes|no”?>
XML1.0推荐标准的语法要求。
3
ຫໍສະໝຸດ Baidu
XML文档结构
<?xml version="1.0" encoding="GB2312" standalone="yes"?>
<!-- 注释--> <顾客> <姓名>张三丰</姓名> <日期>2007年3月2日</日期> <商品>脸盆</商品> <售价 售价单位="人民币">20</售价> </顾客>

第二章规范的xml文件.ppt.Convertor

第二章规范的xml文件.ppt.Convertor

第二章规范的XML文件

XML的特点:

1、是一种能够应用在各个领域进行设计的元标记语言。

2、XML的标记是可自由定义,使得XML文件能够很好地体现数据结构和含义。

3、XML文件必须符合一定的语法规则。

XML文件

规范的XML文件(Well-Formed XML):符合W3C指定的基本语法规则。

有效的XML文件(Validated XML):规范的XML文件再符合额外的一些约束。

规范的XML文件

有效的XML文件

什么是规范的XML文件呢?

符合W3C指定的基本语法规则的XML文件称为有效的XML文件. W3C指定的基本语法规则是指比如,文件用”XML声明”开始,文件有且仅有一个根标记,其他标记必须都封装在根标记中,文件的标记必须是树状结构,非空标记必须由”开始标记”与”结束标记”组成,空标记没有”开始标记”和”结束标记”,等等.

什么是有效的XML文件

规范的XML文件再符合额外的一些约束就称为有效的XML文件.

通常人们认为不规范的XML文件是没有价值的文件,甚至是不能叫做一个XML文件.我们所说的XML文件都是W3C所指定的规范标准.也就是规范的XML文件.

规范的XML的组成:

可选的序言:声明及注释

文档的主体由一个或多个元素组成,其形式为一个可能包含字符数据的文档树

可选的尾部:注释、处理指令和紧跟元素树后的空白。

主要内容

XML声明

XML标记

CDATA区段

标记的属性

名称空间

XML声明

一个规范的XML文档通常以XML声明开始,通过XML元素来组织XML数据。

XML声明是处理指令的一种,它告诉浏览器或其他处理程序这个文档是XML文档。

XML教程第2章 XML语法简明教程PPT课件

XML教程第2章 XML语法简明教程PPT课件


2.1 XML文档结构
2.1.1
2.1.1.2

组成和声明
尾部
XML文档尾部部分包括注释、处理指令和紧跟元素 树后的空白。尾部部分对于XML文档来说不起任何 作用,因为大多数的应用程序在文档根元素的结束 标记处就结束了,不再对尾部进行任何的处理。
2.1 XML文档结构
2.1.2



2.1 XML文档的序言
2.1.2
2.1.2.2

注释和处理指令
处理指令
XML的处理指令简称PI,用来给处理它的应用程 序提供信息的元素。当应用程序处理XML文档时, 如果遇到处理指令会解释这个指令,遵照它提供 的信息进行处理。 处理指令一般具有下列语法格式: <?处理指令名 处理指令信息 ?> 前面的xml声明就是一个处理指令: <?xml version="1.0" encoding="gb2312" ?>
2.1 XML文档结构


2.1.1 组成和声明
2.1.1.1 序言 XML文档以序言开始,用来表示XML数据的开始,描述字符 的编码方法,为XML解析器和应用程序提供其他一些配置线 索。序言部分包括XML文档的声明及注释,其中声明在XML 文档中是必不可少的,注释的主要目的就是便于对文档的理 解和阅读。 每个XML文档必须以一个文档声明语句开头,包括声明XML 的版本号、所使用的字符集,以及是否为独立文档等信息。 在XML声明的前面不允许再有任何其它的字符,甚至是空格, 也就是说XML声明必须是XML文档中的第一个内容。 例如: <?xml version="1.0" encoding="gb2312" standalone="yes" ?>

XML第2章 XML语法

XML第2章 XML语法

元素类型
根据XML元素的开始标记和结束标记之间是否有元素内容,可以把XML 元素分为非空元素和空元素两种。 1. 非空元素
非空元素是指在元素的开始标记和结束标记之间有元素内容,元素内容 可以是纯数据内容,也可以是包含的多个子元素。
<学号>142231101</学号> 2. 空元素
空元素是指在元素的开始标记和结束标记之间没有元素内容。 <photo></photo>、<photo/>
XML处理指令
说明: 1)XML处理指令以“<?目标程序名”开始,以“?>”结束。“<”与“?”之间、 “<?”与“目标程序名”之间都不能存在空格。 2) 处理指令的位置:文档序文部分(放置处理指令最普遍的位置)、文档 元素后、文档元素内容中。
XML注释
XML注释主要用于对某些语句进行提示或说明,其作用是增加文档的可 读性和清晰性。XML解析器在处理文档的过程中会忽略文档中的注释语句, 不对其做任何处理。
XML文档结构
【例2-1】认识XML文档结构。 (1)学习目标 1)理解XML文档的组成。 2)理解XML文档序文的构成部分。 3)理解XML根元素。
XML文档序文
XML文档序文主要包含以下4部分。 1)XML文档声明。 2)处理指令。 3)DTD声明。 4)XML注释。

XML基础教程第2章 XML语法

XML基础教程第2章 XML语法

2.3.2 实体的类型
实体分为通用实体和参数实体两种类型,通用实体与参数实 体的区别就在于:通用实体在文档类型定义(DTD)中声明,在 与DTD对应的XML文档中引用,引用方法为“&实体名;”;参 数实体也在文档类型定义中声明,却只能在文档类型定义中引用 ,引用方法为“%实体名;”。实体的内容还可以是外部文本文 件或图像等。
2.2.5 注释
XML文档中可以使用注释(Comment)以对文档内容 进行解释。在复杂的XML文档中,注释必不可少,注释对于 文档以后的维护和读者的理解都具有重要作用。如果用来与 文档的其他使用人员进行交流,注释的作用就显而易见了; 注释对整个文档或文档的一部分内容作了介绍,这样在杂乱 的文档当中找到需要的信息就十分方便了。
2.2.1 XML的整体结构
XML文档的整体结构可以概括为表2.1的内容。 1.XML声明 2.DOCTYPE声明 3.实体声明 4.元素
文档序言(prolog) XML声明 DOCTYPE声明 实体声明 元素体 元素 如<?XML version="1.0" encoding="UTF-8"?>,必备 DTD或Schema文档声明等,可选 字符数据等的替代,可选 文档所包含的元素,必须有一根元素
2.4.2 MacRoman字符集
苹果操作系统使用一套独立的字符标准,它的单字节 字符集也是ASCII的扩展集。其在美国和西欧的应用版本被 称作MacRoman字符集。 Macos比Latin-1早几年出现,第一个Mac计算机是在 1984年出现的,ISO 8859-1标准在1987年才第一次被采用 。这意味着苹果公司不得不定义自己的扩展字符集 MacRoman。其中大部分扩展符同Latin-1一样,只是字符 对应的编码不同。MacRoman中前127个字符与ASCII码和 Latin-1中的一样。因此,使用扩展字符的文本文件从PC机 移到Mac时会显示混乱,反之亦然。

第2章 XML文件的规则

第2章  XML文件的规则

以下都是合法的标记名称:
<name> <_name> <user.name> <Name2> <user-name> <姓名>
返回
根标记
一个XML文件中必须有且只有一个根标记,其他标记必须封装在 根标记中。XML文件中的标记必须形成树状分层结构 。例如:
<?xml version=”1.0”?> <fruits> <fruit> <name>orange</name> <price>1.0</price> </fruit> <fruit> <name>banana</name> <price>2.0</price> </fruit> </fruits>
文档结构图:
fruits fruit name price name fruit price
orange
1.0
banana
2.0
返回
2.3 特殊字符处理 (1)
XML中有5种特殊字符:左尖括号(小于号)“<”、右尖括号 (大于号)“>”、与符号“&”、单引号“’”和双引号“””, 这些字符在XML中称为标记字符,是标记的组成部分。例如:

XML实用教程第2章

XML实用教程第2章

4 .根标记
XML文件必须有且仅有一个根标记,其它标记都必须封装在根 标记中。XML文件的标记必须形成树型结构。
<root> <性别> 男 </性别> <出生日期> 1980年8月6日 </出生日期> </root>
2009-10-11 6
§2. 3 特殊字符 XML有5种字符属于特殊字符,左尖括号:“<”、 右尖括号:“>”、与符号“&” 、单引号“‘”和 双引号“””。 在文本数据中通过实体引用使用这些特殊字符。 &lt; 引用左尖括号:“<” &gt; 引用右尖括号“>” &apos; 引用单引号“'” &quot; 引用双引号“"” &amp; 引用与符号“&”
10
§2.7 注释
XML文件的注释和HTML文件相同,注释以“<!-- ”开始, 以“-->”结束,XML解析器将忽略注释的内容,不对它 们实施解析处理。例:
<?xml version="1.0" encoding="UTF-8" ?> <!-- 简单的XML文件 --> <root> <speak> 你好 </speak> </root> 例题2-5 p18

XML技术应用(第二版)课件CHAP2(XML)

XML技术应用(第二版)课件CHAP2(XML)
特殊字符
这里所说的特殊字符是指那些会被解释成具有特殊意义的字 符,在XML中它们用预定义实体引用来表示。
5文档全文
根据以上内容,读者可以创建出一个完整的描述全部 64场比赛数据的XML文档,该文档是格式良好、层 次清晰的。
本章小结1
XML有严格的语法结构,不符合XML语法的文档不能被解 析器正确解析。
1 XML文档的声明
XML文档声明包括版本信息、编码信息以及文档独立性信息。 尽管文档声明不是XML所必需的,但是大多数情况下是包含的 。
如果一个文档包含XML声明,则要求这个声明是文档的第一部 分 。 XML 处 理 器 通 过 读 取 文 件 的 头 几 个 字 节 , 并 且 与 字 符 串 <?xml的各种编码相比较,从而确定该文档使用什么字符集。所 以如果声明前出现任何字符包括空格,解析器都会报错。
பைடு நூலகம் 属性的命名 属性的值
属性的命名
属性的名称应该是满足元素命名规则的字符串,即首字符必须 是字母或下划线,其他字符可以是字母、数字、下划线、连字 符(-)或点(.),但是不能包含其他符号,名称中间也不能包 含空格。此外,同一个元素不可以拥有两个相同的属性名称, 但是不同的元素可以拥有相同的属性名称。
2.5 处理指令
处理指令(Processing Instruction,PI)允许文件中包含由应用 来处理的指令,它是供计算机程序阅读的文档内容。应用程序 根据XML文档中的处理指令来进行相关的操作,并将自动忽略 它们不能识别的处理指令。

XML基础教程第2章

XML基础教程第2章
根据XML规范,每个正规的XML文档都要由一个XML 文档声明开始,不允许在其前面有其他任何的字符、空 格以及注释,它标明了使用的XML版本号、字符集和文 档是否为独立文档等有关信息。
XML声明的基本语法格式: <?xml version="1.0" encoding="GB2312" standalone="yes"?> 具体参数说明如下: <?:表示XML文档声明的开始,说明该行是一个处理指令。 xml:是处理指令名,用来标识该文件是XML文档。xml必须小 写。 version=“1.0”:表示该文档采用的是XML版本,其版本号 既可以用单引号也可以用双引号来分隔,它必须是“xml”之 后的第一个属性。version属性不能省略。 encoding=“GB2312”:是可选项,“GB2312”中的GB大小
2.1.2 XML文档处理指令
处理指令(processing instruction,PI)是用来给 XML解析器提供信息的,表示 XML 处理指令文本的开头。基 本格式为:
<?目标名 处理指令信息?> 参数说明: 目标名:用于指明哪个应用程序需要PI控制,要注意目 标名的大小写,它可以保留而不被其他的处理软件或脚本程 序占用。 处理指令信息:指传送到处理软件或脚本程序的信息, 可由除“?>”之外的任何连续字符组成。 例如: <?xml stylesheet type="text/xsl" href="mystyle.xsl"?>

第二章XML基础语法PPT课件

第二章XML基础语法PPT课件
8
XML元素的属性
XML允许为元素设置属性,添加附加信息。 属性是一个名值对,即由名字和值组成。 属性必须在非空标记的开始标记或空标记中声明。 属性的基本形式:
<标记名 属性1=“属性值” 属性2=“属性值” >…</标记 名>
9
XML元素的属性
举例:
<?xml version="1.0" encoding="UTF-8" ?> <root>
1
整体 概述
一 请在这里输入您的主要叙述内容

请在这里输入您的主要 叙述内容
三 请在这里输入您的主要叙述内容
2
XML基本操作案例—— 通信录
输入XML文档内容 —>保存源文档 —>用IE浏览源文档
3
XML基本操作案例—— 通信录
4
来自百度文库
XML声明
XML文档第一行是XML声明。
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
XML 标记区分大小写 应正确使用结束标记
正确嵌套标记 应使用合法标记 应定义有效的属性
15
XML名称空间
XML名称空间(XML namespace)是解决标记名称 冲突的方案。

xml课件--第2章_文档编写

xml课件--第2章_文档编写

2013-7-21
14
2.3.5 XML元素的属性



在XML元素的起始标记中,可以包含一个或多个 属性,用来对该元素的特征作进一步描述,或者用 来存储和表示与这个元素相关的若干个数据。 XML规范允许用户自己定义元素所具有的各种属 性。 结束标记中不能含有属性
2013-7-21
15
2.3.6元素属性的定义



标记名字必须以英文字母或下划线“_”开头, 中文标记名称必须以汉字或下划线“_”开头。 在使用默认字符集的情况下,标记名称可由一个或 多个字母、数字、句点“.”、连字符(-),或底 划线“_”构成。 XML解析器对标记名称中的英文字母大小写是敏 感的。 标记名称中不能含有空格。 冒号“:”被保留作为名称空间的分隔符,因而不 能在普通标记名称中出现。
2013-7-21 8
2.3.1 XML标记的命名规则(续)




不能以xml,XML,Xml等开头(即x,m,l字母的大小写组合) 能够描述内容 标记名称应当比较简短,比如:<book_title>,而不是: <the_title_of_the_book>。 避免 “-” 字符。如果命名为:”first-name”,一些软 件会认为你需要提取第一个单词。 避免 “.” 字符。如果命名为:”first.name”,一些软件 会认为 “name” 是对象 “first” 的属性。 XML 文档经常有一个对应的数据库,其中的字段会对应 XML 文档中的元素。有一个实用的经验,即使用数据库的 名称规则来命名 XML 文档中的元素。
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章规范的XML文件

XML的特点:

1、是一种能够应用在各个领域进行设计的元标记语言。

2、XML的标记是可自由定义,使得XML文件能够很好地体现数据结构和含义。

3、XML文件必须符合一定的语法规则。

XML文件

规范的XML文件(Well-Formed XML):符合W3C指定的基本语法规则。

有效的XML文件(Validated XML):规范的XML文件再符合额外的一些约束。

规范的XML文件

有效的XML文件

什么是规范的XML文件呢?

符合W3C指定的基本语法规则的XML文件称为有效的XML文件. W3C指定的基本语法规则是指比如,文件用”XML声明”开始,文件有且仅有一个根标记,其他标记必须都封装在根标记中,文件的标记必须是树状结构,非空标记必须由”开始标记”与”结束标记”组成,空标记没有”开始标记”和”结束标记”,等等.

什么是有效的XML文件

规范的XML文件再符合额外的一些约束就称为有效的XML文件.

通常人们认为不规范的XML文件是没有价值的文件,甚至是不能叫做一个XML文件.我们所说的XML文件都是W3C所指定的规范标准.也就是规范的XML文件.

规范的XML的组成:

可选的序言:声明及注释

文档的主体由一个或多个元素组成,其形式为一个可能包含字符数据的文档树

可选的尾部:注释、处理指令和紧跟元素树后的空白。

主要内容

XML声明

XML标记

CDATA区段

标记的属性

名称空间

XML声明

一个规范的XML文档通常以XML声明开始,通过XML元素来组织XML数据。

XML声明是处理指令的一种,它告诉浏览器或其他处理程序这个文档是XML文档。

声明必须放在第一行,前面不能有空白、注释或其它处理命令。

XML声明

XML声明中的版本属性

XML声明中的编码属性

XML声明中的独立属性

其格式如下:

例子:

一对中括号([ ])中的部分表示是可选信息

XML声明中的版本属性

一个最基本的XML声明:

注:V ersion属性不能省略且必须在属性列表的第一位,指明所采用的XML的版本号,用来保证对XML未来版本的支持。

XML声明中的编码属性

编码属性指定了文本的编码系统,即规定了XML文档采用哪种字符集进行编码。

这是一个指定了编码方式的xml声明。我们说encoding指定的编码方式要和其xml的保存方式相一致。

————————————————

接下来我们就介绍一下我们常用的编码方式和保存方式。

XML声明中的编码属性

常用的编码方式及其保存方式

UTF-8

gb2312

ISO-8859-1

如果我们指定encoding的属性值是“UTF-8”那么保存时我们也必须选择其编码是UTF-8。采用这种编码方式,那么标记及标记的内容就可以使用汉字,英文,日文,法文等等。

如果我们的xml文件有特殊要求只准使用ASCII字符和汉字,那么我们可以指定encoding 的属性值是“gb2312”那么保存时我们也必须选择其编码是ANSI。如果这时在我们的xml 文档中出现日文,韩文等,IE及xml解析器就不能正确显示而要抱错了。

如果我们只准备使用ASII字符,那么我们就可以将encoding的属性值设为“ISO-8859-1”那么保存时我们也必须选择其编码是ANSI。————————————————————

那么有些同学就会问了,为什么会有这么多的编码方式呢?他们有什么区别?有什么用呢?那么先让我们看几幅图片。

不同的字符集

ASCII字符集

American Standard Code for Information Interchange

(美国标准信息交换码)

ISO字符集

国际标准组织(ISO)定义了几个不同的字

符集,其中最突出的是ISO-8859-1

(通常叫做Latin-1 )

ASCII字符集是我们最熟悉的,它是一个原始的字符集,而且是到目前为止最通用的。所有的字符集都是对它的扩展。字符的编码是0~127

国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。其中最突出的是ISO-8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。

那么我们保存文件用的ANSI编码又是一个什么字符集呢?它是Windows 对Latin-1版本的扩展,使用更多的可打印字符代替介于130和159之间的非打印控制字符,从而进一步扩展了使用范围。

不同的字符集

Unicode字符集

由UNICODE协会管理并接受其技术上的修改。Unicode使用0~65,535的双字节无符号数对每一个字符进行编码。Unicode中0~`255的字符与Latin-1中的一致。

UTF-8字符集

UTF-8是一个压缩的Unicode版本

是XML的默认字符集

但是这些编码仅仅是针对罗马文字的国家,而我们需要的是一种得到大家的认可并且编码了全世界各种文字的字符集。建立这样的字符集很难,需要对成百上千种语言和文字有细致的了解。不过这方面的努力一直在进行,终于创建了一个符合要求的字符集;Unicode。而且主要卖方(微软、苹果、IBM、Sun、Be等)正逐步趋向于使用它。Unicode字符集由UNICODE 协会管理并接受其技术上的修改。Unicode使用0~65,535的双字节无符号数对每一个字符进行编码。目前已经定义了40,000多个不同的Unicode字符,剩余25,000个空缺留给将来扩展之用。其中大约20,000个字符用于汉字,另外11,000左右的字符用于韩语音节。Unicode 中0~`255的字符与Latin-1中的一致。这么庞大的字符库仍然没有覆盖全部历史上的文字,特别是亚洲东部的语言,它只定义了中国、日本、朝鲜和古越南使用的80万象形文字中的20万个左右。但大部分国家的“字母表”字母都是Unicode字符集中的一个字符。Unicode 使用双字节表示一个字符,因此使用Unicode的英文文本文件大小是使用ASCII码或Latin-1文件的两倍

UTF-8是一个压缩的Unicode版本,使用单个字节表示最常用的字符,即0到127的ASCII 字符,较少见的字符使用三个字节表示,特制是韩国音节和汉字。如果主要使用英文,UTF-8能够将文件压缩为原来的一半。如果主要使用汉语、朝语或者日语,UTF-8会使文件的尺寸增加50% 。

这是一个用java编写的输出汉字“你”和希腊字母“a”的utf-8编码的效果。到目前为止我们介绍了4种编码集

相关文档
最新文档