2014-2015-2 XML课程考核大作业任务书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《XML》课程考核大作业任务书
一、课程考核大作业内容
初级内容
编写XML文档约束
根据下图中显示的信息,编写一个DTD文档,其内容要求能够包含图中所有的信息点。图中所包含的信息点进行如下说明:
●要求编写的DTD文档用来约束一个保存书籍信息的XML文档;
●书分为中文原版和外文翻译两种情况,两种不同类型的书都应该具有“书名”、“评
价”、“作者”、“书号”、“丛书名”、“出版社”、“开本”、“出版日期”、“页码”、“版
次”的记录项、而对于外文翻译类型的书要额外具有“原书名”、“译者”和“原出
版社”的记录项。
●元素名和属性名建议使用有意义的英文字符串来命名。
●在编写DTD时,有些难以协调的地方可以忽略,以保证必要信息为原则进行设计。
编写一个XML文档,使其在DTD约束下是有效的
假设上一步编写的DTD文档文件名为:books.dtd,编译一个XML文档使其在books.dtd 文件的约束下成为一个有效的XML文档。然后,使用xmllint程序对你编写的XML文档进行有效性验证,具体如果使用,请参看“《XML》课程教案”中的相关内容。(XML文档中至少应该包含3本以上书籍的信息内容)
使用SAX或DOM方式解析XML文档
假设上一步编写的XML文档名为books.xml。从XML文档books.xml中获得“书名”、“书号”、“作者”、“出版社”、“出版日期”这5个记录项的信息,并将其格式化输出到一个文件books.txt中。
books.txt中的信息格式如下所示:
书名书号作者出版社出版日期
--------------------------------------------------------------------
name 1234 Tom 清华2011
高级内容
HTML是WEB的基础,HTML与XML一样都是标记语言,因此操作XML文档的机制,也可以应用于HTML文档之上。你如何使用DOM的操作机制操作XML文档,即可以如法炮制的用来操作HTML文档。这使得我们可以通过动态替换HTML文档中的节点,来获取动态的网页效果(例如AJAX);也可以通过选择性获取HTML文档中我们感兴趣的内容(例如网络爬虫程序)。
在本实验的综合中,请大家编写一个网络爬虫程序,用来获取一个你选定的网站中的所有大图(忽略掉一切小图)。具体要求如下:
●每位同学请选择一个不同的且适合图片下载的网站URL;
●下载网站中的所有大图,忽略掉所有预览图及其它不相关的图片。例如下图中显示
的网站首页中这些都不是我们的爬虫程序所感兴趣的。
而通过点击上图中的小图打开的网页中的图才是我们感兴趣图片。
将下载的图片保存到你本地硬盘中的一个目录中。
二、课程考核要求
1)整个课程考核分4部分内容:
(1)编写DTD文档
(2)编写XML文档,并验证有效性
(3)解析XML文档
(4)网络抓图
因此,编写大作业报告中,应该包含这四部分的内容。
2)课程考核大作业报告编写要求
课程考核大作业报告应该包含以下内容:
(1)编写DTD文档
(2)编写XML文档,并验证有效性
(3)解析XML文档
(4)网络抓图
具体要求:
(1)考核步骤中每一步,需要包含课程考核过程中产生的编码,并且必须要对每一步骤工作
进行说明,要体现出课程考核过程中的思考过程、碰到的问题及解决方法。
(2)大作业报告中应该具有以下相关文件内容:
a)books.dtd代码截图;
b)books.xml代码截图,及验证结果截图;
c)解析books.xml文档的源程序代码截图,以及解析结果截图;
d)网络抓图的源程序代码截图,以及抓图过程及结果截图;
(3)大作业总结必须有内容,避免空洞无物的语言的出现。考核标准说明:
附录:报告封面模板
武汉轻工大学
《XML》课程考核报告
学号:
姓名:
班级:
成绩: