中文网络资源Chinese Web Archives归档及统计分析

合集下载

网页归档概述

档案管理与图书馆建设DANGANGUA NL IYUTUS HUGUA NJ IANS HE664一、网页归档背景（一）网页归档的概念。

网页归档，即We b A rc h iv in g ，简称WA 。

它是指收集万维网，并将其保存为归档格式，服务于档案，用于访问和使用的过程。

国外有学者认为网络归档是收集记录在万维网上的数据，并存储的过程，确保这些数据以档案的形式保存，并使得收集的数据可用于未来研究。

笔者在中国知网CNKI 以“网页归档”为主题词检索期刊论文发现仅为10条结果。

且显示的中文文献结果中并未对网页归档进行明确定义。

笔者认为，网页归档的目标对象是网页，基本要求是尽可能保存网页原貌，保存格式是符合网页特性的档案格式，最终目的是为了未来能够访问和使用这些网页资料，特别是为研究所用。

（二）网页归档发展历程。

时至今日，网页归档的探索已然走过了17个年头，国际上部分国家和地区纷纷开展了网页归档项目的建设：1996年，美国Internet Archive 成立。

目前，已对包括我国在内的全球网络信息进行批量收集。

同年，亚历山大图书馆互联网归档项目（Bib li otheca Alexandrina's Int ern et Archiv e ），澳大利亚PANDORA Web 归档项目（PANDORA Aus tra lia's Web Archive ）也纷纷启动。

1997年，瑞士国家图书馆网页归档项目、英国国家档案馆英联邦政府网络档案（UK Government Web Arch ive ）项目启动。

1999年，新西兰国家图书馆开始进行新西兰Web 归档工作（NewZealand Web Archive ）。

2000年，捷克国家图书馆开展网页归档工作（Web Arch iv -archive of the Czech web ）。

美国国会图书馆（Library of Cong ress Web Archive ）研发和完成“国家数字信息基础设施及保存计划”(Nationa l Digital Inform atio n Infrastructure Preservation Prog ram ，简称NDIIPP)，并其他机构合作开展了专题性的网上信息的收集，目前收集了“美国总统大选”和“911事件”两个专题。

中文常用数据库

中文常用数据库：中国学术期刊网、万方、重庆维普外文常用数据库：三大检索工具（EI、SCI、ISTP）常用学位论文数据库：▪中国优秀博硕士学位论文全文数据库（CDMD）▪万方学位论文▪ProQuest 博硕士论文数据库(PQDD)1.1文献（literature)1 、文献：记录有知识、信息的一切载体。

2、文献的基本要素：（1）信息内容（2）信息符号（3）载体材料（4）记录方式文献（—）：文献的类型按载体形式区分：印刷型、缩微型、电子型、声像型。

按出版形式区分为十类：图书、期刊、报纸、会议文献、政府出版物、学位论文、档案、专利文献、标准文献、产品资料。

文献（二）：文献的类型（加工深度）零次文献：一次文献（又称原始文献）；二次文献（又称检索性文献）：三次文献（又称参考性文献）：1 、情报的定义：为一定的目的采集的有使用价值的知识或信息。

2 、情报的特征：竞争性、传递性、效用性信息、知识、文献、情报之间的关系知识来源于信息，是理性化、优化和系统化了的信息；情报是解决特定问题的知识，是激活的那部分知识；文献是它们的载体1.2 信息资源信息资源：经过人工选取、组织、序化的有用的信息集合。

特点：有限性、人工性、积累性、有序性。

十大信息资源图书、期刊、报纸科技报告、会议文献、专利文献、标准文献、政府出版物、学位论文、产品资料、技术档案图书（一次文献但具有三次文献的性质）期刊（最重要的一次文献）学位论文（体现毕业生能力的一次文献）会议文献（报道最新科技动向的一次文献）专利文献（集技术、经济、法律于一体的一次文献）1、专利文献：广义的专利文献是指一切与专利制度有关的文献，如专利说明书、专利公报、分类表、索引、专利的法律文书等。

狭义的专利文献是指专利说明书。

2、种类：发明、实用新型和外观设计。

标准文献（促进社会产品质量的三次文献）1、标准：是对工农业和工程建设的质量、规格、基本单位及其检验方法等方面由有权威部门批准的技术规定。

对政府网站网页归档的问题思考

对政府网站网页归档的问题思考作者：尹哲来源：《北京档案》2016年第02期摘要：政府网站资源具有历史价值、文化价值、研究价值和经济价值，网页归档理应受到重视。

本文对政府网站网页归档的现状进行分析，指出档案部门网页归档面临的问题，并提出根据网页栏目特点明确归档范围和保管期限、采取适当的网页归档技术、加强整理及利用、提供法律层面的保障等建议。

关键词：网页归档归档范围采集工作自1999年“政府上网”工程启动以来，我国政府网站发展迅速，为各级政府有效传播信息，提高公共服务水平，促进公民参与决策提供了重要支撑。

政府网站资源具有历史价值、文化价值、研究价值和经济价值，国家档案局原局长杨冬权提出：“要把网络信息这种…有价值的国家资本‟尤其是把体现政府行使职能的政府网站等信息列入归档范围，对网站等信息进行存档”。

可见，作为公共文化事业机构的档案馆理应承担起网页归档的责任。

一、网站网页归档的现状网络资源保存项目源于1996年，首批建立网页归档项目的有澳大利亚、加拿大、瑞典国家图书馆和互联网档案馆（Internet Ar？ chive）。

其后很多国家的图书馆和其他机构也参与进来，但是在诸多项目中只有少数档案馆参与。

例如，加拿大的国家图书档案馆和英国国家档案馆。

[1]互联网档案馆，在首批建立的网页归档项目中具有典型意义。

它定期收录和抓取全球网站的信息并进行保存。

对于大型网站，它每天都备份一次；对于小型网站，它每年收录一次。

其归档范围也日益完善，从收录网页扩展到收录图片、音频、软件、视频等。

英国国家档案馆的政府网页项目于2003年9月开始，初期选择收集50个所辖范围内的政府网站，并与专业网页归档组织Internet Archive合作。

2005年，与Internet memory founda？ tion合作。

以收集实体形式和数字形式的公共记录为主。

[2]对于我国来说，已有的网页归档项目是中国Web信息博物馆项目和中国国家图书馆的中文网络信息资源收集和保存项目。

中文网络数据库

4、检索结果显示
点击原文下载
阅读原文，可以通过界面上工具条的使用进行各项操作
下载存盘或直接阅读
中文科技期刊全文数据库（VIP）
编辑单位重庆维普（VIP）资讯公司收录年代 1989年至今。文献最早回溯到 1955年。期刊种数近9000 余种，核心期刊1810 种。文献总量 1500 余万篇收录范围社会科学、自然科学、工程技术、农业科学、医药卫生、经
始建于1985年，收录了我国自然科学和社会科学各领域的硕士、博士及博士后研究生论文的文摘信息，内容包括：论文题名、作者、专业、授予学位、导师姓名、授予学位单位、馆藏号、分类号、论文页数、出版时间、主题词、文摘等字段信息。从侧面展示了中国研究生教育的庞大阵容以及中国科学研究的整体水平和巨大的发展潜力。
选择相关途径输入检索词
选择相关途径输入检索词
六、法律法规
该库包括自1949年建国以来全国人大及其常委会颁布的法律、条例选及择相关途径其他法律性文件；国选务择院相制关定途的径各项行政法规，各地地方性法规和地方政输入检索词
输入检索词
府规章；最高人民法院和最高人民检察院颁布的案例及相关机构依据判案实例做出的案例分析，司法解释，各种法律文书，各级人民法院的裁判文书；国务院各机构，中央及其机构制定的各项规章、制度等；工商行政管理局和有关单位提供的示范合同式样和非官方合同范本；以及外国与其他地区所发布的法律全文内容，国际条约与国际惯例等全文内容。是比较全面、实用的法律法规全文数据库。
分类检索
2.分类检索：根据该数据库提供的树型《中刊库》分类导航和《中刊库》刊名导航系统，选择需要检索的类目。 3、辅助功能：
选择期刊重要程度、年代限制、选择显示记录、使用二次检索、题录文摘下载等。

我国语言学网络资源调查分析

语言学作为人文社会科学领域的一门非常重要的学科，其学术资源发展非常迅速。网上语言学学术资源对促进语言学学术交流，传播语言学信息，形成和
分享语言学电子资料，支撑其他相关学科的发展有积
言学网络资源现状，并提出发展建议，为我国语言学
网络资源的建设提出有价值的参考。
信息内容和功能是衡量学术网站的重要参考。一本文将主要调查和分析我国语言学网络资源上述两方
面的情况，涉及我国语言学网络资源的数量、类型、
１引言
２．我国语言学网络学术资源的数量．１２从查询和筛选的结果来看，当前我国语言学网络
学术资源的数量大约有３２个。笔者有效登陆调查的资源为２个（５见表１。）由于一些语言学网络资源可能并不以 “ 言学 ” 语为关键词，无法用上述方法检索到，所以我国语言学网络资源的实际数量可能会大于上面的搜索结果。以上数据虽不能完全反映出我国语言学网络资源的确切
为大人带来形象的羊生肖故事来历为孩子带去快乐的生肖图画故事阅读
图书馆理论与实践
ＵＢＲＡＲＹＴＨＥＯＲＹＡＮＤＰＲＡＣＴＩＣＥ
一一一
信息管理与信息学
● 王辉（大学孔子宁夏学院，银川７０１５２）０
我国语言学网络资调查分析

中国期刊全文数据库Web

与初级检索相同
选择年份

有三个逻辑运算符连接两组检索词输入框
（确定各检索词之间的关系AND或OR或NOT）
点击[检索]
备注：无论是初级检索，还是高级检索均可进行
优化检索结果：
选取检索字段输入检索词点击[二次检索]按钮
引文检索：
选取检索字段“引文” 输入检索词点击[检索]按钮
检索词字典
本计算机上是否有WinZip，没有先下载 WinZip
从CNKI主页上下载CajViewer.zip 并运行安装“全文浏览器”
二、检索途径与方式
初级检索高级检索
初级检索界面
检索工具条
目录导航工具条
页面转换工具条
检索步骤
登录全文检索系统CJFD 选取检索范围，确定课题所在的专辑
双击专题查看下一级目录选取检索字段
一、CNKI概况
CNKI是我国第一个大规模集成化的全文电子学术期刊系统。由清华同方光盘股份有限公司、光盘国家工程研究中心和中国学术期刊（光盘版）电子杂志社共同创建，1999年6月起在网上运行
知识来源：收录国内核心期刊与专业特色期刊 6600种，提供1994年至今数据，累积全文500 多万篇，题录1500万余条，126个专题文献数据库，网上数据每日更新
三、原文下载
点击“下载”图标，弹出“文件下载”对话框将文件保存到磁盘，点击“确定” 弹出“另存为”对话框：
选择输入路径和文件名，然后点击[保存]进行存盘
四、浏览全文
在全文浏览器中可以实现：
打开、打印、发送邮件、目录树、全屏、手形工具、放大、缩小、栏选、图像选择、复制、文字识别、首页、上一页、下一页、末页、上一视图、下一视图、实际大小、适合窗口、适合宽度、查找、下一个、这是什么、关于功能。

近10年我国网络信息资源评价论文的文献计量统计分析

・
１２４・
管理科学
近１年我国网络信息资源评价论文的文献计量统计分析０
蒲攀（江大学信息管理学院，黑龙黑龙江哈尔滨１０８）５００
摘要：根据ＣＫ学术文献总库收录的文献，２０ — ０１ＮＩ对０２２１年间我国有关网络信息资源评价研究的论文进行文献计量学统计，图试对近１国内关于网络信息资源评价的研究做一个较全面的梳理，而为进一步研究和发展提供参考。０年从
关键词：网络信息资源；献计量；价；计分析文评统
因特网的飞速发展，使其逐渐成为人们利用信息的最大来源。中国互联网络信息中，ＮＩ）２次中国互联网络发展状况统计报告ｔ（ＮＣ第９￣Ｃ显示：截至２１年ｌ０１２月底，中国网民规模达到５３，．亿全年新增网民１５８５０万，与前几年相比，中国的整体网民规模增长进入台期ｍ平。但是，网络信息资源的诸多特点在很大程度上成为人们有效利用网络信息资源的瓶颈，为此，网络信息资源的质量成为关注的焦点，网络信息资源评价便应运而生。这一概念首先由网络较发达的欧美国家学者提出，在我国，网络信息资源评价研究始于１９年，９９较早公开发表的文献是孙兰和李刚的《试论网络信息资源评价，随后，越来越多的学者关于网络信息资源评价展开了一系列研究。本文采用文１．分析的方法，对我国近１０年关于网络信息资源评价的研究做出较全面的整理和归纳，试图梳理出较为清晰的脉络，在总结现有研究成果的基础上，出提存在的问题，为进一步深入研究提供一定的参考。

与汉语言文字研究相关的网络资源及其利用

与汉语言文字研究相关的网络资源及其利用当今电子计算机技术与现代通讯技术相结合，为人类提供了一个全新的信息环境，即网络环境。

随着互联网发展进程的加快，信息资源网络化已成为一大潮流。

与传统的信息资源相比，网络信息资源在数量、结构、分布和传播的范围、载体形态以及内涵传递手段等方面都显示出新的特点。

在范围上，网络信息资源不仅包括互联网上的信息资源，也包括各种局域网、地域网和广域网上的信息资源。

[1]本文着重论述与汉语言文字研究相关的网络信息资源，旨在说明有效地利用这一资源，对于语言文字科研和教学工作的重要作用。

目前与汉语言文字研究有关的网络资源，主要包括数字图书、网站资源、搜索引擎、在线汉语字词典、汉语语料库等。

一、数字图书数字图书又称电子图书。

电子图书服务就是一些网站将经过扫描或录入的电子图书放到服务器上，供读者在线阅读或下载。

这类提供在线电子图书服务的站点通常被称为“网络图书屋”。

[2]电子图书具有浏览、下载、打印、检索和互动等多种功能。

与传统的出版物相比，具有省时省力同时又节约资源的优点。

对于汉语言文字工作者来说，国内目前常用的著名中文电子图书主要有超星中文电子图书、方正Apabi电子新书和“书生之家”之中华图书网等。

（一）超星中文电子图书（网址：）是当前世界上最大的中文在线数字图书馆，拥有强大的检索、书签、交互式标注等实用功能。

其在线图书包括语言文字在内的社会学科和自然学科等十余个门类，共十多万种。

很多现已难觅的图书，在超星图书库中都能轻易地找到，因而受到许多读者尤其是文史哲及经济管理专业类读者的欢迎。

其最大特点在于不仅可以进行书目章节的搜索和采集，而且还可以对文献资料进行限时、限量Ford传递，即以电子邮件的方式传递给用户所需资料。

这就为汉语言研究和教学工作提供了高效快捷的宝贵信息。

如笔者曾查询与文字学中“因声求义”的内容有关的资料，结果共搜索到相关目录156条。

也就是说，共查到包括《训诂简论》（陆宗达）、《音韵学通论》（胡安顺）、《训诂学》（郭芹纳）等著作在内的156部参考书目，对这一问题可以获得较为全面的资料。

基于文献分析论述我国Web Archive的研究现状

随着网络技术的不断发展，互联２３６０亿个，年增长１１．２％，与此同２００４年引入我国，随即引起国内学者网已经成为现代社会信息传播和交流时，网页以每周５－３％的速度进行更新 … ，的关注和重视，产生了一系列的研究
（２）通过各种国际学术会议将科
研成果传播出去。
用价值。
ｄｅｖｅｌｏｐｍｅｎｔａｄｌｙｓｌｅｘｉａ［Ｊ】ＴＲＥＮＤＳＩＮＣＯＧＮＩＴＩＶＥＳＣＩＥＮＣＥＳ．ＪＡＮ２０１１
这样的核心作者，随时随地了解这些
作者的研究方向，有助于我们紧跟国
的分析，可以发现研究大多是偏向于查看、引用，扩大影响力。应用研究领域的，具有一定的实践应
参考文献：
… ＧｏｓｗａｍｉＵＡｔｅｍｐｏｒａｌｓａｍｐｌｉｎｇｆｒａｍｅｗｏｒｋｆｏｒ
２０１１
Ｉ４】ＧＯＳＷＡＭＩＵＩｎｔｅｒａｃｔｉｏｎｓＢｅｔｗｅｅｎｔｈｅＮｕｃｌｅｕｓ
ＡｃｃｕｍＰｅｎｓａｎｄＡｕｄｉｔｏｒｙＣｏｒｔｉｃｅｓＰｒｅｄｉｃｔＭｕａｉｃＲｅｗａｒｄ
（ＭＵＳＩＣＡＥＳＣＩＥＮＴＩＡＥ＞（《音乐环境科学》）也是一种非常好的期刊。

基于中文Web社会网络的提取、测量与分析

Ｖｏ．５Ｎｏ２１２．
２０年６０７月
Ｊｎ．０７ｕ２０
基于中文Ｗｅｂ社会网络的提取、测量与分析
邸楠，从磊，晓明姚李
（ｔａ京大学网络研究所，北京１０７）０８１
摘
要：从中文Ｗｅｂ中提取人名实体，设计了３人物间关系定义，以此为基础构建一个人物间关系网络。种并
网页的重要性进行排序，在后文中将依照此排序对人物关系图做演化分析。本文暂时不考虑重名问题，即
收稿日期：０６１—５２０— ２１
基金项目：国家自然科学基金资助项目（０３００６５３６，０００６６４５２，０７１６６６３５）作者简介：邸楠（９１）男，１８一，北京人，北京大学博士研究生。通讯作者：李晓明（９７）男，１５一，湖北沙市人，北京大学教授，博导。
的通讯工具引入传统的社会网络研究。
１基于中文Ｗｅｂ社会网络的构建
１１人名实体的标注．
我们使用ＤＩＲＰＥ方法，一个人名和与之对应的人物属性为“ ］记元组对 ”记包含元组对的文本结构，为“ 模式 ” 。以３个人名及其对应人物的属性为种子，采用迭代方法循环地利用元组对来找到新的模式，利用模式找到新的元组对［。经过４次循环得到了人名列表Ｌ，中包含３５个人名实体，５］其４７３以及在迭代过程中访问的网页集合Ａ，含３０６５个网页。人名实体按照出现次数、出现“ 式 ” 包４３所模的重要性以及所在

国外网络资源存档服务实践——以Archive-It为例

７．４％。统计数据显示，我国网络资源数量
非常庞大且高速增长。网络资源将是未来人类社会记最重要的组成部分，而网络资源的易逝性、不可恢复陛等特陛时保存显得至关重要。
。
—
．ｔ－ｌ．｜
＝．＿
５．自动检测数据
Ａｒｃｈｉｖｅ — Ｉｔ提供对所爬取的网络资源
身各方面的情况开展详细评估，以全面了解自身开展网络资源存档实践所具有和缺
少的条件。４．支持元数据保存
Ａｒｃｈｉｖｅ－Ｉｔ￣用广泛应用的都柏林核
贵的软硬件设备就可以轻松利用该服务
对目标网络资源进行采集、编目、管理、获取、检索、归档、保存等操作。Ａｒｃｈｉｖｅ－Ｉｔ的管理界面简洁并提供可视化展示，作为用户可以从管理界面清晰地了解采集、管
州档案馆、图书馆和历史保存机构；公共图书馆；国家机构；ＮＧＯｓ和地方的区域机
构；博物馆和艺术图书馆等。Ａｒｃｈｉｖｅ－Ｉｔ最大优势在于简单易用，
３．提供用户事前评估分析功能
Ａｒｃｈｉｖｅ — Ｉｔ提供了９种类型的评估调查问卷，用户可以通过这些调查问卷对自
视野
国外网络资源存档服务实践
— —
以Ａｒｃｈｉｖｅ－Ｉｔ为例
文／闫晓创
中国互联网络信息中，￣，（ＣＮＮＩＣ）２０１６年７月发布的第３８次《中国互联网络发展状
况统计报告》显示，截至２０１６年６月，我国

中文网络数据库

4、检索结果显示
点击原文下载
阅读原文，可以通过界面上工具条的使用进行各项操作
下载存盘或直接阅读
中文科技期刊全文数据库（VIP）
编辑单位重庆维普（VIP）资讯公司收录年代 1989年至今。文献最早回溯到 1955年。期刊种数近9000 余种，核心期刊1810 种。文献总量 1500 余万篇收录范围社会科学、自然科学、工程技术、农业科学、医药卫生、经
济管理、教育科学和图书情报检索方式快速检索、传统检索、分类检索、高级检索、期刊导航检索字段可实现对题名、关键词、题名或关键词、文摘、刊名、作者、
第一作者、参考文献、分类号、机构和任意字段等 11个字段进行检索，并可实现各个字段之间的组配检索。收录特点时间跨度、收录期刊种类等在国内同类产品中都是首屈一指。全文质量采用国际通用的高清晰ＰＤＦ全文数据格式。更新周期中心网站日更新
《中国企业、公司及产品数据库》的信息全年100%更新，提供多种形式的载体和版本。全记录包含30多个字段，对企业进行了全方位的立体描述。
中国科研机构数据库
收录了我国近1万家地、市级以上及大学所属主要科研机构的详细信息，包括通讯方式、负责人、学科研究范围、科研成果、拥有专利、获奖情况、产品信息、出版刊物和学科分类等。对查找我国科技单位的发展现状及科研成就有很大帮助。
分类检索
2.分类检索：根据该数据库提供的树型《中刊库》分类导航和《中刊库》刊名导航系统，选择需要检索的类目。 3、辅助功能：
选择期刊重要程度、年代限制、选择显示记录、使用二次检索、题录文摘下载等。
1、主题检索界面
选择检索入口
主题检索两种模式
A.简单检索：直接输入检索词

中文网络数据库

CNKI数字图书馆资源概况

目前CNKI数字图书馆主要由四个分馆组成。 1.综合馆（中国知识资源总库）包含的数据库有：CNKI数据库国优秀博硕士论文全文数据库，中国重要会议论文全文数据库，中国重要报纸全文数据库，中国专利数据库，中国期刊信息与知识数据库，中国核心期刊要目总览，中国学术期刊引证报告数据库，中国期刊引文—全文链接记录，中国图书全文数据库，多媒体知识元库。 2.中小学馆（中国基础教育知识仓库）包括中学期刊报纸全文数据库，小学期刊报纸全文数据库，多媒体教育教学素材库，多媒体课件与案例库，清华同方高考资源库，中小学图书库，《信息技术与课程整合》电子期刊，《问答与导学》电子期刊，教师工具箱（USB硬盘+素材+教育软件）

CNKI数字图书馆资源概况

企业馆（中国企业知识仓库）包含的数据库有：CEO（总裁）知识库， CEKD管理创新知识库， CEKD行业信息知识库， CEKD信息产业知识库， CEKD电力能源知识库， CEKD石油石化知识库， CEKD冶金机械知识库， CEKD交通运输知识库， CEKD电子电器知识库， CEKD轻工纺织知识库， CEKD航空航天知识库， CEKD环保产业知识库， CEKD金融保险知识库， CEKD会议论文知识库， CEKD博硕士论文全， CCPD城市规划与建设知识库。

初级检索

初级检索主页面
初级检索

检索示例：查找2000年以来篇名中有“搜索引擎”的文章，要求检索结果按时间顺序排列。进入初级检索主页面后，在检索项的下拉菜单中选择“篇名”，时间选择2000以来的，排序选择“日期”，然后按检索按钮即可得到结果。如果想得到更精确的结果，可以进行二次检索。

Web Archive 工作收集策略中存在的问题及改进思考

Web Archive 工作收集策略中存在的问题及改进思考随着互联网的不断发展，各类网页内容的数量呈现爆炸式增长，对于如何有效地保存和管理这些信息成为了一个亟待解决的问题。

Web Archive 就是一种旨在收集、保存和使公众可以访问网页内容的机构。

随着Web Archive 的发展和使用，一些问题也逐渐暴露出来。

本文将探讨Web Archive 工作收集策略中存在的问题，并提出一些改进思考。

1. 问题一：收集范围不够广泛目前，Web Archive 主要集中在收集一些权威性较大的网站内容，对于一些小众或者个人网页的收集则相对较少。

这就导致了一些小众网页内容可能会丢失，给后人的研究和了解带来了一定的困难。

改进思考：Web Archive 应该进行更广泛的收集，可以通过引入自动化工具，如网络爬虫等技术，来进行更加全面的网页收集工作。

可以鼓励用户自主上传网页内容，增加网页内容的多样性和全面性。

2. 问题二：收集深度不够Web Archive 对于已经收集的网页内容进行深度的保存不够，往往只能够保存网页的基本信息和主要内容，对于一些深层次的链接、图片、视频等内容的保存不够全面。

改进思考：Web Archive 可以通过改进技术手段，提高对网页内容的深度保存能力。

可以加强对于网页内部链接的保存，增加对于视频、图片等多媒体内容的保存。

可以引入机器学习和人工智能等技术来提高对网页内容的自动化分析和保存能力。

3. 问题三：难以确保收集内容的真实性和完整性随着互联网信息的快速传播和更改，Web Archive 很难确保收集的网页内容的真实性和完整性，容易出现信息失真和内容不完整的情况。

改进思考：Web Archive 可以考虑引入数字签名、时间戳等技术手段，来确保已收集内容的真实性和完整性。

可以加强对于网页内容的监测和更新频率，确保网页内容的及时更新和完整性。

4. 问题四：隐私保护不够完善Web Archive 在收集网页内容的过程中，往往会涉及到一些个人隐私信息的泄露问题，对于隐私保护的工作不够完善。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中文网络资源（Chinese Web Archives）归档及统计分析*刘华/赵国俊2012-10-19 7:58:24 来源：《情报资料工作》2012年04期【英文标题】Filing and Statistical Analysis of the Chinese Web Archives【作者简介】刘华，女，1972年生，中国人民大学信息资源管理学院博士研究生，北京100872；赵国俊，男，1954年生，中国人民大学信息资源管理学院教授，博士生导师，北京100872。

【内容提要】文章主要分析了Web InfoMall和WICP的体系结构，并基于Web InfoMall提供的中文网页测试数据集，分析了中文网页、网站以及域名的规模，保存格式等。

结果表明，中文网页、网站以及域名的分布与全球互联网都遵循近似相同的规律，同时也有其自身的特点。

另外，中文网络资源归档在内容收集、长期保存的格式及实现等方面已经取得了实质性进展。

This paper explores the architecture of Web InfoMall and WICP, and then analyzes the size of Chinese Web pages, Web sites, domain name and the preservation formats based on the data sets of Chinese Web archives provided by Web InfoMall. The results show that Chinese Web shows the same nature in the Web pages, Web site and domain name distribution with Internet, although there exists some differences. Chinese Web archiving initiatives have now begun to move into a more practical implementation phase for the whole Chinese Web sites collecting and long term preserving.【关键词】中文网络资源/归档/链接分析Chinese WebArchives/archiving/link analysis国际上有很多组织或机构都试图去收集和保存网页信息，但收集和保存互联网上的网页面临许多困难或挑战。

首先是技术上的困难，由于网络的规模巨大及网络多变等特点，没有任何一个组织能独立完成对所有网页的收集和保存，因此，世界上网络资源归档项目大都只针对部分网页进行。

其次是法律方面的挑战，主要是与网页内容相关的版权、责任和隐私等问题。

此外，国际上没有专门的组织对网页收集和保存标准或者策略进行规范和指导，导致收集的网页数量和保存情况千差万别。

表1显示了截至2011年底全球已经归档保存的Web资源的规模。

尽管表1只是近似数据，但可以看出，美国的Internet Archive上的网页超过了1500亿，存储容量达5.5 PB的数据。

该项目自1996年成立起就定期收集并永久保存全球网站上可以抓取的信息，成为全球最大的网络资源保存项目。

据中国互联网络信息中心（CNNIC）在2012年1月的报告称，截至2011年底，我国共有775万域名，其中有353万中国国家码顶级域名“.cn”，网站数量约230万[2]。

中文网络资源归档的重要性不言而喻。

由于网页数量巨大，网络资源归档通常采用网络爬虫自动采集，中国两个大型的Web归档项目，北京大学的Web InfoMall[3]和中国国家图书馆的WICP[4]都采用此方法。

Web InfoMall是中文网络资源收集和保存最大和最全面的存档站点，它提供长久存储和访问历史信息等功能。

截至2010年底，Web InfoMall归档了自2001年以来的30多亿中文网页、800多万域名的2000万网站。

WICP保存了自2003年以来所有的中国政府网页（），它们来自8万多个政府网站，还有电子期刊和电子报纸等，容量超过18TB。

本文基于Web InfoMall向全球提供的两个中文网页测试数据集，分析中文网页、网站以及域名的大小，中文网页、网站中主要顶级域名的分布以及在中国国家码顶级域名“.cn”中二级域名的分布情况。

1 中文网络资源归档项目2002年1月，首批中文网页保存归档在Web InfoMall中，此后每天约增加150万页的数量。

截至目前，Web InfoMall已保存超过30亿的中文网页，在线数据总量约为100TB。

通过它能访问以前的网络信息和浏览以前的历史网页。

Web InfoMall的目标是获取和保存尽可能多的中文网页（在网页消失之前）。

互联网上的数据普遍具有多变的特征，据统计网页的平均生命周期为100天左右，“.com”域名的网页生命周期较短，“.gov”则较长。

50%的当前浏览网页将在1年左右后消失。

图1是Web InfoMall的体系结构。

WICP是中国国家图书馆在2003年启动的中文网络资源收集和保存项目，图2显示了WICP体系结构。

WCIP重点收集对中国社会、经济等有重大影响的网页以及“”域名的中国政府网站。

截止到2010年底，它保存了8万多个中国政府网站中的所有网页（“”域名）、315种电子期刊和报纸。

WICP 对网络资源的保存按照专题进行分类和保存，目前保存的网络资源有100多个专题，如2008年北京奥运会、非典、载人航天工程等，在线数据库导航可以访问约2万个服务项，如政府信息、国内外图书馆的服务项目、电子期刊和所有专题内容等。

2 中文网络资源的统计分析本章主要分析由Web InfoMall提供的两个中文网页测试集，见表2。

cwt100g（100GB中文网页测试集）收集了2004年6月的17 045个主机和4 737 349网页，容量约100GB。

通过抽取链接分析这组数据中，得知69%的网页都链接到相同站点，链接到其他网站的网页中有81%链接到本地（省）网站，平均每个主机上的网页数为278。

cwt200g（200 GB网页的中文网页测试集）收集了2006年4月的29 184个主机和32 223 476网页，容量约200GB，每台主机的平均网页数是1104左右。

2.1 网页分析我们把Web看成一个分层系统，网页在最底层，网站在中间层，最上层是域名。

我们使用北京大学天网搜索引擎抓取的2004年6月和2006年4月的两个网页数据集，原始数据的大小近300G，其中包含从源页面到目标页面的超链接。

cwt100g有560万网页，有1.6亿个超级链接，这相当于每个网页都有29个链接。

在cwt200g有3700万网页，20亿的链接，这相当于每个网页都有54个链接。

中文网页中顶级域名数量分布差异较大。

从表3可以看到“.com”域名占绝大多数，其次是“.cn”域名，“.net”和“.org”紧跟其后。

进一步分析中国国家码顶级域名（“.ch”）下的二级域名分布情况，由表4可知，“”和“”占绝大多数。

从表5可知，在cwt200g数据集里“.com”域名占绝大多数，其次是“.cn”域名，“.net”和“.org”紧跟其后。

此外，也分析了中国国家码顶级域名（“.cn”）下的二级域名，由表6可知，在cwt200g数据集中“”域名最多，其次是“”和“”，“”和“”紧随其后。

2.2 网站分析网站也叫主机，被认为是第二层，即Web服务器上承载的网页的集合。

更确切地说，一个主机对应的地址即从http://开始到第一个“/”之间的部分，如http://……./下的所有网页。

cwt100g有560万个网页、17 045个主机，相当于平均每个主机有278个网页；cwt200g有3700万个网页、29 184个主机，相当于每个主机有1104个网页。

中文网站中顶级域名数量分布差异较大。

表7表示，cwt100g数据集中“.com”域名占大多数，其次是“.cn”，然后是“.net”和“.org”。

此外，通过对国家码顶级域名（“.cn”）下的二级域名分析，表8表明“”域名最多，其次是“”和“”，“”和“”紧随其后。

表9表示，cwt200g数据集中“.com”域名占大多数，其次是“.cn”，然后是“.net”和“.org”。

此外，通过国家码顶级域名（“.cn”）下的二级域名分析，表10表明，“”域名最多，其次是“”和“”,“”和“”紧随其后。

统计数据表明，中国互联网发展并不均衡，与全球互联网相一致的是，商业类网站比重最大。

通过对顶级域名的分析可知，中文网站中“.com”和“.cn”占大多数，对二级域名分析可知，“”数量最大，其次是政府网站“”，这些数据也反映了中国在商业领域和政府信息化方面得到了比较大的发展。

3 中文网络资源的长期保存和归档目前网络资源归档的焦点集中在Web资源的收集和长期保存上。

针对网络资源长久保存，不同项目在遵循基本要求的前提下，具体实现方法各不相同。

Web InfoMall使用自定义的存储格式来保存网页[6]，本文分析的两个测试数据集中的网页存储格式为：（1）一个网页文件包含若干个记录；（2）一个记录，包括头部、数据和空行；（3）头部包括一定数量的属性。

第一个属性必须是“版本”属性，最后的属性必须是“长度”属性；（4）属性，包括属性名和属性值，它们由“：”隔开。

基于上述格式保存的中文网页，近日我们完成了2个中文网页测试集的统计分析为了支持长期保存和利用，Web InfoMall在该存储格式上定义了中文网页数据按照＜Column，Key，Timestamp＞三元组顺序存储的带时间维度索引的存储结构，即Timed SSFile（TSFile）[7]。

该存储结构支持对采集的中文网页动态添加和用户访问。

TSFile是一种不可改变的文件（immutable），即一旦创建后，不能在原先的文件上进行修改，从而保证了后人获得数据存储的真实和可信赖。

中国国家图书馆WICP网络信息保存使用OAIS[8]，采用机器可读的目录和都柏林核心元数据标准集（Dublin Core）。

此项目还尝试使用了科技数字信息保存技术，如格式化和迁移等。

虽然还没有真正建立网络资源长久保存的有效途径，WICP正在寻求在图书馆界人士的共同努力下来收集和长久保存数字信息。

4 结语经过10年的探索和积累，中文网络资源自动收集、归档和长期保存等技术领域已经取得实质性进展，实现了中文网页自动采集、自动存储、长期保存、用户访问等基本功能，并开发了相应的自主知识产权的软件及系统。