2003年中国互联网络信息资源数量调查报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2003 年中国互联网络信息资源数量调查报告 信息资源数量调查报告主持单位国务院信息办推广应用组承办单位 中国互联网络信息中心完成时间 2004 年 2 月本文图均略目录第一部分调 查背景 1 第二部分调查说明 2 一、调查对象 2 二、调查内容 2 三、调查时 间 3 四、有关概念 3 五、调查方法 4 六、调查问卷 7 七、组织单位 7 第三 部分调查结果 9 第一章域名、网站数及地区分布 9 一、域名数 9 二、网站 数 10 第二章网站性质及服务内容 12 一、网站按性质分类 12 二、网站的 基本情况 13 三、各类型网站信息服务内容及信息更新情况 29 第三章网页 数量及性质特征 60 一、全国网站的网页情况 60 二、国内前 100 家大型网 站的网页情况 63 三、全国网站的网页与国内前 100 家大型网站的网页情 况比较 65 第四章在线数据库数量及性质 67 一、在线数据库数量及各类网 站拥有在线数据库情况 67 二、在线数据库按内容和记录数分类情况 70 第 五章总结 79 一、域名统计 79 二、网站统计 79 三、网页统计 85 四、在线 数据库统计 86 图目录图 1 地区域名数量分布 10 图 2 站点性质分类 10 图 3 地区网站数量分布 11 图 4 不同性质类型网站分布图-饼状图 12 图 5 不同性 质类型网站分布图-柱状图 13 图 6 平均每个网站每天的页面访问数 13 图 7 网站每天的页面访问数-按类型分布 14 图 8 企业网站每天的页面访问数按行业分布 15 图 9 制造业企业网站每天的页面访问数 16 图 10 业企业网 站每天的页面访问数 16 图 11 各类网站的网站链接情况 17 图 12 各网站链
接数的网站比例 18 图 13 各类网站的信息主要来源情况 19 图 14 各类网站 提供的语种文字阅读情况 20 图 15 各类网站提供全站信息搜索的情况 21 图 16 各类网站的网页上提供网站地图的情况 21 图 17 各类网站的网页上 提供联系方式的情况 22 图 18 各类网站服务器拥有情况 22 图 19 拥有服务 器的网站比例 23 图 20 各类网站拥有服务器情况 24 图 21 拥有服务器的各 类网站所采用的操作系统情况 25 图 22 负责网站运营的全职员工人数情况 26 图 23 各类网站负责运营的平均全职员工人数 26 图 24 各类网站负责运 营的全职员工人数拥有情况 27 图 25 网站的成立时间-饼图 28 图 26 提供各 类信息服务的政府网站的比例 30 图 27 政府网站交互性服务 31 图 28 政府 新闻更新周期 32 图 29 政府职能业务介绍更新周期 32 图 30 统计数据资料 查询更新周期 33 图 31 法律法规政策文件更新周期 33 图 32 办事指南说明 更新周期 34 图 33 办公业务咨询信息更新周期 34 图 34 政府通知公告更新 周期 35 图 35 办事进程状态查询更新周期 35 图 36 企业行业经济信息更新 周期 36 图 37 便民生活住行信息更新周期 36 图 38 表格下载更新周期 37 图 39 政府公告、新闻、政策等信息通过网站发布情况 37 图 40 政府日常 办公事务与网站相关服务的结合程度 38 图 41 提供以下信息服务的企业网 站的比例 39 图 42 提供以下交互服务的企业网站的比例 40 图 43 企业网站 信息总体更新情况 41 图 44 企业介绍更新周期 41 图 45 产品服务介绍更新 周期 42 图 46 行业新闻更新周期 42 图 47 企业动态更新周期 43 图 48 售后 服务技术支持更新周期 43 图 49 行业解决方案更新周期 44 图 50 行业报告 更新周期 44 图 51 电子期刊更新周期 45 图 52 招聘信息更新周期 45 图 53 企业网站的行业分布 46 图 54 制造业中各类网站的分布 47 图 55 业中各类
网站的分布 47 图 56 企业产品、服务、企业新闻等信息通过网站发布情况 48 图 57 企业业务与网站的结合程度 48 图 58 提供各类服务的商业网站的 比例 50 图 59 提供各类信息的商业网站的比例 51 图 60 商业网站总体信息更新情 况 52 图 61 商业网站新闻更新周期 52 图 62 商业网站产品信息更新周期 53 图 63 商业网站贸易信息更新周期 53 图 64 商业网站企业信息更新周期 54 图 65 商业网站科技信息更新周期 54 图 66 商业网站教育信息更新周期 55 图 67 商业网站招聘信息更新周期 55 图 68 商业网站金融财经信息更新周 期 56 图 69 商业网站房地产信息更新周期 56 图 70 商业网站汽车信息更新 周期 57 图 71 商业网站休闲娱乐信息更新周期 57 图 72 商业网站生活服务 信息更新周期 58 图 73 商业网站体育信息更新周期 58 图 74 商业网站医疗 健康保健信息更新周期 59 图 75 商业网站文学艺术信息更新周期 59 图 76 商业网站旅游交通信息更新周期 60 图 77 商业网站交友征婚信息更新周期 60 图 78 全国网站的静动态网页数 61 图 79 网页的更新周期 62 图 80 全国 前 100 家大型网站的动静态网页数 63 图 81 全国前 100 家网站的网页更新 周期 64 图 82 前 100 家大型网站与全国网站的网页更新周期 66 图 83 各类 网站拥有的在线数据库数和占全部在线数据库的比例 67 图 84 各类网站拥 有在线数据库的比例 68 图 85 各类网站平均每个网站拥有数据库数量情况 69 图 86 各类网站平均拥有在线数据库数量情况 69 图 87 拥有不同在线数 据库数的网站比例 70 图 88 拥有各类在线数据库的网站比例情况 71 图 89 各类在线数据库平均拥有的记录数 72 图 90 各类在线数据库的更新周期情 况 73 图 91 各类在线数据库的每次更新比率情况 75 图 92 各类网站在线数
据库具有其它载体情况 76 图 93 各类网站在线数据库具体载体形式 76 图 94 在线数据库收费情况 77 图 95 在线数据库面向对象情况 78 表目录表 1 调查内容和指标 2 表 2 地区域名数量分布 9 表 3 站点性质分类 10 表 4 地 区网站数量分布 11 表 5 各类网站的网站链接情况 17 表 6 各类网站的信息 主要来源情况 18 表 7 各类网站提供的语种文字阅读情况 20 表 8 各类网站 拥有服务器情况 23 表 9 拥有服务器的各类网站所采用的操作系统情况 25 表 10 各类网站负责运营的平均全职员工人数拥有情况 27 表 11 网页数及 网页字节数情况 61 表 12 网页的编码情况 62 表 13 网页的内容分类情况按 多媒体形式 62 表 14 网页的更新周期情况 62 表 15 前 100 家网站的网页数 及网页字节数情况 63 表 16 前 100 家网站的网页编码情况 63 表 17 前 100 家网站的网页内容分类情况按多媒体形式 64 表 18 前 100 家网站的网页更 新周期 64 表 19 在线数据库数量及分布情况 67 表 20 各类网站拥有在线数 据库情况 68 表 21 拥有各类在线数据库的网站比例情况 70 表 22 各类在线 数据库平均拥有的记录数 71 表 23 各类在线数据库的更新周期情况 73 表 24 在线数据库的每次更新记录比率情况 74 表 25 在线数据库的载体情况 75 表 26 各类网站在线数据库具体载体形式 76 表 27 在线数据库收费情况 77 表 28 在线数据库面向对象情况 78 第一部分调查背景信息资源是国家的 战略资源,它在国民经济信息化中位于核心的地位。
正确开发、利用信息资源对促进我国信息化的快速发展,导正我国信 息化的发展方向,拉动国民经济和社会发展,提高全民族的文化素质和创 新能力,促进社会进步和繁荣,实施西部大开发战略等方面有着十分重要 的意义。
互联网络信息资源是信息资源的重要组成部分,自从 20 世纪 90 年代 中期开始,互联网在我国迅猛发展,网上中文信息资源快速增长,到 2002 年 12 月 31 日,全国在线数据库达到 82929 个,共 15709 万个网页,2744 数据量。
网上政府信息、行业和企业信息、科技教育信息、文化娱乐信息、新 闻信息、旅游信息、区域特色信息等均已形成一定规模。
随着互联网络的飞速发展,我国互联网络信息资源得到了很大的发展, 但是我国互联网络信息资源不断进展的同时,存在一些问题需要重视。
例如,网络和数据库存在大量低水平重复建设,难以实现互联共享; 信息资源的开发滞后应用,存在大量信息孤岛现象等。
因此,加大对我国互联网络信息资源开发和利用的引导力度,迫在眉 睫。
为加深政府对我国互联网络信息资源开发和利用情况的把握,包括信 息资源的存量、增量以及地区和行业分类特征等,为加快制定有关信息资 源发展政策和措施提供重要参考依据,促进政府对信息资源开发的有力引 导,促进我国互联网络信息资源的充分利用,国务院信息化工作办公 室决定对我国各行、各业、各地区互联网络信息资源数量情况进行全面调 查。
本次调查是我国互联网络信息资源的第三次数量调查,开始于 2003 年 12 月,结束于 2004 年 2 月,历时 3 个月。
在保持与前二次调查有一定连续性、借鉴前二次调查成功经验的基础 上,在调查方法、调查深度、结果分析等方面有所创新。
本次调查初步探索了我国互联网络信息资源发展中的问题和规律,为 我国政府进一步正确引导互联网络信息资源的开发利用提供了重要参考。
第二部分调查说明一、调查对象所有域名注册单位属于中国不包括香 港、澳门、台湾的网站总和,包括,,和域名含,,等下的所有网站。
二、调查内容表 1 调查内容和指标指标数据来源备注域名数量数据+ 注册商上报网站数量数据+注册商上报网页数量计算机自动搜索在线数据 库数量问卷调查域名各地区域名分布状况数据 +注册商上报网站各地区网 站分布状况数据+注册商上报按照省级行政区域划分各种性质的网站分布 状况按照网站的域名特征划分主要类型网站提供的服务问卷调查政府、商 业、企业各行业网站分布状况按照标准行业分类法网站相关特征每天页面 访问数服务器拥有情况网站的链接数网站的员工数网站成立时间频道数 网站版本网站的可访问性网站地图等安全性防火墙、操作系统等网站效果 指标信息发布可用性度量业务结合网页网页按内容形式分类比例计算机 搜索包括图像、音频和视频网页按性质分类比例政府、企业、商业等网页 按地域分布比例省域及七大区分布网页长度以字节数计算网页的更新周 期网页编码状况简、繁体中文、英文等在线数据库按性质分类比例问卷调 查政府、企业、商业网站等按地域分布比例华北、华南等七大区分布按内 容分类比例产品、科技信息数据库等按形式分类比例图形文字数据综合等 按使用情况分类比例分自用和公用公用下分免费和收费收费下分收费方 式按服务方式分类比例面向终端用户或中介在线数据库更新状况-数据 库容量物理存储量是否同时具有其它载体否、是光盘、纸质等三、调查时 间调查时间 2003 年 12 月-2004 年 2 月;数据截至时间 2003 年 12 月 31
日。
四、有关概念 1.在本次调查中,中国互联网络信息资源定义为中国 互联网络上公开发布的网页和在线数据库的总和。
2.中国互联网络是指所有域名注册单位属于中国大陆的网站总和。
3. 在线数据库是指以为界面, 提供公共检索的收费或免费的数据库。
4. 网站是指有独立域名的站点, 其中包括和通用顶级域名下的站点。
此处的独立域名指的是每个域名最多只对应一个网站 +域名,如对域 名来说,它只有一个网站,并非它有、……等多个网站。
5. 商业网站指业务主要在网上进行的电子商业网站,如新浪、 搜狐、 网易等网站;企业网站是相对于商业网站而言,指业务主要在网下进行的 企业所建立的网站,如联想集团的网站。
6.网页搜索是指对抽取的网站从其首页+域名开始搜索,通过网页上 的层层链接,抓取所有属于该网站的网页的特征及其文本内容。
7.静态网页是指中不含?和输入参数的网页,包括*、*、*、*、*等。
8.动态网页是指中含?或输入参数的网页,包括,,,等在方进行 处理的网页。
9.网页的编码形式是根据网页本身的信息通过分析得到的,不是通 过一篇网页在中的声明来判断的。
因为大量国内的英文网页在其声明中都是简体中文。
10.网页的内容形式是通过文件后缀获得的。
关于图像、音频、视频的文件后缀定义标准参考标准。
11.网页的更新情况网页的更新时间是指搜索到该网页的当日日期与
该网页的最后更新日期之间的时间段。
五、调查方法一数据获取方式和渠道域名和网站的总量数据通过国内 各国际域名注册商和联合获得。
网页的特征数据由百度公司利用搜索技术对全国网站进行搜索获得。
搜索时通过判断同一网页是否有多个链接指向,避免了对这类网页的 重复计算,通过判断不同网站的地址和首页字节数是否相同,排除了不同 域名指向同一网站的情况。
网站的特征数据及在线数据库的特征数据通过电话问卷调查的方式 获得。
二调查问卷的抽样方法 1 总体界定按照对中国互联网络信息资源的定 义中国互联网络上公开发布的网页、在线数据库的总和,同时考虑到未注 册域名而提供服务的网站数量较少以及调查的难度,本次调查中所指的总 体为中国不包括香港、澳门、台湾地区所有已注册域名的网站,包括,, 和域名含,等下的所有网站。
2 抽样框关于抽样框,最直接的作法是选择抽样框为全国有域名的网 站名录。
由于保密性的原因,抽样过程需要委托各域名注册代理商完成,从方 便实施并提高数据精度的角度考虑选择抽样框为全国不含港、澳、台范围 内的域名名录。
由于一个网站可能会有两个或两个以上域名,而有的域名没有建立网 站。
这样对于总体而言,就出现了抽样框单位没有对应的抽样单位、抽样
框单位和抽样单位不一一对应等问题。
对此,考虑采用排除、事后加权等方法来解决。
3 抽样方法本次调查的抽样方法采用分层按比例抽样考虑到各域名类 别下网站特征的差别,首先按域名类别分层;之后在每个类别内采用定距 抽样的方法来抽取样本,最后对调查结果进行事后加权处理以估计全国范 围的估计量。
下面分阶段叙述抽样方法第一阶段将样本量分到各层因为到目前 2003 年 11 月为止只有截止 2003 年 6 月 30 日的全国范围的域名数的情况; 同时考虑到我们主要是利用各类别域名数之间的比例关系来确定样本量 在各层的分配,而这种关系应该不会有较大的变化。
因此本方案按照截止 2003 年 6 月 30 日的各类别域名数占全国域名总 数的比例将样本总量分配到各域名类别。
第二阶段将样本量分配到各域名注册代理商抽样过程由域名注册代 理商按照抽样办法由中国互联网络信息中心提供抽取指定数量的域名作 为样本。
样本按照各域名注册代理商所注册拥有的域名数的比例进行分配。
具体计算办法如下=×其中表示第家域名注册代理商所应抽取第类的 域名数,表示第类应抽取的域名样本数,表示第家域名注册代理商所拥有 第类的域名总数,表示第类的域名总数。
第三阶段各家域名注册代理商抽取域名样本考虑到尽可能简化各域 名注册代理商抽取样本的工作量和保证抽样的精度,要求各域名注册代理 商在整理了域名名录抽样框后采用等距抽样,抽取样本步骤如下步骤 1 分
组以域名的类别为单位对域名名录进行分组。
步骤 2 排序由域名注册代理商对其抽样框域名名录及相关信息内各组 域名首先按照域名注册单位所属省份排序,进而在域名注册单位所属省份 下按域名注册先后时间进行排序。
步骤 3 编号对各组内完成排序的域名进行编号。
域名注册单位所属省份排序和编号规则规定如下序号省市区序号省 市区序号省市区序号省市区 1 北京 9 上海 17 湖北 25 云南 2 天津 10 江苏 18 湖南 26 西藏 3 河北 11 浙江 19 广东 27 陕西 4 山西 12 安徽 20 广西 28 甘肃 5 内蒙古 13 福建 21 海南 29 青海 6 辽宁 14 江西 22 重庆 30 宁夏 7 吉 林 15 山东 23 四川 31 新疆 8 黑龙江 16 河南 24 贵州步骤 4 抽取样本以第 个域名注册代理商、抽取第类样本的过程为例叙述如下。
第个域名注册代理商在第组域名列表中抽取出指定数量的个域名作 为其提供的第类域名的样本,抽取的规则如下首先计算一个抽样距离 =, 为第个域名注册代理商在第类样本中的抽样间距,然后随机从 1 到中选出 一个数,那么编号为=+*=0、1、2、3-1 的域名即为被抽取的样本域名当> 时,取=-。
其他组的样本抽取过程类似,将各组中抽取到的样本综合到一起可组 成第个注册代理商应抽取的样本。
步骤 5 获取样本相关资料将以上步骤所抽取的样本域名及其相关信息 包括域名、域名类型、域名注册时间、域名所属单位、域名单位所在地、 域名联系人、联系电话等存为工作表文件。
格式如下序号域名域名类型域名注册时间域名所属单位域名单位所
在地联系人及联系方式1北京
将所有注册代理商提供的样本合并即成为调查所需样本。
六、调查问卷本次问卷调查的有效网站样本数为2492个,在置信
度为95的精度要求下,可保证最大允许绝对误差小于2。
调查问卷时间为2003年12月-2004年2月。
问卷所采集数据的相应记录时间为2003年12月31日。
七、组织单位1、委托单位国务院信息化工作办公室2、实施单位中国互联网络信息中心3、协助单位按字母排序百度在线网络技术北京有限公司北京东方网景信息科技有限公司北京信海科技发展公司北京信诺立兴业网络通信技术有限公司创联万网国际信息技术北京有限公司东方通信股份有限公司搜狐爱特信信息技术北京有限公司厦门必信电脑网络有限公司厦门精。