网络信息分类发展史
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 计算机技术、网络技术、通信技术使分布在全 球的信息设备和各种信息资源跨越时空地联系 在一起。 – 数字技术、多媒体技术使借助一台PC就可以浏 览检索文本、图形、声音、图像等信息。 – 人工智能技术、自然语言理解技术、自动索引 技术、数据库技术使快速地将浩如烟海的动态 信息进行过滤、整序、建库成为可能。
1、现有文献分类法在网络信息组织中的应用现状 • 20世纪80年代,人们对文献分类法(主要是DDC、 LCC、UDC) 应用于联机环境的大量研究,为文献 分类法在网络信息组织中的应用作了必要的准备。
• 围绕文献分类法在Internet的应用,国外 进行过不少实验研究,目前已进入实用阶 段。现有一些大的万维网站点或搜索引擎 采用现有文献分类法组织Internet信息资 源。
(一)产品分类的功能
• 1. 寻址:
– 检索者通过分类能找到资源的位置。当买卖双 方在寻找所需的产品及服务时,可以根据分类 表找到其具体内容。并可以找到相关产品与服 务提供者的网站链接或者联系途径。
• 2. 浏览:
– 使检索者在同一类别中看到邻近的资源。比如 买卖双方在熟悉网站中产品与服务类目及编排 的情况下,都可以通过浏览其目录发现所需产 品以及相关产品,从而得到所需产品与服务的 供求信息内容。
(3)学科分类法系统
• 这是将科学、技术的各个学科、领域及其分支设 为类目的分类法系统。 • 中文搜索引擎“网络指南针”就提供一个学科分 类系统,设有表示学科的一级类目58个,如安全 科学技术、材料科学、测绘科学技术、地球科学、 法学、管理学等,按类名字顺排列,下设若干二 级、三级类目。
2、 自编分类系统的特点
• 另有一种与文献分类法的类号相联系的主题范畴 系统,即在范畴之后标注特定分类法的分类号。
–如美国的Blue Web‘s Content Categories,就是在 范畴后附有DDC的类号。
• 我国的《中图法》被“网络指南针”用作 组织信息资源的三种分类体系之一。
2、现有分类法对网络信息组织 的适应性
• 例如,雅虎中国的“因特网”的下位类有:
电子卡片@ 电子邮件@ 公司@ 会议与商展(2) 连到网上的装置(6) 企业网@ 软件@ 商业软件@ 搜寻与检索(2) 谈天室(6) 通讯与网路@ „„
• (3)类目体系不太严密、科学,主要表 现为:列类不完备,类目划分的规律性 不强,从属关系不严格,概念之间关系 的显示较为简单。 • (4)都不采用类目标记符号。
1、 自编分类系统的种类
• 用于网络信息组织的自编分类系统主要有 以下3种:
–等级式主题分类法系统 –分面组配分类法系统 –学科分类法系统
(1)等级式主题分类法系统
• 所谓等级式主题分类法系统是指在分类体系中, 基本上采用等级结构,一个主题充当一个类目, 类目按字顺或人为次序排列,类目不采用标记符 号(分类号)表示,一个类目可以细分为若干个 细目,同位类的细目多按字顺排列。这种主题分 类法形式的分类体系,依事物分类,而不是依学 科分类。目前大多数网络分类检索采用这种分类 系统。
网络信息分类发展史
• 网络信息检索系统的信息组织主要体现在搜索引 擎(包括网络目录)的索引数据库组织上。搜索 引擎的主要功能是方便人们搜索互联网上的信息 并提供获取所需信息的途径。被搜索引擎所组织 的信息资源以万维网上的信息为主,有时也包括 电子邮件地址、新闻论坛文章、FTP、Gopher等网 络信息资源。
就目前所见,网络中的自编分类系统具 有以下特点: • (1)大多依事物分类建立类目体系,列类以网 络信息资源做保证,类目体系往往并不涵盖全部 知识领域。 • (2)类目大量采用多重列类法,经常采用多个 标准对同一个类目进行划分;对多向成族的概念 在多个类目下重复设类,并在标引时采用互见标 引法,利用超文本技术进行链接,实现信息组织 的多维化,提供多途径检索。
也有一些站点采用综合性分类法 组织专业性的网络信息资源
• 如 The Social Science Information Gateway 运用UDC的社会科学部分。 • 天文学的Expanding Universe采用LCC。 • 图书情报学的PICK(Quality Internet Resources in Library and Information Science)采用LCC。
• 这些站点对现有分类法在Internet的应用 作了有益的尝试,它使人们认识到现有分 类法在组织网络信息时具有以下优势:
(1) 由于限定了检索范围,可以提高检 准率; (2) 分类等级结构可以提供检索词的上 下文; (3) 等级结构便于用户在查找时进行浏 览; (4) 当检索目的不明确或检索词不确定 时,分类浏览方式更有效率;
(2)分面组配分类法系统
• 分面组配分类法系统是由若干个分面组成,每一 分面的类目可以与其他分面的类目组配,表达专 指的概念。 • 中文搜索引擎“中华网目”就是采用分面组配分 类法建立其检索系统。它设计了两个分面:
–一个是地域分面,分省级行政区、城市两级类目; –二是主题分面,一级类目为政府/组织、财经/工商、 教育 / 科技、旅行 / 观光 / 旅馆、媒体 / 出版、文艺 / 体 育/休闲、计算机/因特网、信息服务等,一级类下分 出若干二级类。查询时,可以将两个分面的类目进行 组配,输出相关的网页链接。
• 网络信息的特点
一、 网络的信息、用户、技术 环境特点
– 数量巨大而庞杂 – 内容范围广泛 – 信息类型众多 – 动态性高 – 超文本链接 – 有序和无序并存
• 网络信息用户的特点
– 用户范围极为广泛 – 受教育程度差别极大 – 利用网络信息的目的和类型有很大差异 – 用户使用的网络服务不同
• 网络信息技术环境的特点
利用UDC的站点有:
• Directory of Networked Resources • Informazioni Classificate per Discipline • WWW Subject Tree of WAIS Databases • Worldwide Resources Organised by UDC 等10 余个。
• (5)类目级别不多,往往采用层层链接 的方法进行显示。
• ( 6 )界面显示形式多样,既有列表方式,又 有图形方式。以列表方式显示时,有直接显示 和分屏显示两种,这两种方式各有优缺点。 • (7)分类系统往往与主题系统相结合,提供 多种检索途径。有的检索系统还提供多个平行 的分类系统。
• (8)分类标引基本上是由人工进行,自动分 类标引有待进一步试验和完善。
此外,还有一些专பைடு நூலகம்分类法用于 组织专业性网络信息资源
• 如《工程信息分类法》用于Edinburgh Engineering Virtual Library和Engineering Electronic Library, Sweden的信息组织; • 美 国 数 学 学 会 的 Materials Organized by Mathematical Classification是采用《数学主题 分类法》进行组织, • Paths to Computer Science Subject Information采用《计算评论分类法》组织其信息。
应用DDC的站点有:
• • • • • • • • BUBL Link, Basalt Regional Library Homepage, Blue Web’s Content Categories, Canadian Information by Subject , The Internet Resource, Subject List in Classification Order, NetFirst, CyberDewey:A Hotlist of Internet Sites Organized Using Dewey Decimal Classification Codes 等30 多个。
• (5) 以知识分类为基础,以符号为标识, 具备成为不同语言转换中介的条件; (6) 非文本信息在网络信息资源中所占比 例日渐增大,其内容特征难以用文字表达, 分类法的聚类功能及号码标识为之提供了 一条可能途径。
• 现有分类法在网络信息组织的实际应用, 也反映出现有分类法用于网络信息组织时 需要有所调整,主要包括:
分类比较详细的雅虎中国(Yahoo!)分类系统。
Yahoo首先将全部信息分为14大类,分别为:
休闲与运动 社会科学 社会与文化 政府与政治 科学 娱乐 健康与医药 区域 教育 参考资料 商业与经济 新闻与媒体 电脑与因特网 艺术与人文
大类之下,根据需要可以分出若干二级类。
如“电脑与因特网”大类,进一步细分为:
采用LCC 的站点有:
• CyberStacks • Internet resources Arranged by the Library of Congress Classification System • Scout Report Signpost • The WWW Virtual Library 等20 多个。
电子商务中的产品信息 分类
• 电子商务网站中产品信息的分类 • B2B电子交易市场中信息组织的基础是产品分类。 • 在每个电子交易市场中,都有产品分类目录,网 站中利用产品与服务的分类组织商业信息、编制 广告索引、编制产品、企业数据库等等;同时也 作为企业通过产品与服务分类目录浏览、发布或 查询所需产品与服务信息、交易、并寻找合作伙 伴时的依据。
三、用于网络信息组织的自编分 类系统
• 有许多搜索引擎采用自编分类系统进行信息组织, 具体表现为网站分类目录(索引)和网页分类索 引。目前在中国内地、香港、台湾,以及国外的 120个中文搜索引擎中,有90多个提供网站分类目 录,有近10 个提供网页分类索引;著名的英文搜 索引擎,也有不少提供网站或网页的分类目录 (索引),如Yahoo, Infoseek, Excite, AltaVista等。但是,这些搜索引擎的分类系统是 各自建立,互不一致,缺少规范的。
对比搜狐和新浪分类体系
• 搜狐搜索引擎的分类体系ttp:/// • 搜狐采用树型结构对站点进行层次性分类,将所 有网站分为18个大类,各大类下又细分出若干二、 三、四级或更小的类目,类目总数达5万多。 • 搜狐的大类基本上是稳定的,但小类则处于不断 变化之中,搜狐网站对每周新增类目和网站都进 行报道。 • 新浪/ • 新浪将网站分为17大类 ,另外有一个少儿搜索。 各大类根据需要再细分出多级类目
• 虽然网络信息、用户、技术环境具有不同于以往 的特点,但是,分类法仍然是网络信息组织所采 用的一种重要方法。 • 目前, Internet 主要以两种方式采用分类法进行 信息组织:
–一是基本以人工标引方式采用现有的文献分类法 –二是以人工标引或自动标引方式采用自编的分类系统
二、现有文献分类法在网络信息 组织中的应用
(1)将分类法的信息保证扩展到包括Internet 信息资源,增加必要的新类目,尤其使非学术性 信息的类目; (2)适当突出信息量大、利用率高的类目; (3)修订类名,增强其表达性和通用性; (4)不断增加新的术语作为索引词; (5)扩展分类法与其他受控词汇的联系;
(6)控制使用类目的深度,多数网络分类检索 系统只使用分类法的1-3级类目。 (7)分解和标记类号的组成因素,以识别它 所表达的特定主题和主题方面; (8)将类目的线性结构改造成网状结构,满足 多途径浏览检索的需要。
安全与加密 半导体 便携电脑 程序设计语言 电脑合成音乐 电子游戏 电脑与资讯科学 电子通讯 多媒体 高速计算与平行计算 个人电脑 公司 公元2000年危机 会议与商展 绘图 竞赛 历史 软件 通讯与网络 新闻与媒体 虚拟文化 训练 因特网 硬件 杂志 ……
• 二级类目下分出若干三级类目,依次类推, 可根据需要细分出4、5级类目。
1、现有文献分类法在网络信息组织中的应用现状 • 20世纪80年代,人们对文献分类法(主要是DDC、 LCC、UDC) 应用于联机环境的大量研究,为文献 分类法在网络信息组织中的应用作了必要的准备。
• 围绕文献分类法在Internet的应用,国外 进行过不少实验研究,目前已进入实用阶 段。现有一些大的万维网站点或搜索引擎 采用现有文献分类法组织Internet信息资 源。
(一)产品分类的功能
• 1. 寻址:
– 检索者通过分类能找到资源的位置。当买卖双 方在寻找所需的产品及服务时,可以根据分类 表找到其具体内容。并可以找到相关产品与服 务提供者的网站链接或者联系途径。
• 2. 浏览:
– 使检索者在同一类别中看到邻近的资源。比如 买卖双方在熟悉网站中产品与服务类目及编排 的情况下,都可以通过浏览其目录发现所需产 品以及相关产品,从而得到所需产品与服务的 供求信息内容。
(3)学科分类法系统
• 这是将科学、技术的各个学科、领域及其分支设 为类目的分类法系统。 • 中文搜索引擎“网络指南针”就提供一个学科分 类系统,设有表示学科的一级类目58个,如安全 科学技术、材料科学、测绘科学技术、地球科学、 法学、管理学等,按类名字顺排列,下设若干二 级、三级类目。
2、 自编分类系统的特点
• 另有一种与文献分类法的类号相联系的主题范畴 系统,即在范畴之后标注特定分类法的分类号。
–如美国的Blue Web‘s Content Categories,就是在 范畴后附有DDC的类号。
• 我国的《中图法》被“网络指南针”用作 组织信息资源的三种分类体系之一。
2、现有分类法对网络信息组织 的适应性
• 例如,雅虎中国的“因特网”的下位类有:
电子卡片@ 电子邮件@ 公司@ 会议与商展(2) 连到网上的装置(6) 企业网@ 软件@ 商业软件@ 搜寻与检索(2) 谈天室(6) 通讯与网路@ „„
• (3)类目体系不太严密、科学,主要表 现为:列类不完备,类目划分的规律性 不强,从属关系不严格,概念之间关系 的显示较为简单。 • (4)都不采用类目标记符号。
1、 自编分类系统的种类
• 用于网络信息组织的自编分类系统主要有 以下3种:
–等级式主题分类法系统 –分面组配分类法系统 –学科分类法系统
(1)等级式主题分类法系统
• 所谓等级式主题分类法系统是指在分类体系中, 基本上采用等级结构,一个主题充当一个类目, 类目按字顺或人为次序排列,类目不采用标记符 号(分类号)表示,一个类目可以细分为若干个 细目,同位类的细目多按字顺排列。这种主题分 类法形式的分类体系,依事物分类,而不是依学 科分类。目前大多数网络分类检索采用这种分类 系统。
网络信息分类发展史
• 网络信息检索系统的信息组织主要体现在搜索引 擎(包括网络目录)的索引数据库组织上。搜索 引擎的主要功能是方便人们搜索互联网上的信息 并提供获取所需信息的途径。被搜索引擎所组织 的信息资源以万维网上的信息为主,有时也包括 电子邮件地址、新闻论坛文章、FTP、Gopher等网 络信息资源。
就目前所见,网络中的自编分类系统具 有以下特点: • (1)大多依事物分类建立类目体系,列类以网 络信息资源做保证,类目体系往往并不涵盖全部 知识领域。 • (2)类目大量采用多重列类法,经常采用多个 标准对同一个类目进行划分;对多向成族的概念 在多个类目下重复设类,并在标引时采用互见标 引法,利用超文本技术进行链接,实现信息组织 的多维化,提供多途径检索。
也有一些站点采用综合性分类法 组织专业性的网络信息资源
• 如 The Social Science Information Gateway 运用UDC的社会科学部分。 • 天文学的Expanding Universe采用LCC。 • 图书情报学的PICK(Quality Internet Resources in Library and Information Science)采用LCC。
• 这些站点对现有分类法在Internet的应用 作了有益的尝试,它使人们认识到现有分 类法在组织网络信息时具有以下优势:
(1) 由于限定了检索范围,可以提高检 准率; (2) 分类等级结构可以提供检索词的上 下文; (3) 等级结构便于用户在查找时进行浏 览; (4) 当检索目的不明确或检索词不确定 时,分类浏览方式更有效率;
(2)分面组配分类法系统
• 分面组配分类法系统是由若干个分面组成,每一 分面的类目可以与其他分面的类目组配,表达专 指的概念。 • 中文搜索引擎“中华网目”就是采用分面组配分 类法建立其检索系统。它设计了两个分面:
–一个是地域分面,分省级行政区、城市两级类目; –二是主题分面,一级类目为政府/组织、财经/工商、 教育 / 科技、旅行 / 观光 / 旅馆、媒体 / 出版、文艺 / 体 育/休闲、计算机/因特网、信息服务等,一级类下分 出若干二级类。查询时,可以将两个分面的类目进行 组配,输出相关的网页链接。
• 网络信息的特点
一、 网络的信息、用户、技术 环境特点
– 数量巨大而庞杂 – 内容范围广泛 – 信息类型众多 – 动态性高 – 超文本链接 – 有序和无序并存
• 网络信息用户的特点
– 用户范围极为广泛 – 受教育程度差别极大 – 利用网络信息的目的和类型有很大差异 – 用户使用的网络服务不同
• 网络信息技术环境的特点
利用UDC的站点有:
• Directory of Networked Resources • Informazioni Classificate per Discipline • WWW Subject Tree of WAIS Databases • Worldwide Resources Organised by UDC 等10 余个。
• (5)类目级别不多,往往采用层层链接 的方法进行显示。
• ( 6 )界面显示形式多样,既有列表方式,又 有图形方式。以列表方式显示时,有直接显示 和分屏显示两种,这两种方式各有优缺点。 • (7)分类系统往往与主题系统相结合,提供 多种检索途径。有的检索系统还提供多个平行 的分类系统。
• (8)分类标引基本上是由人工进行,自动分 类标引有待进一步试验和完善。
此外,还有一些专பைடு நூலகம்分类法用于 组织专业性网络信息资源
• 如《工程信息分类法》用于Edinburgh Engineering Virtual Library和Engineering Electronic Library, Sweden的信息组织; • 美 国 数 学 学 会 的 Materials Organized by Mathematical Classification是采用《数学主题 分类法》进行组织, • Paths to Computer Science Subject Information采用《计算评论分类法》组织其信息。
应用DDC的站点有:
• • • • • • • • BUBL Link, Basalt Regional Library Homepage, Blue Web’s Content Categories, Canadian Information by Subject , The Internet Resource, Subject List in Classification Order, NetFirst, CyberDewey:A Hotlist of Internet Sites Organized Using Dewey Decimal Classification Codes 等30 多个。
• (5) 以知识分类为基础,以符号为标识, 具备成为不同语言转换中介的条件; (6) 非文本信息在网络信息资源中所占比 例日渐增大,其内容特征难以用文字表达, 分类法的聚类功能及号码标识为之提供了 一条可能途径。
• 现有分类法在网络信息组织的实际应用, 也反映出现有分类法用于网络信息组织时 需要有所调整,主要包括:
分类比较详细的雅虎中国(Yahoo!)分类系统。
Yahoo首先将全部信息分为14大类,分别为:
休闲与运动 社会科学 社会与文化 政府与政治 科学 娱乐 健康与医药 区域 教育 参考资料 商业与经济 新闻与媒体 电脑与因特网 艺术与人文
大类之下,根据需要可以分出若干二级类。
如“电脑与因特网”大类,进一步细分为:
采用LCC 的站点有:
• CyberStacks • Internet resources Arranged by the Library of Congress Classification System • Scout Report Signpost • The WWW Virtual Library 等20 多个。
电子商务中的产品信息 分类
• 电子商务网站中产品信息的分类 • B2B电子交易市场中信息组织的基础是产品分类。 • 在每个电子交易市场中,都有产品分类目录,网 站中利用产品与服务的分类组织商业信息、编制 广告索引、编制产品、企业数据库等等;同时也 作为企业通过产品与服务分类目录浏览、发布或 查询所需产品与服务信息、交易、并寻找合作伙 伴时的依据。
三、用于网络信息组织的自编分 类系统
• 有许多搜索引擎采用自编分类系统进行信息组织, 具体表现为网站分类目录(索引)和网页分类索 引。目前在中国内地、香港、台湾,以及国外的 120个中文搜索引擎中,有90多个提供网站分类目 录,有近10 个提供网页分类索引;著名的英文搜 索引擎,也有不少提供网站或网页的分类目录 (索引),如Yahoo, Infoseek, Excite, AltaVista等。但是,这些搜索引擎的分类系统是 各自建立,互不一致,缺少规范的。
对比搜狐和新浪分类体系
• 搜狐搜索引擎的分类体系ttp:/// • 搜狐采用树型结构对站点进行层次性分类,将所 有网站分为18个大类,各大类下又细分出若干二、 三、四级或更小的类目,类目总数达5万多。 • 搜狐的大类基本上是稳定的,但小类则处于不断 变化之中,搜狐网站对每周新增类目和网站都进 行报道。 • 新浪/ • 新浪将网站分为17大类 ,另外有一个少儿搜索。 各大类根据需要再细分出多级类目
• 虽然网络信息、用户、技术环境具有不同于以往 的特点,但是,分类法仍然是网络信息组织所采 用的一种重要方法。 • 目前, Internet 主要以两种方式采用分类法进行 信息组织:
–一是基本以人工标引方式采用现有的文献分类法 –二是以人工标引或自动标引方式采用自编的分类系统
二、现有文献分类法在网络信息 组织中的应用
(1)将分类法的信息保证扩展到包括Internet 信息资源,增加必要的新类目,尤其使非学术性 信息的类目; (2)适当突出信息量大、利用率高的类目; (3)修订类名,增强其表达性和通用性; (4)不断增加新的术语作为索引词; (5)扩展分类法与其他受控词汇的联系;
(6)控制使用类目的深度,多数网络分类检索 系统只使用分类法的1-3级类目。 (7)分解和标记类号的组成因素,以识别它 所表达的特定主题和主题方面; (8)将类目的线性结构改造成网状结构,满足 多途径浏览检索的需要。
安全与加密 半导体 便携电脑 程序设计语言 电脑合成音乐 电子游戏 电脑与资讯科学 电子通讯 多媒体 高速计算与平行计算 个人电脑 公司 公元2000年危机 会议与商展 绘图 竞赛 历史 软件 通讯与网络 新闻与媒体 虚拟文化 训练 因特网 硬件 杂志 ……
• 二级类目下分出若干三级类目,依次类推, 可根据需要细分出4、5级类目。