网络信息分类法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
程序,大体包括信息采集、文档表 示、抽取分类特征、相似性匹配、 网站信息整理等步骤。 1. 网络机器人robot按一定规则和策 略循环运行搜集信息。 2. 加工网站主页信息,分析结构布局, 判断网站主题范围。
3. 对文本进行分词,抽取表达网站主 题内容的语词;分析语词的重要程 度、词频统计,给出权值,以确定 哪些可作为网站主题内容的特征项。 4. 将抽取的特征项与分类知识库所形 成的矢量空间模型进行相似性匹配, 以能涵盖各特征项的类目为主要类 目,其他为次要类目。
Google.com网页目录 kids and teens>pre-school
Categories: ABC’s and 123’s(56) games(33) shapes and colors(32)… Web pages: noggin-http://www.noggin.com/ kidsCom Jrhttp://www.kidscomjr.com/…
文献分类法用于网络信息组织的优势
1. 文献分类法几乎都是综合性分类法, 涵盖人类知识的各学科领域,具有 很高的通用性。 2. 文献分类法的编制和运用既有成熟 的理论和技术支持,也积累了丰富 的实践经验,严格的词汇控制和完 善的语义网络,有助于网络信息的 筛选和组织。
3. 文献分类法是一个完整的知识分类等级 体系,类目之间严密的逻辑关系,全面 揭示了知识的内在联系,非常适合于浏 览检索和对主题进行分类控制,是目前 搜索引擎所不能达到的。 4. 文献分类法正向电子化和分类-主题一体 化方向发展,更适合于对网络信息的组 织
6) 类名:前者力求科学、准确、规范, 稳定性高。后者选择类名更注意面 向用户,力求通俗易懂、时新、简 练,准确性不如前者,面向用户和 面向后台技术运作的类名可以不一 致。 7) 维护:前者修订很慎重。后者可随 时修订,但更复杂、繁重。
Fra Baidu bibliotek
传统分类法在网络信息组织中的应用
应用现状。一些著名的分类法被网 站或搜索引擎用来组织网络信息。 例如,加拿大的主题信息系统 “Canadian Information by Subject”应用DDC的分类系统;美 国依阿华洲立大学应用LCC开发 “Cyber Stacks”等。
5. 编制网站的提要及其他说明标识。 6. 经过标引、著录的网站存入索引数 据库。 7. 把网站加进分类导航系统,并自动 进行排序。
第二节 网络信息分类法的编制
网络信息分类导航系统中查询界 面、类目体系、各级类目及其链 接的网络信息是它的分类法部分。 知识分类体系的构建。综合性搜 索引擎与专业性搜索引擎或网站 不同。
分类法在网络信息上的应用,大体 有两种类型:一是以某个分类法为 依据,经过必要的改造后作为组织 网络信息的主体,多数建立浏览结 构,应用的主要范围是大学、图书 馆、学术性网站;
二是在设计分类导航系统时,在整体 上或局部上参考一个或几个文献分 类法的类目体系,这是主要应用形 式。文献分类法直接用于网络信息 组织(网站、搜索引擎),目前处 于起步阶段,影响微乎其微。
类目注释要突出内容含义的说明和 类目关系的指引,删除与网络检索 用户无关的注释。 提高对网络信息多属性、多视角的 揭示。 分类法的界面要适应网络环境的特 点。
网络信息分类法的功能
1. 满足对互联网上各种类型信息组织 的需要; 2. 满足对互联网上各个知识领域信息 组织的需要; 3. 具有科学性、实用、能满足各类用 户浏览查询的动态分类体系; 4. 充分揭示信息知识的内容相关性;
类目交叉关系的处理
1. 纵向等级关系的处理。从大类到各 级类目均可设置必要的平行体系。 2. 横向相关关系的处理。设置“交叉 类目”。
类目与信息的排列
原则和方法。 类目排列:“内容相关”、“逻辑 相关”、“形式相关”。 网站信息排列:重要程度、点击频 率、字顺。
类目注释和说明:两种方式。 1. 简练的文字指明该类所含/不包含 内容范围; 2. 列举下位类揭示本类内容范围,或 提示重点、热点、隐藏较深的内容。
Sina.com.cn 的从分类体系 新闻、财经、娱乐、房产、女性游戏、旅 游、校园、动漫、同学录、企业、短信 体育、科技、音乐、汽车、……
类目的划分与设置
1. 分类标准及使用次序。主题分类法, 以事物为主要聚类标准;“多重列 类”为网络分类法类目划分的重要 方法。 2. 类目的均衡性。同一级的各个类目 包含的信息不应相差太悬殊,否则 增加不必要的浏览路径,影响分类 导航的效果。
5. 类目名称。准确、通用和精练。 6. 多分类体系的运用。“主-从分类体 系”。例如, sina.com.cn主分类体系
娱乐休闲、求职与招聘、艺术、生活服务、 文学、计算机与互联网、教育就业、体育健 身、医疗健康、社会文化、科学技术、社会 科学、政治军事、新闻媒体、参考资料、个 人主页、商业经济、少儿搜索
2) 前者体系是唯一的。后者可以有两 个以上的分类体系,主从并用,满 足不同查询需要。 3) 类目划分:前者线性体系。后者的 划分不严格按等级进行,如跳跃式 划分;主题多重属性关系和相关关 系采用交叉列类、超文本连接和多 窗口显示,网状体系。
4) 类目排列:前者强调类目之间的内 容联系和逻辑关系,科学性、规律 性强。后者为了方便、快速、自动 地排列众多同位类,也广泛使用字 顺、重要性排列法。 5) 说明和注释:前者将其作为标引人 员的重要参考。后者不设参照注释, 有选择地列举下位类,便于链接。
网络信息技术环境的特点:TCP/IP、 数字技术、多媒体技术、超文本、 WWW、人工智能、数据库技术及相应 的硬件等。 网络信息的组织和网络 信息分类法的编制,只有与当时网 络信息环境技术相适应,才能最大 限度地发挥信息组织的作用。
网络信息分类法与传统分类法比较
1. 分类对象:传统分类法以物理的、 实体的文献,如印刷型文献、磁带、 光盘等为主要处理对象,对文献的 内容进行标引和整序。网络信息分 类法以数百万计服务器上的信息资 源为处理对象,对它们进行组织筛 选,信息数字式、多媒体、动态、 虚拟的。
Sina.com.cn 军事
武器装备 战争 军事演习 战略战术…
军事理论 军事论坛 军事文学 军事院校… 新闻媒体 组织机构 活动 …
yahoo.com web directories
Education>higher education Categories_____________________ • Academic competitions@ •books@ • College and university planning(457)… Site listing by popularity______________ • Mailbase-electronic mailing list service for research in higher education, enabling groups to manage their own discussion topics and associated files. …
用户界面基本要求
1. 2. 3. 4. 5. 视觉感觉友好; 不同的类目区分排列; 划分的子类与网站信息分别排列; 设置路径指示; 大类跳转要方便:固定栏目、下拉 菜单、窗口等形式列出大类目录。
6. 设置“帮助”:把用户查询中可能 遇到的问题以及检索技巧等做成帮 助文件,在检索界面设置,供用户 在查询中随时调用。
5. 能对搜索的信息进行有效的控制和 过滤; 6. 面向最终用户; 7. 能与主题检索相互配合; 8. 有丰富的信息输出。
网络信息分类组织与主题组织的关系
WWW的问世,使世界的信息传播和利 用进入了一个崭新的时代;1994年 后搜索引擎异军突起,给人们的信 息查询带来巨大的便利,但单纯的 自然语言检索经常会给你提供许多 风马牛不相及的信息。表明信息数 量越大,越需要受到控制。
信息的分类查询和主题查询是最基本的查询需要
1. 信息的检索离不开分类和主题两种 基本方法; 2. 互联网上需要分类查询与主题查询 的一体化。在特定知识范围内进行 字顺检索;用特定的类限定字顺检 索。
分类法在网络信息组织中的地位日 益重要。
网络信息的自动分类问题
搜索引擎或门户网站的分类导航系 统人工标引和维护与网络信息增长 的矛盾,要求分类导航系统的自动 标引和维护。 我们所讲的网络信息自动分类,是 针对网站的整体,针对文本信息而 言。
4. 分类标记:是传统分类法不可缺少 的组成部分。网络分类法组织虚拟 信息,一个类目就是一类相关信息 的节点,不涉及物理排列,用户不 需要根据分类标记索取信息,也无 须使用分类标记,但作为网络分类 法的后台运作,分类标记有用。
5. 编制方法: 1) 知识框架。前者以文献内容的学科 属性为主要的聚类标准,形成学科 分类和高校专业设置为基础,兼顾 文献特点的分类大纲。后者以主题 为主要标准,把相关的信息加以集 中,构成符合各类用户查询习惯的 大纲。
文献分类法适应网络信息组织的改造
增加必要的非学术信息类目,包容 网络上的各类信息和多媒体资源, 适当突出信息量大、利用率高的类 目。 把按学科聚类和按主题聚类结合起 来,满足不同出发点的浏览查询需 要。
简化类目划分层次,让全部类目为列 举式的,归并一些不合适网络信息组 织的类目。 把类目的线性结构改造成网状结构, 满足多途径浏览检索的需要。以交叉 列类方式和超文本链接把相关主题联 系起来;通过分面分析和多重列类, 实现对一个类目的多标准划分。
1. 聚类的标准。主要标准“主题和专 题”,学科和专业作为辅助标准; 专业分类法可以学科或专业为主要 聚类标准,或二者结合。 2. 大类的设置。数量15~20个;大 类设置要有较高的稳定性,通常一、 二级类目构成网络信息分类法组织 的核心框架。
3. 分类体系展开的层次。它决定着分 类导航系统、知识地图的详略程度; 3~6级之间。 4. 类目的种类:包括子类和网站两种。 网站是分类系统展开的最末级,点 击后进入不属于分类系统的网页。
第五章 网络信息分类法
第一节 概述 第二节 网络信息分类法的编制 第三节 网络信息分类组织和著录
第一节 概述
网络信息的特点:数量巨大而繁杂; 内容范围广泛;信息类型众多;动 态性高;超文本链接;有序与无序。 网络信息用户的特点:用户范围极 广;受教育程度差别极大;利用网 络信息的目的和类型存在明显差异; 用户使用的网络服务不同。
2. 信息的知识范围:传统分类法以文献收 藏部门为使用对象,文献的出版是受控 制的、内容是经过一定筛选的,分类体 系具有稳定性。网络信息分类法以搜索 引擎或大型网站为使用对象,网络信息 总体上是不受控制的,几乎包含了人类 一切知识领域,要求其具有高度的灵活 性和适应网络信息的动态性。
3. 分类法的功能:传统分类法通过对 全部文献标引,编制分类检索工具, 组织分类排架,分类标引基本是手 工的。网络分类法通过对网络信息 的标引,建立网络信息分类导航系 统,提供浏览式检索手段,分类导 航系统的建立和维护主要是手工式 的,也有人机结合。
Dir.Sina.com.cn(2005.9)
搜索分类>文学 小说(15441)网上书库(193) 网上书店(125)散文杂著(1325) 作家作品(10617)校园文学(2212) 影视文学(33)古典文学(994) 艺术(9341845)组织机构(19) 论坛聊天(64)
3. 突出重点的类目。把信息量大、点 击频率高的知识范畴突出列类。 4. 类目设置的规律性。某些形式类目 如果再按知识的内容细分,要尽量 采取与传统分类法一致的做法。
自动分类的类型和程序
类型:两种。 1. 自动聚类,就是由计算机系统对待 分类文本进行分析并提取有关特征, 然后对提取的特征进行比较,根据 一定的规则将具有相同或相近特征 的对象定义为一类。
2. 自动归类,就是计算机系统对待分 类文本进行分析并提取有关的特征, 然后与既定分类体系中对象所具有 的公共特征进行相关性比较,将对 象归入与其特征最相近的类中。基 于词的自动分类和基于专家系统的 自动分类。