公众分类法要点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

四.几点建议 -3
⑵ 对Tags进行聚类 为了达到更好地揭示资源之间的相互 关系,对Tags进行聚类能够帮助用户通过 一个tag更快地发现与之相关的内容。 以宾夕法尼亚大学(University of Pennsylvania)图书馆的“PennTag”项目 [6]为例,图6是用户点击“film”这个标签 之后,出现的按照字顺排列的与film相关 的(related to film)内容。
三.公众分类法的特点
Folksonomy优点:
-1
与传统分类法相比,这种分类法的特点在于它并没有采 用预先制定的信息分类法和词表,而是用户根据个人的使用习 惯,以自定义的自由词为数字资源对象进行标注和分类。所以 公众分类法比传统的等级分类和分面分类法更接近用户大众并 易于被他们接受,自由灵活是其突出的优点。
-5
表达概念的模糊性 基于公众分类法的数字资源采用的是根据用户自定义的词, 进行描述、 分类和检索,这就造成了标签的模糊性,主要表现在以下四个方面: ① 缺乏语义精确性(lack of semantic precision) 由于用户认知程度不同,对标签词义的理解各异,导致对同一事物的揭示存在 很大的差异。比如在同一标签下,可能会发现彼此完全没有关系的内容。 ② 缺乏同义词控制(lack of synonym control) 由于用户用词习惯的不同,会出现大量的同义词,例如不同的词表达同一的概 念:土豆/马铃薯,又如一个词的不同写法:web2/web20/web2.0,还有同一 个词在英语中用户可能会使用单数或复数形式,等等。 ③ 词的多义性问题。比如“china”这个标签,到底指中国,还是指瓷器。 ④ 用户标签五花八门,可能会产生大量“噪音”,加重系统负担,降低分类的准 确性。 这些都会造成查找的困难。
覆盖面

越来越广
二.公众分类法的产生与发展
Folksonomy应用:
宽公众分类法(Broad Folksonomy) 特点:面向大众,拥有大量异质用户。 这里的异质是指用户在认知能 力、知识结构和兴趣领域上具 有一定差异,每个用户都可能 用自己的语言对社区中现有或 尚未添加的内容提供与众不同 的标签,每一个内容都存在相 当多的标签来描述。它所构建 的是一个大众分类体系平台。 其原理如右图所示。
三.公众分类法的特点
Folksonomy缺点:
缺乏层次性(lack of hierarchy)
-4
公众分类法与传统分类法的一个显著不同是: 它是一种平面的分类方式,系统在整体信息的组 织上,是一个用词构成的平面结构,因而很难使 用它来揭示复杂的关系。
三.公众分类法的特点
Folksonomy缺点:
四.几点建议 -4
⑶ 对Tag进行层级化 现在的标签是平面结构,不能很好地反 映他们之间的层次关系。如果可以与叙 词表结合使用,利用已有的叙词表中的 层级关系,希望将来可以实现从平面的 标签到网状的概念地图(Concept Maps)。
四.几点建议 -5
⑷ 对Tag进行规范化 由于标签完全由用户自行创建,这种自由导致 了标签的表示法不规范,例如:拼写错误,单 复数形式混用,另外,由于目前大多数应用系 统只支持单个词,用户为了更清楚地表达自己 的意思,往往会使用符号来形成复合词,例如: 目前一些del.icio.us(即“美味书签 ”,当前 网络上最大的书签类站点)的用户使用如 下的Tag来表示编程语言:Programming/C++, Programming/Java和Programming/XHTML等。

-9

公众分类法自2005年初被提出以来受到广泛的关注,并在快速演 化和升级,随着大众持续的需求和新的技术手段的加盟,它推陈 出新的速度要快于目前元数据,成为目前海量网络资源组织的热 点研究方向。 Tag正在开始Web环境下对信息“分类”的一种革命性的改变。这 是一种广大民众参与信息分类的规模化作业。在用户充分参与的 前提下,公众分类法可提高知识组织效率,成为网络资源组织和 信息检索的重要辅助手段。
-6
二.公众分类法的产生与发展
Folksonomy应用: 宽公众分类法(Broad Folksonomy)
如右图的曲线所示: 对于一个网络资源对象,可能 存在5 种标签来描述它,其中 使用最多的是tag2,说明这是 被最广泛接受的词汇,而曲线 的尾端可能会出现很多通用性 较差、较不常用的tags,形成 长尾(long-tail)。 宽公众分类提供了一种工具, 能够了解用户的用词习惯,抽 取准确的受控词。
-3
二.公众分类法的产生与发展
Folksonomy示例2:
-4
二.公众分类法的产生与发展
Folksonomy与元数据比较:
方面 定义 元数据 关于数据的数据(data about data) Folksonomy 关于数据的标签(tag about data)
-5
目的
制作人 制作成本 维护费用 更新周期
四.几点建议 -7
另外,通过使用同义词环方法——当用户 在添加了tag和数据源之后,系统管理员可以 对这些数据,根据统计得到的势曲线进行分析, 挑选出相关的同义词,构成同义词环,帮助提 高准确性。同时同义词环的方法也可以用于处 理同一词的单复数形式,同一词的不同语言表 示。不强行要求环中的某一个词被当作“正式 词”,而是每一个词都可以作为正式词;同义 词环可以一组一组逐步建立,随着检索环境的 变化和网站内容的变化而随时增加新的同义词 环。
四.几点建议 -1
对于公众分类法在目前的应用中存在 的精确性和缺乏层次等问题,如果能与目录 分类法(Taxonomy)相结合,然后再对能够 用作标签的词汇进行控制,(controlled vocabulary)那将是很好的解决途径。
四.几点建议 -2
⑴ 对Tag进行排序 除了按照字顺和权重排序之外, 还有多种形式,包括动态形式,如 结合相关反馈、合作过滤、点击次 数等。
二.公众分类法的产生与发展
-1
何谓Folksonomy? Folksonomy,是一种新的网络信息分类方法。 Folksonomy是一个创造词,是由社会性书签服务 中最具特色的自定义标签(Tag)功能衍生而来。 Folksonomy= Folks + Taxonomy,Folks在英文 中是表示一群人,一伙人的意思。Taxonomy则是指 分类法。而Folksonomy是指“公众”自发定义的标 签分类,我们将它称为“公众分类”,也有人称之 为大众分类、通俗分类、分众分类、 社群分类等。
用户可以对其感兴趣的内容进行标识,提供一个或者多个 标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI 修饰符,也不必查询杜威十进制分类法(DDC)。
三.公众分类法的特点
Folksonomy优点:
-2
用户对内容进行标注后,他人可立刻看到这些标签, 如果认为标签不合适,还可以自行增加新的标签,因此共建 共享是其另一重要特色。
二.公众分类法的产生与发展
Folksonomy内涵:
-2
简单理解这个概念就是Tags(标签)。 Folksonomy就是由网络信息用户自发为某类 信息定义一组标签进行描述,并最终根据标 签被使用的频次选用高频标签作为该类信息 类名的一种为网络信息分类的方法。
二.公众分类法的产生与发展
Folksonomy示例1:
-7
二.公众分类法的产生与发展
Folksonomy应用:
窄公众分类法(Narrow Folksonomy) 特点:用户特质 因为用户在知识结构和兴趣 领域上具有很大的同质性。所以 窄公众分类的可以用于为某一领 域或专业的信息或知识提供共享 平台。
-8
二.公众分类法的产生与发展
Folksonomy发展趋势:
公众分类(Folksonomy):
一种新的网络信息分类方法
主要内容
1.
2.
3. 4.
引言 公众分类法的产生与发展 公众分类法的特点 几点建议
一.引言
Internet是一个巨大的信息量丰富的知 识库,需要采取有效的信息组织方式和检索 方式才能更加有效地利用它获取知识。 网络信息的“爆炸性”增长挑战了等级 结构和分面分类的极限,传统分类法因受到 其昂贵的维护费用和学习成本、漫长的更新 周期和复杂的使用局限,不能很好地满足互 联网知识组织的需求,使得非专业用户开始 寻求新的分类方式来组织网络信息资源。
常用的标签按字顺排列,形成图1所示的标签云图 (TagCloud)。这种TagCloud不同于传统的、针对文字本身的 关键字检索,而是一种模糊化、智能化的分类。
三.公众分类法的特点
Folksonomy优点:
-3
动态更新是其有别于传统分类法的又一个重 要特色。动态更新是随着人们使用不同标签标识 内容信息,被使用最多的标签就最能说明这条信 息的特点。一些使用频率低的标签逐渐“淡出” 人们的视野,而那些使用频率高的标签会在标签 云图以字号变大的形式反映出来,这种更新可让 人随时发现当前人们关注的“热点”和“走势”。
四.几点建议 -6
右图5是随机抽取的一定数量的 带有连接符号的复合词,显示了用 户使用符号的多样性。 通过图5我们可以发现,最经常 被使用到的是连接符“-”,其次是下 划线“_”。针对标签写法不规范的问 题,应该制定通用的标准表示方法, 并提示用户遵循这些标准对网络资 源进行添加标签的活动。例如,采 用拼写检查机制,当用户输入错误 的或不存在的词时,系统会出现提 示和输入建议;而对于复合词,应 当规定规范的表示方法。
组织信息以方便用户使用
专业人士 高 大 长
组织信息以方便用户使用
公众(网络用户) 低 小(几近于零) 即时
规范性
便利性 时效性 直观性
分类架构事先制定、严谨、准确、标 准、规范、权威
复杂、麻烦 滞后 差
分类架构未事Fra Baidu bibliotek制定、标签因人而异、自由标注, 品质参差不齐
简单、方便 适时 及时反映大众兴趣热点与发展趋势
相关文档
最新文档