形式概念分析国内外研究现状综述_许涛

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
笔者还注意到, 国内会议论文的数量比较少, 在国内还没 有 专 门 的 概 念 格 领 域 的 会 议 。笔 者 检 索 到 的 会 议 文 章 都 是 发 表
在 一 些 计 算 机 类 综 合 性 会 议 上 的 。国 际 上 概 念 格 领 域 最 权 威 的
图1 论文数量随年代变化趋势
国内早在1995年就有学者开始关注概念格的发展( 统计结 果显示该类文章最早发表于1995年, 是一般性介绍类文章) , 从 图1中可以看出, 2000年以前概念格理论的发展相对缓慢, 2000 年以后整体处于迅速上升的趋势。到2004年, 已经有很多学者 开始关注概念格理论, 且近两年以来一直保持在较高水平, 呈 现 出 快 速 发 展 的 趋 势 。 由 此 可 以 认 为:概 念 格 领 域 发 展 势 头 迅 猛, 且目前该领域的研究还处于发展的阶段, 是学术界关注的
图2 国内期刊发表论文数比例
图3 国内外形式概念分析应用类文章比例对比
通 过 对 2003 ̄2007年 前 五 届 ICFCA会 议 收 录 的 论 文 进 行 分 析, 在图3中可以发现, 接近一半的文章都以概念格在各个领域 的应用为主题( 前五届会议共收录论文122篇, 与应用相关的有 62篇, 并且每届会议中应用类文章占当年会议论文总数的比例 也都在半数左右, 年度间没有太大的变化) 。由此可见, 国际上 概念格理论的发展已经比较成熟, 开始更多地关注概念格的具 体应用。图3对国内外概念格的应用情况作了对比, 清晰地反映 了两者之间的差距, 从而认识到国内概念格理论还处在初期发 展阶段, 应用类文章的比例低, 研究人员更加注重理论体系的 发展。因此, 加强概念格的应用研究还需更多的各领域学者参 与进来, 给概念格理论带来新方法, 注入新思想; 同时还应密切 关注国际上的发展动态, 加强与国外研究人员的交流沟通, 缩 小于国际先进水平的差距。
会议ICFCA ( International Conference of Formal Concept Analy- sis) 从2003年起每年举行一次, 至今已召开五届。会议每年都发 表一部论文集, 反映关于形势概念分析的最新研究进展和应用 水平, ICFCA是概念格领域最高水平的国际性年会。 1.3 关键词分布
建格算法、渐进式构造, 并行算法等
16.4
属性约简和剪枝 属性约简、内涵缩减、纵横向的维护等
12.8
规则提取和知识发 关 联 规 则 、蕴 含 规 则 、数 据 挖 掘 、序 列
25.2

模 式 、知 识 发 现 等
与粗集理论的结合 粗糙集合、粗糙隶属度、等
10.0
与其他理论的结合 本体、模糊概念格、语义 Wed 等
此描述了概念格论文的主题分布, 简述了近年来关于建格、约简和规则提取、与粗糙集结合等主题的研究成果以及
基于概念格理论的应用。
关键词: 形式概念分析; 概念格; 文献统计; 建格算法; 约简; 规则提取; 粗糙集; ICFCA
中图分类号: TP301.2
文献标识码: A
文章编号: 1672- 7800(2008) 02- 0021- 03
概念格约简就是寻找最小的属性子集, 它能够完全确定原 始 形 式 背 景 上 的 概 念 及 其 层 次 结 构 。概 念 格 约 简 使 得 形 式 背 景 中隐含知识的发现变得更容易, 也使得这些知识的表示变得更 简单。它进一步扩充了概念格理论, 对概念格理论的研究和应 用都有重要意义。
规则本身是用内涵集之间的关系来描述的, 而体现于相应 外延集之间的包含( 或近似包含) 关系。由于概念格结点反映了 概念内涵和外延的统一, 结点间关系体现了概念之间的泛化和 例化关系, 因此非常适合作为规则发现的基础性数据结构, 这 也是概念格作为一种数学分析工具在KDD方面非 常 重 要 的 一 个应用。根据数据挖掘任务的不同( 如蕴涵规则、关联规则、分 类规则、聚类分析、序列模式、时序摸索、决策规则等) , 国内 研 究人员做了大量研究, 并且对概念格结构做了不同程度的扩展 以适应规则挖掘的要求。

11 12 14 19 30 51 91
wenku.baidu.com97
0.3
3.4 3.7 4.3 5.8 9.2 15.6 27.9
29.8
热点。 1.2 期刊分布
对概念格领域的相关论文的来源期刊进行统计分析, 有助 于认定该领域内的核心期刊, 并对关注此类研究的读者起到导 读 和 投 稿 指 引 的 作 用 。概 念 格 理 论 作 为 一 种 支 持 数 据 分 析 的 有 效工具已经引起了学术界的广泛重视, 因此相关论文的来源期 刊比较分散, 其中各个高校的学报占了来源期刊的很大比例。 笔者在表2中列出发文数排名前8位的期刊, 可以看出, 计算机 类的核心期刊是概念格论文主要的来源刊物; 合肥工业大学在 概念格领域的研究已达到全国领先的水平, 和其他高校相比, 无论是论文的数量还是质量都一枝独秀。
序号
期刊名
占相关论文总 相关论文数
数百分比( %)
1 合肥工业大学学报
30
9.2
2 计算机工程与应用
24
7.4
3 软件学报、计算机研究与发展
15
9.2
4 计算机科学
14
4.3
5 计算机工程
13
4.0
6 中国科学 E 辑
12
3.7
7 计算机应用、河南大学学报
11
6.7
计 算 机 学 报 、小 型 微 型 计 算 机
关键词能简洁、全面的反映文章内容, 本文设想 通 过对 文 献 中 的 关 键 词 进 行 统 计 来 确 定 概 念 格 领 域 研 究 的 主 题 。由 于 不 同作者的研究角度不同, 使得对同一个问题很难有一个统一的 表述方式, 因此在做统计时把意义相同但表述不同的关键词作 为一类进行统计。统计结果显示, 关键词主要集中在6个主要的
2 概念格各主题分析
本节以表3的主题分布为依据, 简述了各主题在国内的研 究现状。 2.1 建格算法分析
在应用概念格的过程中, 概念格的构造效率始终是一大难 题, 人们对此进行了广泛的研究, 提出了各种不同的构造算法, 但 只 有 少 数 的 算 法 能 够 同 时 生 成 相 应 的 Hasse 图 。 这 些 算 法 主 要 可 以 分 为 3大 类 :批 处 理 算 法 、渐 进 式 算 法 和 并 行 算 法 。 批 处 理算法思想是首先生成所有概念, 然后根据它们之间的直接前 驱- 后继关系生成边, 完成概念格的构造, 例如Bordat算法、OS- HAM算 法 、Chein算 法 、Ganter的 算 法 、Nourine算 法 等 。渐 进 式 算 法思想是首先初始化概念格为空, 将当前要插入的对象和现有 格中所有的形式概念作交运算, 根据交的结果不同采取不同的 行动, 典型的算法有Godin, Capineto和T.B.Ho的算法。概念格并 行生成思想就是通过形式背景的拆分, 形成分布存储的多个子 背景, 然后同时并行构造相应的子概念格, 再由子概念格的合 并得到所需的概念格。目前有关并行算法的研究不是很多, 通 常都是以其它算法原理为基础提出的, 但不可否认, 随着处理 的形式背景的增多, 概念格的时空复杂度也会随之急剧增大, 并行算法是发展的一个大趋势。 2.1.1 渐进式算法
8 系 统 、西 南 交 通 大 学 学 报 、山

13.8
西 大 学 学 报 、吉 林 大 学 学 报
合计
190
58.3
注: 为便于说明问题, 将统计结果中的研究生学位论文归入相应学校中。
方面, 结果在表3中列出。
表3 国内概念格文献主题关键词分布统计
主题
相关关键词
占论文总数 百分比( %)
建格算法
渐进式算法中典型的是Godin的算法, 它的基本思想就是 在给定原始形式背景K=( U, A, R) 所对应的初始概念格L=( CS ( K) , ≤) 以及 新 增对 象x*的 情 况 下 , 求解 形 式 背 景K*=( U∪
第2期
许涛, 沈夏炯: 形式概念分析国内外研究现状综述
· 23 ·
{x*}, A, R) 所对应的概念格L*=( CS( K*) , ≤) 。对于初始概念格 中的 每 个 节 点 , 根 据它 和 新 增 对 象x*的 特 征 集f( x*) 之 间 的 关 系, 格中节点可被分为更新格节点、产生子格节点和不变节点。 当插入x*时就根据节点类型对概念格做不同处理, 实现节点和 相应边的更新。 2.1.2 批处理算法
第7卷 第2期 2008年 2 月
软件导刊 Software Guide
Vol.7 No.2 Feb. 2008
形式概念分析国内外研究现状综述
许 涛, 沈夏炯
( 河南大学 计算机与信息工程学院, 河南 开封 475001)
摘 要: 采用文献统计方法, 对有关形式概念分析的相关论文从数量、年代、来源期刊、关键词等方面进行了分析。由
1 统计分析
年代
表1 论文年代分布 2000 以前 2000 2001 2002 2003 2004 2005 2006 2007 年前 10 个月
本节采用文献统计方法, 对我国有关概念格相 论文数 关 论 文 从 发 文 数 、年 代 、来 源 期 刊 、主 题 等 多 方 面 进 百分比(%) 行分 析 , 并 且 和ICFCA( 2003- 07年 ) 历 年 会 议 论 文 作 对比, 旨在明确概念格的核心期刊、发展趋势以及发现目前研 究中存在的不足, 从而推动概念格理论的发展。本节的统计数 据 主 要 来 源 于 中 国 知 网 的 中 国 学 术 期 刊 全 文 数 据 库 、中 国 优 秀 博硕士学位论文全文数据库和中国重要会议论文全文数据库 中 收 录 的 有关 概 念 格 的 文 献 ( 截 止2007年10月 ) 和ICFCA前 五 届会议出版的论文集。在对国内文献的统计中, 笔者利用“概念 格 ”、“形 式 概 念 分 析 ”、“形 式 背 景 ”等 多 个 检 索 词 在 多 个 字 段 中 进行检索, 经过去重整理后得到了326篇相关文献。其中各类期 刊学报中234篇, 优秀学位论文81篇, 各类会议文章11篇。以下 是根据该统计结果进行的相关分析。 1.1 年代分布
批处理算法按照生成节点和边的次序不同有两种途径: 一 种是首先生成全部的概念集合, 然后再找出节点间的边; 另一 种是每次生成少量概念, 并将这些概念链接到节点集合中。前 者称任务分割生成模型, 如Ganter算法、Chein算法; 后者称任务 交叉生成模型, 如Bordat算法。 2.1.3 并行算法
提取分类规则的模型又很多种( 判断树、贝叶斯网、神经网 络、概念格和粗糙集等) , 概念格模型只是其中的一种。基于概 念格的分类规则的研究主要集中在概念格构建的优化和规则 求解算法的优化上。 2.3 与粗糙集理论的结合
随着数据规模的不断增大, 传统的渐进式和批处理算法在 时间、空间复杂性方面的问题越来越突出, 主要是因为生成概 念格所采用的数据是集中式存储的, 而算法是串行的。解决这 一问题的有效途径是利用高性能并行计算机和网络并行计算 的能力, 因此近年来国内外的研究者纷纷将批处理算法的并行 性和渐进式算法的高效性相结合提出了概念格的并行算法。 2.2 约简和规则提取
作者简介:许涛( 1978- ) , 男, 河南开封人, 河南大学硕士研究生, 研究方向为软件工程、网络应用、知识发现; 沈夏炯( 1963- ) , 男, 河南开封人, 河南 大学副教授, 研究方向为软件工程、知识发现、分布式 /并行计算及分布式存储。
· 22 ·
软件导刊
2008 年
表2 发文数排名前8位的国内期刊列表
10.3
概念格的应用
很多, 不再赘述
17.4
其他
8.0
从表3可以看出, 文献主题分布比较平均, 规则提 取 、建格 算 法 和 概 念 格 的 应 用 是 研 究 的 热 点 。由 于 概 念 格 结 构 自 身 的 优 点, 使概念格理论与其它理论的结合应用成为越来越多的学者 密切关注的领域。需要说明的是, 笔者对于“介绍性文章”和“综 合评述”类文献没有单独分类, 而是把它们归入符合其特点的 相应类别。原因在于本次统计只限于期刊、会议和毕业论文, 未 将专业报纸列入统计源, 因此这类文献数量不多, 没有必要再 单独分类。
相关文档
最新文档