在数据库查询中模糊数据的处理技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2003 年 7 月 第 4 期 ( 总第 20 期)
辽 宁 警 专 学 报 JOURNAL OF LIAONING POLICE ACADEMY
Jul. 2003 No. 4( Sum. 20)
在数据库查询中模糊数据的处ຫໍສະໝຸດ Baidu技术

( 1. 东北大学 信息学院 , 辽宁 沈阳
影1 , 李志红2
企业经营管理处 , 辽宁 大连 116035)
影 , 李志红 : 在数据库查询中模糊数据的处理技术 有很多 , 如直接打分的方法、 推理的方法或二元对 比排序的方法以及上述用概率统计的 正态分布结 果和经过模糊运算的 并、 交、 余!求得。 五、 模糊数据处理技术的实现 在 SQL 数据库中 , 查找可在 WHERE 后面的表 达式中判定满足的条件, 当查询条件能容纳上述模 糊单词所对应的多属性条件时, 即可实现模糊查询 的功能 , 这种技术的实现关键在于如何在数据库中 存放模糊数据。前述给出的工作人员业绩查 询例 子, 如果根据对各类学生和专家评委的心理估计测 定, 提出以下四种可能的权分配方案: A1 = ( 0. 2, 0. 5, 0. 3) ; 则 B1= A1 ∀ R= ( 0. 33, 0. 31, 0. 28, 0. 08) A2 = ( 0. 4, 0. 3, 0. 3) ; 则 B2= A2 ∀ R= ( 0. 43, 0. 29, 0. 22, 0. 06) A3 = ( 0. 2, 0. 3, 0. 5) ; 则 B3= A3 ∀ R= ( 0. 35, 0. 33, 0. 24, 0. 08) A4 = ( 0. 5, 0. 2, 0. 3) ; 则 B4= A4 ∀ R= ( 0. 48, 0. 28, 0. 19, 0. 05)
一、 引言 在一些数据库查询工具中通 常用的是标准 的 关系查询语言, 虽然对复杂的查询条件也可以应用 一系列 简单的 条件语 句来解 决, 例如 : 比较 条件、 BETWEEN 条件、 LIKE 条件、 IN 条件和 EXISTS 条件 等等, 以及一些布尔表达式来完成多层的复杂的信 息查找 , 但这些数据的 匹配都是基于精确的数据 , 而对自然语言中客观存在的模糊概念和不确 定的 数据却不能直 接表示, 对许多不分明 的现象如 稳 定! 与 不稳定! 、 健康! 与 不健康! 之间找不 到明 确的边界。为实 现此类任务, 笔者 提出下述方法 , 即首先建立关系数据库, 将数据统计算法进行模糊 化扩展 , 再将查询条件通过模糊计算转化为一个模 糊范围 , 然后进行精确的查找 ( 即将关系模糊 的计 算扩充为关系代数 ) 。这种查找过程是对引入的相 似关系采用了模糊算法, 能使操作简单自然 , 结果 明确 , 并且查询条件也易于自动生成和动态修改。 二、 信息数据库的模糊化概念 以人力资源信息数据库为例 , 它是管理部门最 基础的数据资料库之一, 一般情况下信息量多 , 统 计项目数量大 , 常作为频繁使用的数据库 , 因 此必 须提供有效的数据库查询方法, 用于人员记录的快 速定位。作为 人员信息最重要的识别标记如身 份 证号或工作人员工资号等 , 通常是记录查询索引主 键。对一些确定的字段数据项, 可根据不同需要或
关键词 : 模糊单词; 隶属函数; 多属性; 平均法; 数据库 中图分类号 : TP311. 132 文献标识码: A 文章编号 : 1008- 5378( 2003) 04- 0076- 03 多项组合作为查询条件, 但对另一些不确定的特征 类型具有多属性的因素, 无法直接或间接的转化为 字段名, 如工作人员的能力、 劳动质量、 效率等都是 模糊信息 , 采用传统的数据描述无法实现。传统的 数据库都是二维逻辑表和以精确的数 据计算工具 为基础, 通常对许 多模糊不 清的事 情只作人 工判 断, 建立数据库模型、 判定模糊数据的查询条件比 较难于实现。例如某学校年终对教师的工作 量进 行业绩点统计和评定量化条件 ( 优、 良、 合格、 不合 格) , 其 中质量系 数相关 的因素 有 { 教学 方法和 效 果、 专业素质、 工作态度} 。首先由服务对象 ( 学生 ) 打分 , 然后由专家评定小组投票 , 若对某一教师的 工作质量中 教学方法和效果! 由学生打分后 70% 给优 , 20% 给良, 10% 给合格 , 得到该教师的 教学方 法和效果! = ( 0. 7, 0. 2, 0. 1, 0) , 同理得到该教师的 专业素质! = ( 0. 2, 0. 3, 0. 4, 0. 1) , 工作 态度! = ( 0. 3, 0. 4, 0. 2, 0. 1) , 因为每一个评价人员所给的满 意度和重视度有差别, 所以给予各因素的权数也不 同, 设某一类学生对这三个因素所给的权重为 A= ( 0. 5, 0. 3, 0. 2) , 必须列出模糊矩阵 R, 由矩阵运算 求得此类学生对该教师的综合评判为 B= A ∀ R= ( 0. 47, 0. 27, 0. 21, 0. 05) ; 这表示评判的教师为优秀 的程度是 47% , 为良好的程度是 27% , 为合格的程 度是 21% , 为不合格的程度是 5% , 按最大隶属原则 b 1= 47% 是最大值 , 所以结论就是 优秀! 。在现实
参考文献 : [ 1] 杨纶标 , 高英仪 . 模糊数学原理 及应用 [ M] . 广州 : 华南理 工大学出版社 , 2001. [ 2] 彭 祖赠 , 孙韫 玉 . 模 糊 ( FUZZY) 数学 及其 应用 [ M ] . 武 汉 : 武 汉大学出版社 , 2002. [ 3] [ 美 ] BART KDSKO. FUZZY ENGINEERING PRENTICE HALL 1999.
辽宁警专学报
2003 年第 4 期 计的算法就比较粗糙、 不完善 , 以致影响效果的精 度和速度。通过调整系统的增益系数和控制 规则 能改善性能 , 例如 1 、 增加语言变量 ( 这种方法相当 于重新设计一个系统, 比较复杂 ) ; 2、 改变 F 模糊集 的隶属度 ( 这种方 法也比较困难, 因为控 制性能与 从属函数之间的关系难以 了解) ; 3、 修改 F 模糊控 制状态表 ( 通常采 用带参数的控制规则来修正 , 这 种办法反映了人脑推理过程的连续性、 单值性和正 则性等 特点, 克服了 单凭 经验选 取控制 规则的 缺 点) 。 通过上述的设计与分析, 可以完成过去用人工 估算的方法才能处理的数据 , 这对其他相关的模糊 数据计算及其数据 库查询也具有参考意义。随着 人们对模糊理论的认识和实践, 如何实现对数据仓 库中不确定数据的处理, 不断提高模糊算法的精度 和数据库查询的速度, 正日益受到极大的关注。
收稿日期 : 2003- 01- 17 作者简介 : 陶 影 ( 1954 ) , 女 , 辽宁沈阳人 , 工 程师 , 学士 ; 李志红 ( 1968 ) 女 , 辽宁朝阳人 , 工程师 , 学 士 。
# 76 #
陶 中, 多数系统极其复杂 , 很难用精确的数学模 型来 描述, 有许多是时变的、 非线性的复杂系统, 要获得 精密的数学模型很困难, 但通过有经验的操作人员 凭借实践 积累的 经验 , 采取 适当的 对策 就容易 实 现。为了让机器也能模拟人的作法 , 就必须把人的 控制经验定量化。 三、 模糊语言与模糊集 模糊语言是以模糊逻辑和近 似推理为基础 的 形式语言。模糊语言 L 有 4 个参数 U、 T、 E、 N, 其相 互关系可表示为 L= {U, T , E, N} ; U 是论域 , 即语言 所叙述对象的 总和; T 是 单词、 术语 的模糊集合 ; E 是表示术语的字母和符号及各种联结构成的 集合 ( 联结方式不同 , 就得到 E 中不同的元素, 属于 T 的 程度也不同 ) T∃E % [ 0, 1] ; N 是 T 对 U( 从 E 到 U) 的 模糊关系 , 称为命名关系 ; 可将 T 看成是语言主题 U 的模糊子集, 即有 T U 。因为单词是表达语言概念 的最小单位 , 统计各类人员的工作业绩可设论域 U = [ 0 100] ( 即描 述事 件的 取 值范 围 ) , 可有 T = { 优、 良、 合格、 不合格 } 等 , 若 E 表示属于优、 良等的 隶属程度 , N 就表示隶属程度的变化率。这些定义 都属于模糊单词的集合, 从语言差异的一方到另一 方, 中间经历 了一个 从量变 到质变 的连 续过渡 过 程, 这是由于排中律的破缺而造成的不确定性 , 在 计算时需给出对应的模糊论域和模糊集合, 于是就 有了研究模糊现象的定量处理方法 , 即模糊算法。 四、 隶属函数和模糊算法 为了引入自然语言中 许多模糊量词 如极、 超、 很、 相当、 比较、 有点、 稍微有点等 这些模糊概念 的 数据 , 需要建立对应的隶属函数 , 以解决多属 性条 件下 , 表示模糊关系的隶属度问题。如何建立模糊 集并选择适合的隶属函数、 掌握模糊识别的步骤是 解决模糊问题的关键。在实际应用中可根据讨 论 对象所具有的特点加以选择或根据统计资料 描出 大致的关 系曲线 , 与 通常的 六种模 糊分 布进行 比 较, 选择最接近 的一种。六种模糊分 布曲线有 : 矩 型、 半梯形与梯形、 抛物线型、 正态分布 ( 指数 ) 型、 哥西分布( 凸型 ) 、 岭形分布 ( 正弦 ) 型, 而每一 种映 像趋势分别又有偏小型、 偏大型和中间 型三种[ 1] , 使用时需对照应用的整体特性、 客观规律性与科学 性来选择最适合的模型, 再通过实验的选样 , 确定 较符合实际的参数 , 能比较容易地写出隶属函数表 达式。常见的隶属函数类型有线性、 指数、 双曲、 反 双曲和分段线性等。当然确定隶属函数的方法 还
n
由评判函数 b j=
i= 1
a ir ij其中 ( j= 1, 2, &, m ) 求
[ 2]
出各类权重的评判值; 然后引用聚类分析 中的绝 对值减法公式 , 分别计算各元素的隶属度 , 再求出 与 B 的贴近值( 评判结果的隶属度 ) ; N( B1, B) = 11 4 | B ( u ) - B( u ) | = 1- 1 ( | 0. 6- 0. 33| + | 0. 3 i 4 i= 1 1 i 4 - 0. 31| + | 0. 1- 0. 28| + | 0- 0. 08| ) = 0. 865; 同理 有 N( B2, B) = 0. 91; N( B3 , B) = 0. 875; N( B4 , B) = 0. 93( 为最大值 , 如果按择近原则 , 与 B4 相应的 A4 就 是最佳权数分配方案) 。 在模糊逻辑控制中 , 需要用一个确定的值去控 制伺服机构。在推理得到的模糊集合中取一 个相 对最能代表这个模糊集合的单值, 这个过程叫模糊 判决或求模糊解。有许多种模糊判决的求解方法, 但基本上要经过四个计算步骤 : 1、 确定 ( 现时) 误差 和误差变化率; 2、 把误差变化率的确切值变成模糊 状态作为输入量 ; 3、 由模糊控制规则 ( 即合成算法 ) 计算出模糊控制量 ; 4、 把模糊控 制量 C( z0 ) 转化为 确切的值加到对象 上去。为了决定模糊控制 量的 确切值 z0 , 用最简单的最大隶属原则和择近原则是 F 模式识别的基本方法 ( 公式 1) , 这种 方法应用方 便, 但只考虑了主要的信息 , 如要兼顾其他信息可 选择中位数法 ( 公式 2) , 即将隶属函数曲线与横坐 # 77 #
110006; 2. 大连市汽车工业贸易集团公司
摘 要 : 现在计算机的应用已逐渐扩展 到非数值处 理的各 个领域, 特 别是计 算机在企 事业资 源管理 以及办
公室 自动化的应用方面 , 越来越显示出科学管理的优 势 。 面对 信息处理 中大量 的不确 定性和 不精确 的数据 , 要正 确处 理这类数据 , 需要用到基于模糊算法的数据库查询条 件判定 , 对具有模糊概念的数 据进行有 效的处理 , 它能进 一步改善模糊数据的查询效率 , 并对其他相关模 糊数据库查询具有较好的参考意义 。
相关文档
最新文档