第5章 专家系统的评估
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
所用推理方法的正确性
人们日益认识到,要达到专家水平的性能,可能要求更加重 视专家用来解决那些通常要求专家系统去解决的问题时所应 用的推理机理。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
专家系统效能评估主要有以下研究内容:
效能评估指标体系的研究。 知识库基础结构评估指标和构造知识库结构的研究。 推理机制效能评估和指标的研究。 专家系统开发阶段检验与验证方法的研究。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
人-机对话的质量
专家系统和使用者之间能否很自然地对话,也会影响专 家系统是否被预定的使用者所接受。
系统效率
在评估专家系统过程中,必须分析在实际使用环境下专 家系统对决策过程的影响。
一个专家系统如果要求使用者花费过多时间,即使它在 完成所有上面提到的任务方面是很出色的,也难以被使 用者接受
专家系统运行的技术分析一般也是必要的。
反馈
测试事例
专家系统原型
测试平台
结果
可靠性 有效性
由用户定义 由开发者进一步精炼 由用户操作 由用户评估 性能
图5.2 专家系统测试示意图
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的时机(九个阶段)
1.高层设计,定义长期目标。 2.完成Mark-I模型,说明其可行性。 3.系统测试,通常采用的方法是:
第5章 专家系统的评估
5 专家系统的评估 必要性
专家系统建立后,其性能与效益如何,需要 通过对专家系统的评估来做出结论。
在适当时候进行评估就可得到项目的重要结 论。但不恰当的评估工作也可能埋没真正有 价值的专家系统开发活动。
Central South University Advanced Expert Systems
Hale Waihona Puke Baidu
CPU的能力没有充分发挥,或磁盘寻找过程设计不善,都 可能会造成专家系统效率不高
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
成本效果
专家系统的效能评估是指综合评估专家系统的效率与性 能,其基础是建立合理、实用、易于实现的指标体系。
5.6 小 结
专家系统评估的最终目标是它的性能。
如果把用户需求作为一个参考来评估专家系统的 性能,即可得到验证。
如果把专家系统的说明作为一个参考来评估专家 系统的性能,即可得到检验。
在实际中,经常通过测试来给出专家系统的评估。 但由于测试实例选择有局限性,因此评估结果也 并不是都令人满意的。
Central South University Advanced Expert Systems
Central South University Advanced Expert Systems
5.5 专家系统的评估实例
多面评估方法实例(三阶段)
首先是主观评估阶段。 评估的目标
专家系统的主观评估阶段是从用户的角度对专家系 统进行评估,其目标是专家系统的可用性。
多属性效用分析法
多属性效用法的基本思想是将全局的效能量度分解 成若干层次,在比原有问题简单得多的层次上逐步 分析,可以将人的主观评估用数量形式表达,然后 再将它们综合生成一个总评估量度。
再次是经验性评估阶段。
经验性评估阶段侧重于专家系统性能的主要量度 经验评估中考虑最经常和最一般的是实验
其一,实验要反映专家系统性能约束的客观基准. 其二,反映专家系统非伸缩判决规则的性能基准,即专 家系统的其它特征对性能基准的失效没有补偿作用。
Central South University Advanced Expert Systems
5.1 评估专家系统的原因
发展专家系统的需要
不论你是否意识到,专家系统总是在被评估中。设 计和建立一个专家系统是一个就下述问题对专家系 统不断地进行评估的过程
采用的知识表达方法是否合适,是否需要扩展或修改? 该系统能否提供正确的答案和进行正确的推理? 存入专家系统的知识是否和专家知识一致? 用户和系统相互联系是否方便? 用户需要系统提供什么方便和要求系统具有什么能力?
Central South University Advanced Expert Systems
5.1 评估专家系统的原因
专家系统评估的受益者
专家系统制造者
评估结果将改进与发展专家系统的成果,使专家系统制 造者受益
合作专家与用户
对专家系统的评估主要有助于专家们构造领域知识和其 自身的专门知识 对用户而言,评估能帮助他们决定什么能力是有用的, 什么是需要的或希望有的以及哪些可被忽略。这种反馈 还能使得专家系统制造者提供与用户要求相称的功能。
一致性检验程序
这一程序列出专家系统模型修改前后对保存实例分别做出的 结论之间的全部差别。
在数据库中查找模式搜索程序
在实例数据库中进行会话以查找发现和假设的模式搜索 程序,主要为了分析模型性能。
比较计算机结论与专家结论
需要把对每一实例的专家结论都存储在数据库中,就可 比较专家与模型各自做出的结论,从而取得对专家系统 性能的明确评价。然后,就可把那些专家系统和人类专 家结论不一致的实例拿来比较、分析和鉴别。
Central South University Advanced Expert Systems
其次是“黑盒”内部的技术评估阶段。
一种是评估知识库是否为最小化的形式,评估知 识库逻辑一致性和精确性的静态测试; 一种是领域专家评估知识库的功能完整性和预见 准确性以及推理能力; 再一种是评估整个专家系统服务需求的软件测试 和检验方法。
(1)运行非正式测试的实例,用测试后的Mark-Ⅱ模型由专家产生反馈。 (2)向友好的用户介绍Mark-Ⅱ模型并征求其反馈意见。 (3)根据用户的反馈意见修改专家系统。 (4)向用户介绍修改后的Mark-Ⅱ模型,返回到第3(2)步。
4.结构化的性能评估。 5.用户可接受的结构化评估。 6.在模型环境中长期服务运行。 7.进行后续研究,以显示专家系统大范围的实用性。 8.修改程序,使得专家系统能广泛地移植。 9.正式推出,投入市场并制定维护和更新的可靠计划。
人、机分别测试评价法
该方法试图通过比较计算机与人的求解问题的能力,来 评价计算机的机器智能。
加权分层分析评价法
采用相对重要性加权的方法,对系统进行多层次多指标 的综合评价。
Central South University Advanced Expert Systems
5.4 专家系统的评估工具
评估工具(三种)
Central South University Advanced Expert Systems
5.3 专家系统的评估方法
评估方法(四种)
轶事法
本法简单地启发式地利用一组例子说明专家系统的性能。 描述在哪些情况下专家系统工作良好。
实验法
这种方法强调用实验的方法来评估专家系统在处理各种 储存在数据库中的问题事例时的性能。
系统研究开发者
评估方法本身也使有些研究人员感兴趣。许多专家系统 评估方法可用于其它系统和场合。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
专家系统的决定和建议的质量
评估这些专家系统完成决策任务时的程序性能 因为可靠而准确的建议是专家咨询系统的一个关键成分 专家系统如果不能说服别人相信专家系统所作的决定和所给 的建议是恰当的和可靠的话,那么预定的使用者就不会接受 这个专家系统。
专家系统原型化的步骤如图5.1所示。
熟 悉 概 念
组 织 知 识 库 并 确 定
建 立 知 识 库
设 计 推 理 策 略
设 计 人 机 界 面
设计 测试 平台, 并改 进原 型系 统
工
具 实现阶段
设计阶段
图5.1 专家系统原型化的步骤
专家系统的测试是指按照专门的标准检测专家系统性能的过程,其测试示意图如图5.2。
人们日益认识到,要达到专家水平的性能,可能要求更加重 视专家用来解决那些通常要求专家系统去解决的问题时所应 用的推理机理。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
专家系统效能评估主要有以下研究内容:
效能评估指标体系的研究。 知识库基础结构评估指标和构造知识库结构的研究。 推理机制效能评估和指标的研究。 专家系统开发阶段检验与验证方法的研究。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
人-机对话的质量
专家系统和使用者之间能否很自然地对话,也会影响专 家系统是否被预定的使用者所接受。
系统效率
在评估专家系统过程中,必须分析在实际使用环境下专 家系统对决策过程的影响。
一个专家系统如果要求使用者花费过多时间,即使它在 完成所有上面提到的任务方面是很出色的,也难以被使 用者接受
专家系统运行的技术分析一般也是必要的。
反馈
测试事例
专家系统原型
测试平台
结果
可靠性 有效性
由用户定义 由开发者进一步精炼 由用户操作 由用户评估 性能
图5.2 专家系统测试示意图
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的时机(九个阶段)
1.高层设计,定义长期目标。 2.完成Mark-I模型,说明其可行性。 3.系统测试,通常采用的方法是:
第5章 专家系统的评估
5 专家系统的评估 必要性
专家系统建立后,其性能与效益如何,需要 通过对专家系统的评估来做出结论。
在适当时候进行评估就可得到项目的重要结 论。但不恰当的评估工作也可能埋没真正有 价值的专家系统开发活动。
Central South University Advanced Expert Systems
Hale Waihona Puke Baidu
CPU的能力没有充分发挥,或磁盘寻找过程设计不善,都 可能会造成专家系统效率不高
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
成本效果
专家系统的效能评估是指综合评估专家系统的效率与性 能,其基础是建立合理、实用、易于实现的指标体系。
5.6 小 结
专家系统评估的最终目标是它的性能。
如果把用户需求作为一个参考来评估专家系统的 性能,即可得到验证。
如果把专家系统的说明作为一个参考来评估专家 系统的性能,即可得到检验。
在实际中,经常通过测试来给出专家系统的评估。 但由于测试实例选择有局限性,因此评估结果也 并不是都令人满意的。
Central South University Advanced Expert Systems
Central South University Advanced Expert Systems
5.5 专家系统的评估实例
多面评估方法实例(三阶段)
首先是主观评估阶段。 评估的目标
专家系统的主观评估阶段是从用户的角度对专家系 统进行评估,其目标是专家系统的可用性。
多属性效用分析法
多属性效用法的基本思想是将全局的效能量度分解 成若干层次,在比原有问题简单得多的层次上逐步 分析,可以将人的主观评估用数量形式表达,然后 再将它们综合生成一个总评估量度。
再次是经验性评估阶段。
经验性评估阶段侧重于专家系统性能的主要量度 经验评估中考虑最经常和最一般的是实验
其一,实验要反映专家系统性能约束的客观基准. 其二,反映专家系统非伸缩判决规则的性能基准,即专 家系统的其它特征对性能基准的失效没有补偿作用。
Central South University Advanced Expert Systems
5.1 评估专家系统的原因
发展专家系统的需要
不论你是否意识到,专家系统总是在被评估中。设 计和建立一个专家系统是一个就下述问题对专家系 统不断地进行评估的过程
采用的知识表达方法是否合适,是否需要扩展或修改? 该系统能否提供正确的答案和进行正确的推理? 存入专家系统的知识是否和专家知识一致? 用户和系统相互联系是否方便? 用户需要系统提供什么方便和要求系统具有什么能力?
Central South University Advanced Expert Systems
5.1 评估专家系统的原因
专家系统评估的受益者
专家系统制造者
评估结果将改进与发展专家系统的成果,使专家系统制 造者受益
合作专家与用户
对专家系统的评估主要有助于专家们构造领域知识和其 自身的专门知识 对用户而言,评估能帮助他们决定什么能力是有用的, 什么是需要的或希望有的以及哪些可被忽略。这种反馈 还能使得专家系统制造者提供与用户要求相称的功能。
一致性检验程序
这一程序列出专家系统模型修改前后对保存实例分别做出的 结论之间的全部差别。
在数据库中查找模式搜索程序
在实例数据库中进行会话以查找发现和假设的模式搜索 程序,主要为了分析模型性能。
比较计算机结论与专家结论
需要把对每一实例的专家结论都存储在数据库中,就可 比较专家与模型各自做出的结论,从而取得对专家系统 性能的明确评价。然后,就可把那些专家系统和人类专 家结论不一致的实例拿来比较、分析和鉴别。
Central South University Advanced Expert Systems
其次是“黑盒”内部的技术评估阶段。
一种是评估知识库是否为最小化的形式,评估知 识库逻辑一致性和精确性的静态测试; 一种是领域专家评估知识库的功能完整性和预见 准确性以及推理能力; 再一种是评估整个专家系统服务需求的软件测试 和检验方法。
(1)运行非正式测试的实例,用测试后的Mark-Ⅱ模型由专家产生反馈。 (2)向友好的用户介绍Mark-Ⅱ模型并征求其反馈意见。 (3)根据用户的反馈意见修改专家系统。 (4)向用户介绍修改后的Mark-Ⅱ模型,返回到第3(2)步。
4.结构化的性能评估。 5.用户可接受的结构化评估。 6.在模型环境中长期服务运行。 7.进行后续研究,以显示专家系统大范围的实用性。 8.修改程序,使得专家系统能广泛地移植。 9.正式推出,投入市场并制定维护和更新的可靠计划。
人、机分别测试评价法
该方法试图通过比较计算机与人的求解问题的能力,来 评价计算机的机器智能。
加权分层分析评价法
采用相对重要性加权的方法,对系统进行多层次多指标 的综合评价。
Central South University Advanced Expert Systems
5.4 专家系统的评估工具
评估工具(三种)
Central South University Advanced Expert Systems
5.3 专家系统的评估方法
评估方法(四种)
轶事法
本法简单地启发式地利用一组例子说明专家系统的性能。 描述在哪些情况下专家系统工作良好。
实验法
这种方法强调用实验的方法来评估专家系统在处理各种 储存在数据库中的问题事例时的性能。
系统研究开发者
评估方法本身也使有些研究人员感兴趣。许多专家系统 评估方法可用于其它系统和场合。
Central South University Advanced Expert Systems
5.2 评估专家系统的内容和时机
评估专家系统的内容(五方面)
专家系统的决定和建议的质量
评估这些专家系统完成决策任务时的程序性能 因为可靠而准确的建议是专家咨询系统的一个关键成分 专家系统如果不能说服别人相信专家系统所作的决定和所给 的建议是恰当的和可靠的话,那么预定的使用者就不会接受 这个专家系统。
专家系统原型化的步骤如图5.1所示。
熟 悉 概 念
组 织 知 识 库 并 确 定
建 立 知 识 库
设 计 推 理 策 略
设 计 人 机 界 面
设计 测试 平台, 并改 进原 型系 统
工
具 实现阶段
设计阶段
图5.1 专家系统原型化的步骤
专家系统的测试是指按照专门的标准检测专家系统性能的过程,其测试示意图如图5.2。