点得分平行坐标可视化分析方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
,
=
1
,
2
,
,
1
(1)
间的一一对应关系。简而言之,建立了一个映射 2 (即 的子集被映射到 2的子集) 。 假设给出一个七维的数据点 0, 3, 2, 0, 3, 5, 若假定满足简单贝叶斯条件, 即各属性变量相 互独立,则
1 2
=
1
,
2
,
,
2
(2)
2 ,其平行坐标表示如图 1 所示。
,
2
,
,
1
=
燕山大学学报 Journal of Yanshan University
Vol. 32 No. 5 Sept. 2008
点得分平行坐标可视化分析方法
徐永红 1,洪文学 1
(1. 燕山大学 电气工程学院,河北 秦皇岛 066004) 摘 要:提出了一种多元数据的点得分平行坐标表示及可视化分析方法。该方法利用简单贝叶斯公式计算各属
1 5 4 3 2 1 2 3 4 5 6
(17,23) (5,4)
(0,3)
(0,4) (1,3)
(0,1) (2,4)
(4,0) (2,3) (16,17)
(102,103) (18,21) (1,1) (25,61) (50,60) (7,坐标 Fig. 3 Point scores parallel coordinates of various attributes level
图 2 肝功能异常数据集的平行坐标
=
=1
log
> Then
Fig. 2 Parallel coordinates of the liver disorders data set
1
从图 2 的平行坐标中可以看出该数据集的可 log < Then
2
IF
1
=
=1
(10)
分性较差。两类样本混杂在一起,很难发现有用的 规则和知识。 2.3 肝功数据的点得分平行坐标 肝功能异常数据集中的数据按照第 7 个变量 被分成了两类, 一类表示肝功能异常,另一类表示 肝功能正常,现在构建点得分平行坐标, 并根据其 进行数据的可视化分类。 首先将数据各变量值域分
收稿日期: 2008-06-19 作者简介:徐永红 (1975-
他技术还包括 Soon Tee Teoh 等人的星类(StarClass)[7] 以及类描绘(PaintingClass)[8],以及 Liu Danyu 等人的多聚类( PolyCluster)[9]。Kattan 等 在文献 [ 10] 中利用诺模图(Nomogram)来进行 前列腺癌诊断, 虽然诺模图可以很好地可视化数学 模型,但不能对原始数据进行有效的可视化。 在各种多元可视化方法中, 平行坐标一直因为 其表达高维数据的良好性能和完善的数学基础而 引人瞩目 [4]。 但传统平行坐标往往只关注原始数据 的可视化, 而不善于表达数据的内在结构和知识。 本文在平行坐标可视化技术和简单贝叶斯分类算 法的基础上提出一种新的多元数据可视化方法。 将 该方法应用到一个肝功异常数据集的结果表明, 利 用该图表示可以有力地揭示数据内在结构、 发现知 识以及进行可视化疾病诊断等。
(9)
442
燕山大学学报
2008
所以将点得分与类概率相联系的是一个函数 关系
1
=
1
。 根据属性值点得分之和
2
肝功异常数据的可视化分析
下面将前面提出的点得分可视化分析方法应
就可以进行分类。 1.3 点得分平行坐标 根据简单贝叶斯分类原理, 利用求取的点得分 构建平行坐标图,可以概括原始数据的内在结构, 从而有利于模式识别规则建立和知识发现。 点得分 平行坐标的绘制步骤如下: 1)数据属性变量离散化。将连续属性变量离 散化为多个区间或者等级。 一般在区性变量的最大 值和最小值间采用等间隔或者等样本数划分区间; 2)计算属性变量各类训练样本在各等级的出 现次数(频数) ; 3)根据频数计算各属性值等级的点得分。 根据各属性值等级的点得分绘制平行坐标。 用 条平行轴表示 个属性,每个属性等级用穿过 条 平行轴的一条折线表示, 折线与平行轴的交点的纵 坐标对应属性值等级的点得分。 用不同颜色、线条 粗细、线条形状等区分不同的等级。 1.4 可视化分类 根据绘制的点得分平行坐标, 可以分析原始数 据集的模式特征。 根据不同属性等级对类别的点得 分(贡献度) ,可以观察属性变量变化对分类结果 的影响, 而且可以观察同一等级而不同属性时对分 类贡献的变化趋势。将待分类样本的 个属性等级 用点得分平行坐标中的 个点表示, 根据这 个点的 点得分,然后直接求和或者加权求和即可进行分 类。分类规则为: IF
1 5 4 3 2 1 2 3 4 5 6
根据图 3 所示结果可知, 变量 6 (每天饮酒量) 当级为 5(很高)的时候对肝功能异常呈现很大的 正贡献。 变量 4 的级别为 5 时对肝功能异常呈现很 大的负贡献。 当变量 3 级别为中等时对肝功能异常 呈现较大的正贡献。 根据不同属性等级对类别的点 得分(贡献度) ,可以观察属性变量变化对分类结 果的影响。例如对于变量 2,随着变量值的增大, 对肝功异常的贡献增加。 根据图 3 还可以观察同一 等级而不同属性时,对分类贡献的变化趋势。例如 对于级别 5,在属性 1、2 以及 6 上偏上,而对于 中间的属性 3 和 4,其贡献呈下降趋势。另外一个 有趣的是根据该数据集可以发现变量 6 的级别 2 (较低)对肝功能异常有较大负贡献, 而级别 1(很 低)对肝功能异常贡献居中。 说明适量饮酒对肝功 能没有不良影响,反而有益。 根据图 3 绘制的点得分平行坐标可以对未知 样本进行分类。 对于一个待分样本,若其属性向量 离散化为 ( 3,
=1
1
(3)
1
,
2
,
,
2
=
=1
2
(4)
定义优势 (Odds): =
1 2
(5)
并定义对数优势 ( log Odds):
图 1 七维数据点的平行坐标图 Fig. 1 Parallel coordinates of a 7-dimension point
log 则 log
1
=log
1
(6)
同理,若给出一个 维的数据点的坐标,用以 上方法可同样表示出该高维数据点的平行坐标图。 平行坐标图可以表示超高维数据。 平行坐标的一个 显著优点是具有良好的数学基础。 笛卡尔系统和平 行坐标系统间存在对偶性。 笛卡尔系统和平行坐标 系统间的点线对应是这两种系统间的基本对偶性。 笛卡尔系统和平行坐标系统平移和旋转间的对偶 性是其另一个基本特征。 平行坐标的对偶特性和投 影几何解释使它很适合用于可视化数据分析。 1.2 简单贝叶斯算法 简单贝叶斯算法指的是假设样本的各个属性 变量间相互独立, 从而将多个变量的联合概率密度 计算简化为计算单个变量概率密度之积。 利用对数 运算可以进一步简化为求取各变量对数概率密度 之和。 国内外有关文献以及实际的数据实验结果表 明, 简单贝叶斯算法不仅具有很好的分类精度以及 鲁棒性, 而且容易分析各属性变量对分类结果的不 同影响程度。 假定一个两类别分类问题, 包含两个类别 1和
0 引言
多元可视化是可视化技术的一个分支。 简要地 说,它就是利用各种图形方法来表达多元数据, 以 增强人对多元数据的认知 [1]。多元可视化技术最近 出现了一些值得注意的发展趋势, 它正在经历从数 据可视化、 结果可视化到数据挖掘与知识发现过程 可视化的转变 [2-3]。最近,国外学者提出了可视化 分析学的概念 [4],强调可视化的任务不仅仅是关注 数据,更应该服务于数据分析和知识获取,并建议 将其应用于国家安全和环境监测等重要领域。 目前 大多数的分类系统并没有与可视化技术集成, 人的 模式识别能力和领域知识很少得到利用, 但最近已 经出现更多地关注这种反馈机制的趋势。Ankerst 等提出了一种基于圆扇形(circle segments)可视 化技术的交互式决策树构建方法 [5]。他们在文献 [6] 中认为分类过程中更多的用户参与有助于:1) 在数据可视化的帮助下, 人发现有用模式的能力可 以得到很大提高;2)用户对分类过程的亲身体验 有助于增加对发现的模式的信任度;3)通过集成 领域知识而改进算法。 注意分类可视化并不仅仅是 分类结果的可视化, 关键的思想是用户可以操纵分 类过程,并从数据中发现知识。近几年国际上陆续 提出了几种可视化分类技术。除了 Ankerst 等人的 感知分类 (Perception Based Classification)[5],其
性值或属性值区间的频数和点得分,最后根据构建的点得分平行坐标即可进行数据集的可视化分析和未知样本 的分类。将该方法应用到一个肝功异常数据集的结果表明,利用该图表示可以有力地揭示数据内在结构和发现 知识,从而特别适合应用到疾病诊断等数据分析领域。 关键词:多元数据;平行坐标;简单贝叶斯;点得分 中图分类号:TP391 文献标识码:A
1 多元数据的点得分平行坐标表示及可视 化分类
1.1 平行坐标 平行坐标的绘制方法如下: 在具有 笛卡尔坐 标的平面上,从 轴开始,实轴的 个拷贝,标号为 , ,等距放置并且垂直于 轴。它们是 1, 2, 维欧式空间 的平行坐标系统的轴,都具有和 轴
基金项目:国家自然科学基金资助项目 (60605006) ) ,男,四川犍为人。博士研究生,讲师。主要研究方向为医学信息处理、现代医疗仪器。
=log
1 2
=log
+ log
=1
1 2
定义优势比(Odds Ratios)
1
=
1 2
=
2 1 2
(7)
表示的是第 个属性变量 对分类的贡献。 定义log 于是 log 定义 可得
1 1
=log
为点得分。
=log = log
=1
1
+ log
=1
(8)
1
,并称为点得分和。
= 1+e
log
1
/1
1
1
1
其中, 为待分样本, 为权系数,而 为判别点的 值。权系数可以简单地设置为等权, 或者根据专家 先验知识进行设置,以反映不同属性值的重要程 度。当然, 和 也可以通过 Fisher 线性判别算法 确定或者通过交叉验证选择。
第5期
徐永红 等 点得分平行坐标可视化分析方法
443
成 5 个等级,分别为 5、 4、 3、 2、 1,表示很 高、较高、中等、低、很低。然后计算各变量值在 各等级的频数,如表 1 所示。其中 1 ,
1
用到一个肝功异常数据集,以验证其有效性。 2.1 数据集的相关信息 肝功能异常数据集来自 UCI 机器学习数据库。 该数据集样本数为 345,属性变量的数目为 7 个。 其中, 前 5 个变量表示血液检测指标, 第 6 个变量 表示酒精的摄入量, 第 7 个变量表示数据的类别标 签。类别 1 代表肝功能异常,样本数为 145,类别 2 代表肝功能正常,样本数为 200。 2.2 数据集的可视化 通过数据可视化技术可以观察数据集的整体 面貌特征, 并且进行探索性分析以及离群点剔除等 一些预处理。 利用平行坐标技术可视化数据集的结 果如图 2 所示, 其中第 7 根平行轴表示的是数据集 的类别标签:1 为肝功异常;2 为肝功正常。
多元可视化技术最近出现了一些值得注意的发展趋势它正在经历从数据叮视化结果可视化到数据挖掘与知识发现过程可视化的转变23o最近国外学者提出了可视化分析学的概念h1强调可视化的任务不仅仅是关注数据更应该服务于数据分析和知识获取并建议将其应用于国家安全和环境监测等重要领域
第 32 卷 第 5 期 2008 年 9 月 文章编号:1007-791X (2008) 05-0440-05
第5期
徐永红 等 点得分平行坐标可视化分析方法
2
441
1
一样的正方向。 具有笛卡尔坐标 1, 1, ,其中 =1, 2,
2
,
,
的点
2
, 其训练数据为 =
,
2
,
,
, 其中 1,
2
,
,
,被表示成一条折线,其 个顶点位于 轴上的 , , 。实际上,建立了 上的顶点的平面折线 中的点与具有在 1, 2
2
为 个属性变量。则各类的类条件概率密度为:
(7,17) (2,5)
(63,99) (31,35) (73,112) (13,24) (33,80) (9,16) (106,155) (64,64) (128,166) (90,100)
利用简单贝叶斯公式对表 1 的数据进行处理, 求出肝功能数据各变量值的点得分如表 2 所示。
表 2 肝功能数据点得分表 Tab. 2 Point scores of the liver disorder dataset
2
,
,
6
表
示数据的 6 个变量。 括号内整数分别表示属于两个 类别的样本数目。例如( 5, 6 )= 4, 0 ,表示当 6 很高时,肝功能异常者有 4 人, 而肝功能正常者为 0 人。
表 1 肝功能数据频数表 Tab. 1 Frequency numbers of the liver disorder dataset
,
=
1
,
2
,
,
1
(1)
间的一一对应关系。简而言之,建立了一个映射 2 (即 的子集被映射到 2的子集) 。 假设给出一个七维的数据点 0, 3, 2, 0, 3, 5, 若假定满足简单贝叶斯条件, 即各属性变量相 互独立,则
1 2
=
1
,
2
,
,
2
(2)
2 ,其平行坐标表示如图 1 所示。
,
2
,
,
1
=
燕山大学学报 Journal of Yanshan University
Vol. 32 No. 5 Sept. 2008
点得分平行坐标可视化分析方法
徐永红 1,洪文学 1
(1. 燕山大学 电气工程学院,河北 秦皇岛 066004) 摘 要:提出了一种多元数据的点得分平行坐标表示及可视化分析方法。该方法利用简单贝叶斯公式计算各属
1 5 4 3 2 1 2 3 4 5 6
(17,23) (5,4)
(0,3)
(0,4) (1,3)
(0,1) (2,4)
(4,0) (2,3) (16,17)
(102,103) (18,21) (1,1) (25,61) (50,60) (7,坐标 Fig. 3 Point scores parallel coordinates of various attributes level
图 2 肝功能异常数据集的平行坐标
=
=1
log
> Then
Fig. 2 Parallel coordinates of the liver disorders data set
1
从图 2 的平行坐标中可以看出该数据集的可 log < Then
2
IF
1
=
=1
(10)
分性较差。两类样本混杂在一起,很难发现有用的 规则和知识。 2.3 肝功数据的点得分平行坐标 肝功能异常数据集中的数据按照第 7 个变量 被分成了两类, 一类表示肝功能异常,另一类表示 肝功能正常,现在构建点得分平行坐标, 并根据其 进行数据的可视化分类。 首先将数据各变量值域分
收稿日期: 2008-06-19 作者简介:徐永红 (1975-
他技术还包括 Soon Tee Teoh 等人的星类(StarClass)[7] 以及类描绘(PaintingClass)[8],以及 Liu Danyu 等人的多聚类( PolyCluster)[9]。Kattan 等 在文献 [ 10] 中利用诺模图(Nomogram)来进行 前列腺癌诊断, 虽然诺模图可以很好地可视化数学 模型,但不能对原始数据进行有效的可视化。 在各种多元可视化方法中, 平行坐标一直因为 其表达高维数据的良好性能和完善的数学基础而 引人瞩目 [4]。 但传统平行坐标往往只关注原始数据 的可视化, 而不善于表达数据的内在结构和知识。 本文在平行坐标可视化技术和简单贝叶斯分类算 法的基础上提出一种新的多元数据可视化方法。 将 该方法应用到一个肝功异常数据集的结果表明, 利 用该图表示可以有力地揭示数据内在结构、 发现知 识以及进行可视化疾病诊断等。
(9)
442
燕山大学学报
2008
所以将点得分与类概率相联系的是一个函数 关系
1
=
1
。 根据属性值点得分之和
2
肝功异常数据的可视化分析
下面将前面提出的点得分可视化分析方法应
就可以进行分类。 1.3 点得分平行坐标 根据简单贝叶斯分类原理, 利用求取的点得分 构建平行坐标图,可以概括原始数据的内在结构, 从而有利于模式识别规则建立和知识发现。 点得分 平行坐标的绘制步骤如下: 1)数据属性变量离散化。将连续属性变量离 散化为多个区间或者等级。 一般在区性变量的最大 值和最小值间采用等间隔或者等样本数划分区间; 2)计算属性变量各类训练样本在各等级的出 现次数(频数) ; 3)根据频数计算各属性值等级的点得分。 根据各属性值等级的点得分绘制平行坐标。 用 条平行轴表示 个属性,每个属性等级用穿过 条 平行轴的一条折线表示, 折线与平行轴的交点的纵 坐标对应属性值等级的点得分。 用不同颜色、线条 粗细、线条形状等区分不同的等级。 1.4 可视化分类 根据绘制的点得分平行坐标, 可以分析原始数 据集的模式特征。 根据不同属性等级对类别的点得 分(贡献度) ,可以观察属性变量变化对分类结果 的影响, 而且可以观察同一等级而不同属性时对分 类贡献的变化趋势。将待分类样本的 个属性等级 用点得分平行坐标中的 个点表示, 根据这 个点的 点得分,然后直接求和或者加权求和即可进行分 类。分类规则为: IF
1 5 4 3 2 1 2 3 4 5 6
根据图 3 所示结果可知, 变量 6 (每天饮酒量) 当级为 5(很高)的时候对肝功能异常呈现很大的 正贡献。 变量 4 的级别为 5 时对肝功能异常呈现很 大的负贡献。 当变量 3 级别为中等时对肝功能异常 呈现较大的正贡献。 根据不同属性等级对类别的点 得分(贡献度) ,可以观察属性变量变化对分类结 果的影响。例如对于变量 2,随着变量值的增大, 对肝功异常的贡献增加。 根据图 3 还可以观察同一 等级而不同属性时,对分类贡献的变化趋势。例如 对于级别 5,在属性 1、2 以及 6 上偏上,而对于 中间的属性 3 和 4,其贡献呈下降趋势。另外一个 有趣的是根据该数据集可以发现变量 6 的级别 2 (较低)对肝功能异常有较大负贡献, 而级别 1(很 低)对肝功能异常贡献居中。 说明适量饮酒对肝功 能没有不良影响,反而有益。 根据图 3 绘制的点得分平行坐标可以对未知 样本进行分类。 对于一个待分样本,若其属性向量 离散化为 ( 3,
=1
1
(3)
1
,
2
,
,
2
=
=1
2
(4)
定义优势 (Odds): =
1 2
(5)
并定义对数优势 ( log Odds):
图 1 七维数据点的平行坐标图 Fig. 1 Parallel coordinates of a 7-dimension point
log 则 log
1
=log
1
(6)
同理,若给出一个 维的数据点的坐标,用以 上方法可同样表示出该高维数据点的平行坐标图。 平行坐标图可以表示超高维数据。 平行坐标的一个 显著优点是具有良好的数学基础。 笛卡尔系统和平 行坐标系统间存在对偶性。 笛卡尔系统和平行坐标 系统间的点线对应是这两种系统间的基本对偶性。 笛卡尔系统和平行坐标系统平移和旋转间的对偶 性是其另一个基本特征。 平行坐标的对偶特性和投 影几何解释使它很适合用于可视化数据分析。 1.2 简单贝叶斯算法 简单贝叶斯算法指的是假设样本的各个属性 变量间相互独立, 从而将多个变量的联合概率密度 计算简化为计算单个变量概率密度之积。 利用对数 运算可以进一步简化为求取各变量对数概率密度 之和。 国内外有关文献以及实际的数据实验结果表 明, 简单贝叶斯算法不仅具有很好的分类精度以及 鲁棒性, 而且容易分析各属性变量对分类结果的不 同影响程度。 假定一个两类别分类问题, 包含两个类别 1和
0 引言
多元可视化是可视化技术的一个分支。 简要地 说,它就是利用各种图形方法来表达多元数据, 以 增强人对多元数据的认知 [1]。多元可视化技术最近 出现了一些值得注意的发展趋势, 它正在经历从数 据可视化、 结果可视化到数据挖掘与知识发现过程 可视化的转变 [2-3]。最近,国外学者提出了可视化 分析学的概念 [4],强调可视化的任务不仅仅是关注 数据,更应该服务于数据分析和知识获取,并建议 将其应用于国家安全和环境监测等重要领域。 目前 大多数的分类系统并没有与可视化技术集成, 人的 模式识别能力和领域知识很少得到利用, 但最近已 经出现更多地关注这种反馈机制的趋势。Ankerst 等提出了一种基于圆扇形(circle segments)可视 化技术的交互式决策树构建方法 [5]。他们在文献 [6] 中认为分类过程中更多的用户参与有助于:1) 在数据可视化的帮助下, 人发现有用模式的能力可 以得到很大提高;2)用户对分类过程的亲身体验 有助于增加对发现的模式的信任度;3)通过集成 领域知识而改进算法。 注意分类可视化并不仅仅是 分类结果的可视化, 关键的思想是用户可以操纵分 类过程,并从数据中发现知识。近几年国际上陆续 提出了几种可视化分类技术。除了 Ankerst 等人的 感知分类 (Perception Based Classification)[5],其
性值或属性值区间的频数和点得分,最后根据构建的点得分平行坐标即可进行数据集的可视化分析和未知样本 的分类。将该方法应用到一个肝功异常数据集的结果表明,利用该图表示可以有力地揭示数据内在结构和发现 知识,从而特别适合应用到疾病诊断等数据分析领域。 关键词:多元数据;平行坐标;简单贝叶斯;点得分 中图分类号:TP391 文献标识码:A
1 多元数据的点得分平行坐标表示及可视 化分类
1.1 平行坐标 平行坐标的绘制方法如下: 在具有 笛卡尔坐 标的平面上,从 轴开始,实轴的 个拷贝,标号为 , ,等距放置并且垂直于 轴。它们是 1, 2, 维欧式空间 的平行坐标系统的轴,都具有和 轴
基金项目:国家自然科学基金资助项目 (60605006) ) ,男,四川犍为人。博士研究生,讲师。主要研究方向为医学信息处理、现代医疗仪器。
=log
1 2
=log
+ log
=1
1 2
定义优势比(Odds Ratios)
1
=
1 2
=
2 1 2
(7)
表示的是第 个属性变量 对分类的贡献。 定义log 于是 log 定义 可得
1 1
=log
为点得分。
=log = log
=1
1
+ log
=1
(8)
1
,并称为点得分和。
= 1+e
log
1
/1
1
1
1
其中, 为待分样本, 为权系数,而 为判别点的 值。权系数可以简单地设置为等权, 或者根据专家 先验知识进行设置,以反映不同属性值的重要程 度。当然, 和 也可以通过 Fisher 线性判别算法 确定或者通过交叉验证选择。
第5期
徐永红 等 点得分平行坐标可视化分析方法
443
成 5 个等级,分别为 5、 4、 3、 2、 1,表示很 高、较高、中等、低、很低。然后计算各变量值在 各等级的频数,如表 1 所示。其中 1 ,
1
用到一个肝功异常数据集,以验证其有效性。 2.1 数据集的相关信息 肝功能异常数据集来自 UCI 机器学习数据库。 该数据集样本数为 345,属性变量的数目为 7 个。 其中, 前 5 个变量表示血液检测指标, 第 6 个变量 表示酒精的摄入量, 第 7 个变量表示数据的类别标 签。类别 1 代表肝功能异常,样本数为 145,类别 2 代表肝功能正常,样本数为 200。 2.2 数据集的可视化 通过数据可视化技术可以观察数据集的整体 面貌特征, 并且进行探索性分析以及离群点剔除等 一些预处理。 利用平行坐标技术可视化数据集的结 果如图 2 所示, 其中第 7 根平行轴表示的是数据集 的类别标签:1 为肝功异常;2 为肝功正常。
多元可视化技术最近出现了一些值得注意的发展趋势它正在经历从数据叮视化结果可视化到数据挖掘与知识发现过程可视化的转变23o最近国外学者提出了可视化分析学的概念h1强调可视化的任务不仅仅是关注数据更应该服务于数据分析和知识获取并建议将其应用于国家安全和环境监测等重要领域
第 32 卷 第 5 期 2008 年 9 月 文章编号:1007-791X (2008) 05-0440-05
第5期
徐永红 等 点得分平行坐标可视化分析方法
2
441
1
一样的正方向。 具有笛卡尔坐标 1, 1, ,其中 =1, 2,
2
,
,
的点
2
, 其训练数据为 =
,
2
,
,
, 其中 1,
2
,
,
,被表示成一条折线,其 个顶点位于 轴上的 , , 。实际上,建立了 上的顶点的平面折线 中的点与具有在 1, 2
2
为 个属性变量。则各类的类条件概率密度为:
(7,17) (2,5)
(63,99) (31,35) (73,112) (13,24) (33,80) (9,16) (106,155) (64,64) (128,166) (90,100)
利用简单贝叶斯公式对表 1 的数据进行处理, 求出肝功能数据各变量值的点得分如表 2 所示。
表 2 肝功能数据点得分表 Tab. 2 Point scores of the liver disorder dataset
2
,
,
6
表
示数据的 6 个变量。 括号内整数分别表示属于两个 类别的样本数目。例如( 5, 6 )= 4, 0 ,表示当 6 很高时,肝功能异常者有 4 人, 而肝功能正常者为 0 人。
表 1 肝功能数据频数表 Tab. 1 Frequency numbers of the liver disorder dataset