医学图像评估方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

医学图像处理评估方法

罗述谦

本文作者罗述谦先生首都医科大学生物医学工程系教授中国医药信息学会北

京分会

生物医学工程专业委员会主任委员

关键词: 医学图像图像处理算法评估

一引言

现代科学的高度发展及计算机技术的结合使得我们有可能以图像的形式得到有关人体健康的信息从而在疾病的诊断外科手术的计划和引导治疗过程的监督和康复器械的研制等方面提高医疗水平在医学可视化技术的研究中出现了多种模式的成像技术例如CT MRI PET及SPECT等由于这些图像与我们习惯上见到的照片不同它们是通过计算机计算重构的像因此就产生了这些

重建的图像是否正确可信度如何的问题再者我们还要经常对医学图像进行某种处理以突出其中的有用信息满足临床的需要但是任何新的医学图像处

理算法的提出和应用都必须经可靠的方法对其性能评估这种评估包括用数学或物理方法的仿真研究以及对真实临床数据的验证后者当然是我们应用医学图像的目的但在很多情况下这种验证是很困难有创伤的甚至难以实现的例如对颅内脑组织和人体体内器官的图像的验证前者则可用数学的方法模拟不同条件在很广泛的范围实验验证但由于数学模拟往往过于简单模拟的结果与

实际情况有一定的差距因此又有一种介于二者之间的折中方法即在数学模型中融入解剖知识建立更接近实际的仿真模型

二医学图像评估方法的分类

医学图像的评估方法显然与具体的医学图像处理的对象和目的密切相关一般来说对大多数的医学图像处理结果的评估都是件很困难的事情通常不存在什么金标准(Gold Standard)只有相对的最优(某种准则下的)标准在此意义上常用的医学图像评估方法有以下几种:

1. 体模(Phantom)

体模又有硬件体模和软件体模之分后者是计算机图像合成结果体模法用已知的图像信息验证新算法的精度一般硬件体模都比较简单与实际临床图像差异较大因此只能对图像处理算法作初步的评估例如用添充氧化铁颗粒的琼脂胶做成的简单几何形状的硬件体模经MR成像后可用于对分类算法的测试

图1是颇为著名的Hoffman硬件脑体模生成的MR图像Hoffman体模就较为复杂能够产生更接近真实解剖结构的MR图像这个硬件体模由6464的CdZnTe阵列构成内部填充110mCi的Tc-99m成像3min图像总计数19M次许多学者还用Hoffman体模生成PET图像用于对PET图像重建算法的准确度评估; 测试SPECT和PET图像的配准等这种体模的好处是可以在各种实际成

像环境广泛使用性能已知而且稳定缺点是由于太稳定了很难对其形状和材料作些变动后面介绍的计算机化软件体模在这方面则具有很大优点

2. 准标(Fiducial Marks)

立体定向框架系统(Stereotactic Frame Systems)包括立体定向参考框架立体定向图像获取探针或手术器械导向几部分优点是定位准确不易产生图像畸

变使用立体定向框架系统的体积图像数据可以用来评估其它配准方法的精度

使用人工记号作准标的方法很多一种准标是使用9根棍棒组成的3个方向

的N字型结构在CT测试时棒内充以硫酸铜溶液; 作PET测试则填充氟18这样在两组图像中都可见此N字型准标从而可对图像准确空间定位还有人用在人脑表面嵌8个螺丝作标记的方法对多个病人做CT MR(T1T2及PD)及PET扫描得到多组数据这些数据专门用于多模医学图像配准算法评估使用

3. 图谱(Atlas)

UCLA的Thompson教授用随机向量场变换构造一个可变形的概率脑图谱

包括从多个受试者到单一解剖模板的功能血管组织诸方面映射三维图谱到新受试者的扫描图像的映射

Visible Human CD的CT骨窗图像MR图像及彩绘的冷冻切片照片像由于具有清晰的解剖结构和高度的分辨率(1毫米/每层片)近来也被用来作医学图像处理方法的评估手段

4. 目测检验(Visual Inspection)

对医学图像处理方法的结果请本领域专家用目测方法检验听起来有些主观但的确是一种相当可信的方法有人发表论文称医学专家用肉眼对CT/ MR配准

结果的评估准确度达2mm

三评估的基本要求

由于不同的医学图像处理有不同的目的和要求因此所用的评估指标也不同但下述特性往往在许多医学图像处理方法的评估中具有重要意义

1. 精密度(Precision)

在相同条件下对同一输入重复测试得到相同输出的性能(图2)在图2中

圆点是测试得到的数据点靶心是测试参数真值(或参考值)

2. 准确度(Accuracy)

真值(或参考值)与测量值之差除以真值(或参考值)的结果(图3)

3. 可重复性(Repeatability)

在一段时间内对同一输入重复测试得到相同输出的性能良好的可重复性

必然有高精密度但并不一定意味有高准确度

4. 敏感性(Sensitivity)和特异性(Specificity)等

表1给出待测算法的实测结果与理论结果之间的关系其中TP=(True

Positive)FN=(False Negative)FP= (False Positive)TN=(True Negative)

优势率(Prevalence)定义为: Prevalence=

FP

FN TP TN FN TP ++++ 敏感性(Sensitivity)定义为: Sensitivity=

FN

TP TP + 100% 特异性(Specificity)定义为: Specificity=

FP

TN TN +100% 均方根误差(ERMS): 也经常被用作评估医学图像处理方法的定量准则它的定义是 E=∑=−N

i r i V V N 1

2)(1 式中Vi 为第i 个象素的实测值Vr 为第i 个象素的参考值N 为象素总数

四 评估方法应用实例

1. 图像重建算法评估

在CT 或PET 等断层扫描图像的重建过程中可以采用多种重建算法例如反投影重建算法等Shepp-Logan 图(图4)常被用来对头部图像重建算法进行评估

Shepp-Logan 图是用数学方法在计算机上产生由10个不同大小和取向的椭圆组成的图像对于某一个具体的CT 或PET 扫描仪它的探测器数目位置都是确定的因此可用解析的方法计算出与模拟生成的Shepp-Logan 图相对应的各探测器强度再根据这些探测器强度采用待测试的新重建算法重建CT 或PET 图像通过将该重建图像与Shepp-Logan 图对比可以定量评估新重建算法

2. 边缘检测算法评估

在CT 和MR 图像的分析中图像的边缘的准确提取往往给出重要的诊断信息众所周知在普通的图像处理研究中少女Lenna 的照片经常被用来做共同

的输入图像由于该图像中人物的线条粗细多种多样纹理变化也很丰富从

相关文档
最新文档