《智能数字病理诊断系统中图像处理关键问题研究》项目总结报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《智能数字病理诊断系统中图像处理关键问题研究》
项目总结报告
一、项目概况
二、项目实施情况
三、项目技术情况
四、合同任务指标完成情况
五、项目绩效分析
六、存在问题、有关建议及下一步研究设想
一、项目概况
项目名称:智能数字病理诊断系统中图像处理关键问题研究立项时间:2014年7月
项目编号:BY-11
项目负责人:舒华忠
合作企业:南京福怡科技发展股份有限公司
经费情况:
主要研究内容:
本项目研究的最终目标是开发出智能数字病理诊断系统,该系统应具有较低的硬件成本、能够实现快速全片扫描拼接功能,智能化程度高,无需人工干预即可对样本进行DNA 倍体自动分析、TCT 自动分析,可自动分析判断组织切片中的癌变部位,将其提供给病理医生,以简化其工作,提高病理医生工作效率。
针对以上研究目标,本项目主要开展了以下几点研究工作:
1)在图像采集与预处理方面,为解决当前设备光场不均匀、存在图像畸变、图像拼接算法效率低精度低速度慢的难题,采用了非刚体配准技术实现畸变矫正,建立混合高斯模型对图像进行光场均匀性矫正,采用滑动窗傅里叶变换技术实现快速图像拼接。
配合合作单位完成了自动全片扫描系统的硬件结构优化,大幅提高了全片扫描速度、图像清晰度及系统可靠性。
2)在脱落细胞自动病理分析方面,为进一步提高细胞核及细胞的分割精度,提高当前分类器分类准确率,提高病理分析的精度。
实现了B 样条Snake 细胞核分割技术以及MinCost细胞质分割,研究了新的分类特征,集合随机森林和SVM 技术,并尝试使用了深度学习技术,进一步提高了细胞核分类精度。
3)为了解决当前算法计算效率低、速度慢的缺陷,提高智能分析效率,搭建了GPU 并行计算平台,采用CUDA 技术对现有算法进行并行化改造,提高计算效率。
4)组织学自动病理分析方面,探索了基于深度卷积神经网络的组织区域自动识别方法,以及癌变区域的自动分析定位技术。
5)远程诊疗开发方面,开发了网络诊断云平台系统,该系统实现了数字病理数据的网络传输和存储,同时研究根据样本类型、医生专长、历史诊断等信息,实现样本的自动推送,提高推送效率和精度,现已商业化运营。
二、项目实施情况
(即完成项目过程中所做的主要工作,包括校企联合研发团队的组织、实施计划的制定与落实、企业研发人员的培养培训、项目完成情况评价及预算执行情况等)
1. 校企联合研发团队的组织
本项目依托东南大学和南京福怡科技发展股份有限公司,以及东南大学——福怡科技智慧医疗联合研发中心,组件了一支由教授,年轻教师、企业技术工程师、博士及硕士研究生组成的21人的研究团队,学术和科研梯队合理,具有丰富的科研经验和积累,使得课题得以顺利完成。
2. 实施计划的制定与落实
2014 年7 月至2014 年12月:完成了新平台结构修改,提高平台移动及采用速率至12帧/秒,完成了背景帧合成工作、实现畸变参数测量,同时实现图像矫正算法并行化计算;
2015 年1 月—2015 年6 月:完成安装、检测平台设计,制定完善的装配工艺流程,优化光源光路,达到分析要求。
实现了基于MeanShift 算法和滑动窗快速傅立叶变换算法的模板匹配算法,在此基础上,结合并行计算,实现了快速图像拼接算法。
初步实现基于局部阈值分割和B样条Snake分割算法的细胞核自动分割算法相关技术研究。
2015 年7 月-2015 年12 月:对细胞核自动分割算法进行了优化,完成细胞核各特征参数自动分析与测量,提高了分类精度。
完成细胞质自动分割算法,实现TCT 自动分析中各项参数的自动计算,推出完整功能的智能数字病理系统样机,开始在医院进行实验测试工作。
实现了远程诊疗平台研发及硬件架构;
2016 年1 月-2016 年6 月:根据实测结果和反馈意见,对样机进行了完善与修正,完善自动样本推送功能,完成自动病理分析样机;
2016 年7 月-2016 年12 月:采用深度学习技术对细胞学样本和组织学样本进行自动分析实验;技术报告整理,项目总结、鉴定。
3. 企业研发人员的培养培训
项目为企业培养了8名技术骨干。
项目研发人员共有21 名,包括东南大学的教授、副教授、博士生和硕士生13 名和南京福怡科技发展股份有限公司技术工程师8 名。
在项目实施过程中,企业研发人员不仅负责项目所赋予的相关技术业务,而且积极参与其他相关技术的实施,通过不断学习,这8 名技术人员已能够独立进行相关研发工作。
4. 项目完成情况评价
项目经过两年多的研究与实践,完成了合同约定的各项任务指标,在各项技术上取得了较大进展;开发了自动智能病理扫描分析系统,以及在线诊断平台,大幅提高了原有系统的性能,实现了远程病理诊断,并已将该系统商业化,取得了较好的经济效益。
项目共申请发明专利15 项,授权3 项,授权软件著作权2 项,公开发表相关SCI 收录技术论文10 篇。
5. 预算执行情况
项目预投入经费100 万元,其中省拨经费30 万元,自筹70 万。
经费基本执行完毕,分别用于设备费、材料费、测试化验加工费、会议费、专利申请维护费、论文版面费差旅费以及劳务费
三、项目技术情况
(即项目的研究方法及技术路线,项目解决的关键技术、取得的突破性进展及创新点等)
本项目目标是在前一阶段与南京福怡科技发展有限公司共同开发的低成本全片扫描及分析系统的基础上,优化采集与分析系统,完善远程诊疗平台,开发具有更高扫描精度、更快计算速度、更完善病理图像分析功能的第二代产品,并在病理组织切片图像分析算法方面开展一些前瞻性研究。
1.主要研究进展
2.1.病理图像采集与预处理
在图像采集与预处理方面,本项目研究了包括病理全片的扫描拼接,双相机诊断系统中双相机图像的配准。
2.1.1.病理图像采集
病理样本的自动扫描,不仅对图像的质量有要求,同时还要求扫描速度足够快,在保证图像清晰、完整的情况下,如何提高扫描与处理的速度是一个有挑战性的问题。
扫描速度取决于多方面的因素,具体来说,总扫描时间由单次成像时间、两次成像之间的运动时间以及总成像次数决定,其中两次成像间的运动时间一般较小,占主要部分的是另外两者。
总成像次数受样本大小与扫描间隔的影响,一定大小的样本,每次成像间玻片的运动距离越小,总成像次数越多,扫描速度越慢,但运动距离也不能太大,以免样本的某个区域未在任何一幅图像中出现。
另一方面,单次成像时间大致由对焦时间与曝光时间组成,曝光时间越大则单次成像时间越长,但曝光时间受光照条件限制,曝光不足的图像无法达到医学应用的要求,因而优化对焦过程、减少对焦时间是提高扫描速度的一个关键点。
提高对焦速度的一个常用方法是利用玻片的高度平整,预先估计玻片中不同位置的高度差,计算出各个位置的大致焦距。
图1 样本采集光路示意图
载玻片与盖玻片间极薄的病理样本基本位于同一平面,由于玻片、平台以及镜头的装配误差,样本平面可能并不与相机光轴完全垂直,而是存在一个固定的、微小的角度偏差θ,如上图所示,从而相机与样本不同部分间的距离有所差异,需要在不同的位置分别对焦。
快速对焦的原理是通过若干次对焦来估计样本各处大致的焦平面,其数学原理非常简单,就是少量三维点的平面拟合问题,使用最小二乘法即可得出平面方程。
但是该方法的效果是非常显著的,通过十数次或几十次的对焦就能快速估计出焦平面,基于预估的焦距进行对焦可以大幅提高对焦速度。
使用背景剪除技术来估计图像序列的背景,对比了混合高斯模型MOG法与基于贝叶斯估计的GMG法(由发明者Godbehere、Matsukawa和Goldberg首字母命名)[13],背景的光照估计可以用于实现图像的光照平衡。
背景剪除法是经典的提取背景、前景的方法,也是许多视频处理方法的基础,统计模型是最为常用的一种背景剪除方法,而混合高斯模型(Gaussian Mixture Model)是其中经典的方法,其原理较为简单且速度较快,在视频处理中有许多应用。
混合高斯模型的基本思想是忽略图像的各个像素间的相关性,对其分别处理,认为每个像素是由若干个高斯模型产生的,由一系列图像去估计各个高斯模型的参数,从而得到一个能够估计像素属性的混合高斯模型。
混合高斯模型或其改进方法均属于参数估计法,即通过明确的数学模型去解释观测数据,并给出模型参数的估计值。
非参数估计法则对数据的分布状况不附加假设,对模型的具体形式不做具体的规定,从数据本身出发研究其分布特征,其常见做法是通过核密度估计去逼近观测值。
GMG 算法借鉴了核密度估计的方法,用于单相机的视频前景提取,并且对于室内场景有较高的准确度。
MOG与GMG算法在200幅彩色图像上进行背景剪除的效果对比如图2所示。
(a) 彩色图像原始图像
(b)MOG 算法 (c)GMG 算法
图2 MOG 算法与 GMG 算法在 200 幅彩色图像上背景剪除的效果对比
2.1.2. 病理图像的拼接与双相机图像的配准
对比了基于图像金字塔的配准方法、频域加速的交叉相关和相位相关配准方法、基于SURF (Speeded Up Robust Features )[14]和ORB (Oriented FAST and Rotated BRIEF )
[15]特征的配准方法在相邻图像位置估计中的实际效果。
在待匹配图像中遍历模板图像时,暴力穷举的复杂度往往太高,常使用一些加速方法来减少匹配搜索时间,基于图像金字塔的多分辨率匹配是一种兼顾速度与精度的方法,其思想是按先粗后细的顺序搜索最佳匹配位置。
自然图像中相邻像素之间的灰度一般具有相似性,利用这个性质我们可以进行粗粒度的匹配获得最佳匹配位置的一个大致估计,即在低分辨率的图像与模板上先进行相似度匹配,以此匹配结果为基础,再到高一级分辨率图像上的临近区域进行匹配。
当相邻图像间的位移较大、重叠部分较小时,基于图像金字塔的方法有可能在粗匹配时就匹配失败或者丢失正确的匹配,而基于频域的配准方法在这方面就占有优势。
由于信号平移后在频域上幅度不变而相位发生改变,使用基于傅里叶变换的配准方法能够发现较大的位移,这个特性在图像拼接中尤为重要,因为图像拼接中较小的位移意味着更多的拍摄次数、更慢的扫描速度,
而基于傅里叶变换的配准方法可以配合较大的扫描位移来提高全片的扫描速度。
不仅如此,基于傅里叶变换的配准方法本身也有着速度优势。
基于特征的配准不同于基于像素的配准,这类方法不再直接以像素间的相似性进行匹配,将特征作为匹配的基本要素,经过定位和配对特征点,进而估计图像间的变换关系。
使用特征点对进行变换估计是非常灵活的,可以适用于各种不同的变换关系。
在病理图像拼接的过程中,图像经过配准后还要以合适的方法进行融合,获取病理样本的全图,使用均值融合法、羽化融合法和多频带融合法对变换后的图像进行融合,最终给出全片的拼接图像(图3所示)。
图3 拼接得到的宫颈细胞样本全片图像
而对于双相机拍摄的数字病理图像,使用基于SURF和ORB特征的配准方法估计黑白图
像与彩色图像间的仿射变换关系,并通过筛除细胞核之外的特征点与相距太远的特征点
对来提高配准的准确率。
双相机图像配准的困难在于图像内容差异较大,例如在Feulgen-Eosin复合染色下,彩色图像中有桃红色的细胞质与蓝紫色的细胞核,而黑白图
像中几乎只有深色的细胞核,细胞质只显现出轻微的轮廓,细胞质内的纹理信息只剩下
非常少甚至完全丢失。
如果使用基于像素的配准方法,即使按照完美的变换关系将两幅
图像的内容重合,彩色图像中大面积的细胞质也无法在黑白图像中找到对应,造成匹配失败或者误匹配。
使用像素的颜色特性可以粗略判断该像素是否属于细胞核,剔除了非细胞核区域特征之后,SURF 特征留下的特征点如图4所示,可以看出经过特征点剔除,彩色图像中保留的SURF 特征点大致位于细胞核。
(a)彩色图像的SURF 特征点 (b)黑白图像的SURF 特征点
(c)剔除后彩色图像的SURF 特征点 (d) 剔除后黑白图像的SURF 特征点
图4 剔除非细胞核特征后的SURF 特征点
由于彩色图像与黑白图像在内容上的差异,直接进行特征匹配会造成大量的误匹配,有必要利用双相机之间的位置关系来指导特征点的匹配。
由于黑白相机与彩色相机之间的姿态差异一般较小,黑白图像与彩色图像之间仿射变换的旋转角与位移也较小,利用这个特性,可以将坐标相距太远的匹配点对剔除,降低所有匹配点对中错误点对的比例,结果如图5所示。
(a) 存在大量误匹配的SURF 特征匹配点对
(b) 剔除部分匹配后的SURF 特征匹配点对
图5 剔除坐标相距太远的匹配后的特征匹配示意图
2.2.细胞学自动病理分析
2.1.
3.细胞核自动分割与分类
我们首先对比了阈值法与混合高斯模型MOG法在粗提取细胞核时的效果。
大津阈值法将一些染色较浅的细胞核区域分割成了背景,在图中标有红圈处能够清晰看出,其分割所得的细胞核区域不完整;而局部自适应阈值法则基本分割出了所有的细胞核区域,但一些未滤除的细胞质成分也被认为是前景;MOG算法则是三个方法中效果最好的,其结果相比局部自适应阈值法消除了部分无效的前景区域。
黑白图象 大津阈值法
局部自适应阈值法 MOG 混合高斯模型法
图6 细胞核自动分割效果对比
由于一张细胞病理图像中分离出来的独立前景区域多达3~4万个,其中包含了可供分析的目标细胞核及不可用于分析的杂质。
因此,我们需要对分割的结果进行分类,通过计算形态特征、光密度特征、纹理特征,训练SVM 或随机森林分类器来精确地筛选其中的有效细胞核。
使用的形态特征包括面积A 、周长P 、圆形度Ccl 、最小外接矩形的长边MaxL 、短边MinL 、离心率Ecc 、核与凸包的面积差异率Ad 和核与凸包的周长差异率Pd 等特征。
使用的光密度特征包括区域内的平均灰度Ga 、灰度的方差Gd 、偏度Sk 、峰度Kr 、变异系数(灰度标准差与均值之比)Vcf 、细胞核与凸包的灰度差异Gdf1、细胞核与核外围的灰度差异Gdf2。
使用的纹理特征主要包含基于Haralick 灰度共生矩阵相关的特征。
(a)归一化的A d (b)归一化的Gd cvℎ (c)归一化的Ccl nuc (d)归一化的Vcf nuc (e)归一化的Gdf2r
图7 部分特征的分布情况(横坐标为归一化后的特征值,纵坐标为频次,蓝色为正例的分布,绿色为负例
的分布)
表2 不同特征下随机森林与 SVM 的检测结果
随机森林可以给出特征的重要性排序,帮助进行特征筛选,提高分类准确率与计算速度。
实验表明,特征重要性排序在最后的那部分特征反而干扰了最终的检测,剔除这些无关特征之后准确率有所提升,使用约65个特征时分类精度达到最高,但剔除更多特征则造成性能下降。
表3 不同特征下随机森林与 SVM 的检测结果
2.1.4.细胞质自动分割
这一部分研究图像是宫颈脱落细胞采用Feulgen和伊红复合染色制片后扫描获取的彩色图像,扫描图像中细胞质呈粉红至桃红色,细胞核呈蓝紫色。
我们设计了一种自动分割细胞质轮廓的算法,采用极坐标的方式对样本图像进行采样,通过添加边界约束条件寻求全局最优路径搜索方法快速有效地实现细胞质的自动分割,在对重叠细胞进行分割时具有较好的分割效果。
由于图像在成像过程中不可避免的会受到噪声的污染,为防止噪声对细胞质分割造成干扰须对图像做降噪处理。
通过滤波实验结果对比了高斯滤波、均值滤波、中值滤波、双边滤波几种滤波方法对本论文实验图片的滤波效果,分析后选择中值滤波作为细胞图像的滤波处理方法。
接下来分析图片各部分RGB颜色通道信息的区别,以图像中细胞质、细胞核、背景等各区域的颜色特点作为分割细胞质的依据。
在以
细胞核为坐标原点的极坐标下的细胞图像,可将细胞质看作围绕坐标原点的闭合曲线,从而把细胞质的分割问题转化成寻找极坐标下的一条闭合曲线。
实验图像中细胞质的形状会发生褶皱或因挤压而形变,但大部分细胞质边界是相对平滑的,可通过边界约束条件对细胞质分割结果的形状进行约束。
此外,分割结果不应出现在背景区域,要避免算法把背景上的点判断为细胞质的情况。
对重叠细胞的分割,须考虑粘连和重叠细胞对当前细胞分割的干扰,特别是多个细胞重叠部分的分割问题。
算法针对细胞的形态特点对图像进行极坐标变换,然后通过采样、求梯度等方法计算代价矩阵,并结合细胞核附近的高亮区域、背景区域等情况对代价矩阵进行优化,最终在代价矩阵的基础上添加形状约束条件进行全局搜索,寻求最小代价路径来获取细胞边界。
在极坐标下的采样方法有效地缩小了解空间,使得算法具有较快的运行速度,平均每个细胞的处理时间为17ms。
超像素方法在图像分割领域进行了广泛的研究,已经发展成一种有效的图像分割技术。
超像素分割方法能够将图像分割成许多颜色均一、大小相似的图像块,这些图像块的边界与图像中物体的边界趋于一致。
超像素分割方法可以提取部分细胞质边界,因此结合超像素分割思想对最小代价路径方法进行改进。
通过实验结果对比分析了LRW算法、SLIC算法、SEEDS算法等几种超像素分割算法不同超像素个数情况下细胞图像的超像素分割结果及运行时间,选择合适的超像素个数用于细胞质分割的研究。
然后设计了结合超像素方法的最小代价路径算法,利用超像素分割方法提取细胞质边界信息的特点,在完成超像素分割之后用每个超像素的均值替换该超像素内的像素值生成均值图,将均值图作为最小代价路径算法的输入图像得到分割结果,按照超像素分割、最小代价路径方法的顺序处理实验图像,以获取细胞质分割结果。
图8 各算法的独立细胞分割结果对比(第一行为Ground Truth 图像,第二行为最小代价路径算法分割结果,第三行、第四行、第五行依次为结合LRW 算法、SLIC 算法、SEEDS 算法的最小代价路径算法分割结果。
)
图9 各算法的重叠细胞分割结果对比。
(第一行为Ground Truth 图像,第二行为最小代价路径算法分割结果,第三行、第四行、第五行依次为结合LRW 算法、SLIC 算法、SEEDS 算法的最小代价路径算法分割结果。
)
2.1.5. 细胞核DNA 指数计算
在DNA 定量细胞学中,DNA 指数值是宫颈样本病理分析的重要依据,出现单个DNA 指数大于4.5的宫颈细胞核就可以判定宫颈样本的阳性病变。
因此,宫颈细胞核DNA 定量分析中DNA 指数计算的准确性和稳定性对于宫颈癌的病理诊断十分重要。
本项目在宫颈细胞核DNA 指数计算方面,一方面在细胞核光密度积分计算上依据Beer-Lambert 光吸收定律改进了原始的光密度积分计算方法,通过宫颈细胞学原理测定出Beer-Lambert 方法在细胞核光密度积分计算上的准确性更高。
另一方面在宫颈二倍体基准细胞选取工作中,依据正常宫颈细胞核的光密度积分分布规律提出了新的峰值法求取宫颈二倍体细胞的光密度积分,使用CV 值标准评估表示新的峰值法在基准二倍体细胞选取方面取得了一定的提升:新的峰值法相比于原始的均值法和中位数法所求得的二倍体细胞的CV 值更低,一般在2%以下,并且满足欧洲分析细胞病理学会(ESACP )的要求。
在宫颈细胞核DNA 指数计算上,结合宫颈细胞核光密度积分计算的Beer-Lambert 方法和基准二倍体细胞选取的峰值法组成的DNA 指数计算方法在宫颈样本DNA 指数计算上的稳定性和准确性相比原始方法都得到了提升:新的DNA 指数计算方法得到的宫颈细胞核的DNA 指数相比于宫颈细胞核的标准DNA 指数误差一般在3%以内,相比于原始的DNA 指数计算方法的10%的误差范围取得了良好的改进效果。
2.3.远程病理诊断系统
在远程病理诊疗方面,研究开发了一套包含病人端、医生端和系统管理后台的数字病理远程智能诊断服务系统。
具体包括医疗端服务:(1)提供数据同步存储服务,包括医疗端输入的病人、样本数据;(2)提供诊断报告服务,将专家诊断结论同步发送回医疗端。
系统实现了专家、管理及病人端服务,各包括以下功能:
专家端服务:通过定制专家端动态网页,(1)提供病理图片浏览服务,满足病理图片的缩放、移动、自动高亮标注和数值标注;(2)提供诊断服务,包括注释编辑、图像区域高亮、注释和高亮的保存和撤销、诊断结论提交、诊断报告打印(3)提供专家个人设置服务,包括登陆、密码修改、个人擅长描述、个人联系信息编辑等;(4)提供一年内的样本查询统计服务,包括已诊断样本查询和统计、未诊断样本查询和统计、会诊中样本查询和统计;(5)提供个人提示服务,提示未完成诊断。
管理端:通过定制管理端动态页面,(1)提供专家信息管理服务,包括专家添删改、评价、工作量统计;(2)提供样本信息管理服务,包括未诊断样本推送(分为人工或自动)和短信服务、分类统计、诊断状态查询、诊断报告查阅、诊断过期提示、推送撤销和再推送;(3)病人信息查阅,包括病人的样本信息查阅;(4)自动推送策略设定,根据区域性、疾病种类、专家擅长领域综合情况来制定样本推送规则。
(5)系统管理,与系统软件对口。
(6)实时监测各站点设备运行情况。
(7)实时监测样本诊断的进程(包括病人标本在染片机工作状态、诊断、报告全过程)。
病人端:通过定制动态页面,提供病人可上网,利用身份证号码或名字(加入病人就诊编号信息,确保不是恶意查询)等查询自己样本,自行下载诊断报告(必须提供严格的网站注册要求并成为会员,利用身份证号码或名字等登陆,查询或打印自己的诊断报告,但不能下载报告。
病理图像的尺寸很大,为在系统中能快速加载图片,系统中通过提出的基于深度(Deep Zoom )的图像拆分算法可以显著提升显示效果。
通过Deep Zoom实现对任意大的图像提供高效缩放功能,采用金字塔分解表示模型,分级存储表示各个层级分辨率的子图。
支持多尺度图像显示模式,且不影响图像的显示效率。
Deep Zoom采用由低分辨率到高分辨率的渐进加载方式,使不管图像有多大都能实时加载图像。
既能提升显示速度,同时亦可降低无效数据传输,减轻对网络带宽的压力。
云病理网络诊断界面如图10、图11所示。