人工智能在外科临床中的应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

二、多模态图像融合技术

(一)多模态图像融合

多模态图像融合概述:图像是人类认识世界、观察事物和获取信息的最直观渠道之一。图像融合技术能够定量和定性地提高图像特征的质量,使得多模态方法相对于单模态方法更加高效和准确。通过某一种特定的算法将不同传感器根据不同成像原理生成的图像进行融合,去除源图像间的冗余信息,并提取源图像间的互补信息,得到一幅信息更精确、丰富和全面的融合图像。

X射线的发现和CT图像的出现,促进了医学图像学的飞速发展,到20世纪80年代中期,不同模态、不同原理的医学图像陆续诞生,促进了图像融合技术在医学图像学上的应用和推广。多模态医学图像融合技术的发展有助于提高医务人员在短时间内做出公正、客观的决策的效率,可有效避免对患者病情的误判和误诊,对临床医学疾病诊断准确率的提高具有重要意义。

目前主流的医学图像主要有计算机断层扫描(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)、正电子发射体层摄影(positron emission tomography,PET)、单光子发射计算机体层摄影(singlephoton emission computed tomography,SPECT)、超声成像(ultrasonography),此外还有其他几种成像方法,如红外、荧光、X射线、微波和显微成像,以及一些复合型成像方法,如正电子发射计算机体层显像仪(PET/CT)、单一光子发射计算机体层摄影(SPECT/CT)等。

多模态图像融合过程一般分为四个阶段:图像预处理、图像配准、图像融合以及融合结果评价,如图1-2-8所示。

图1-2-8 多模态图像融合步骤

1.图像预处理

由于成像设备功能、性能的不同,以及环境的影响都可以对图像的质量造成一定的差异,常常伴有灰度分布不均匀、遮挡、图像集合位置扭曲等现象。图像预处理是关键一步,该阶段通过对源图像进行噪声过滤、边缘检测和几何校正等方法提高图像质量,为最终融合图像的结果奠定基础。

2.图像配准

图像配准与图像融合密不可分,是图像融合的前提条件。实际的医学影像采集过程中,由于位置不同,导致源图像不可避免地出现平移、旋转、尺度伸缩等空间偏差,配准的过程就是消除这些差异,通常涉及对尺度变化、旋转和平移造成的可变性补偿等操作。图像配准可分为特征配准和区域配准。特征配准需先建立源图像的特征模型,通过对某种特征(点特征、线特征)的分析,实现对图像信息的分析。该方法运算效率高,且对图像的差异性有较大包容,适用于复杂情况。基于区域的配准方法通常采用模板匹配,局限性较大,只适用于一些特定器官的图像配准。

3.图像融合

图像融合指将多幅已达到精确配准的源图像,通过一定的融合算法,生成一幅新的图像。图像融合阶段保留每幅源图像的显著特征信息的同时,提取不同图像之间的互补信息,克服单一设备图像存在的局限性,为最终的医学诊断提供最确切的信息支撑。

4.融合结果评价

融合结果的评价方式可分为主观评价和客观评价。主观评价指观察者肉眼观察后对图像融合的质量进行评估,根据主观感觉对融合图像质量进行评价,比如融合图像的边缘、轮廓是否清晰,对比度是否降低等。主观评价时,图像质量的好坏程度很大程度上取决于观察者的主观意识(心理状态、喜好和经验等),具有主观和片面性,一般用客观评价来辅助衡量。

下面介绍7种客观评价指标。

(1)熵(entropy,En):

熵是衡量融合图像中有用信息的重要指标。

其中,n为灰度级总数,融合图像的像素灰度分布为p={p(1),p(2),…,pi),…,pn)},pi)为灰度值等于i的像素数与图像总像素数之比。图像的熵值越高,表示图像所含的信息内容越丰富,融合效果越好。

(2)标准差(standard deviation,STD):

标准差是衡量图像像素灰度值分布情况的重要指标,表示单个图像的对比度。大小为M×N的图像的像素灰度级Iij)与平均值之间的偏差程度表示为:

标准差越高表示图像的灰度分布越离散,空间细节量越大,图像对比度越高。

(3)空间频率(spatial frequency,SF):

空间频率表示图像的清晰度。

其中,RF和CF分别表示空间行频率和空间列频率,

其中,图像大小为M ×NIij)表示图像的灰度级。空间频率越大,表示图像分辨率越高。

(4)结构相似性指数(structural similarity index,SSIM):

结构相似性指数是量化图像质量退化的感知度量。

其中,F为融合图像,I为输入图像,μFμI、σF和σI分别表示图像FI的平均亮度和方差,σFI表示图像FI的协方差,C1和C2为常数。结构相似性指数的动态范围为[-1,1],且其值越大表示源图像和融合图像之间的相似性越高、关系越紧密。

(5)基于人类感知的度量(human perceptionbased metric,QCB):

基于人类感知的度量在人类视觉系统建模的基础上,尝试计算最大保留对比度和局部显著性,通过对全局质量图进行平均得到该度量。

其中,AB为源图像,λAλB分别表示A和B的显著性图,QAFQBF分别表示A和B的对比的信息保存值。

(6)互信息(mutual information,MI):

互信息是衡量源图像与融合图像之间相关程度的重要指标,也是衡量融合图像包含源图像信息量的重要度量方法,其值随着融合图像中的细节和纹理信息而增加。给定源图像AB以及融合图像F,互信息可表示为:

其中,

R为源图像ABhRFμ,ν)表示RF的联合灰度直方图,hRμ)和hF(ν)分别表示RF的归一化灰度直方图。融合图像的互信息值越高,表示融合图像从源图像中获取的信息越丰富,融合后的图像质量越好。

(7)图像质量指数(image quality index,IQI):

图像质量指数反映融合图像的质量,可表示为式1-2-10。

其中,μFμ R、σF和σ R分别融合图像F和源图像R的均值和方差。由于融合过程中有两个源图像AB,因此最终IQI的值取源图像的平均值:

图像质量指数IQI的动态范围为[-1,1],且其值越接近单位IQI表示融合效果越好。

此外还有很多评价图像融合质量的客观指标,比如:衡量融合图像的保留程度的加权边缘信息保留值、计算边缘检测值的索贝尔算子以及衡量融合图像和源图像相似程度的结构相似度等。

图像融合技术根据信息表征层次的不同,由低到高可分为像素级图像融合、特征级图像融合和决策级图像融合。像素级图像融合是最基础的融合技术,是其他图像融合方法的理论基础。由于像素级图像融合对配准精度要求高以及其在源图像边缘、纹理等细节处理上的优势,受到了广大医学图像融合学者的研究和探索。本文所述的融合算法属于像素级领域。

(二)多模态图像融合常用方法

多模态图像融合技术按融合方法的不同可以分为基于空间域和基于变换域的图像融合。基于空间域的融合方法算法简单、计算复杂度小、效率高、实时性好,但其细节表现力不足,难以分辨图像中的清晰区域和边界特征;基于变换域的图像融合算法计算复杂度高,但对于图像的细节保留度高,与人类视觉感知具有良好的一致性,图像的显著特征能更好地表达。在对图像精度要求高的医学领域,常使用基于变换域的图像融合方法。

由于融合图像的多样性,不可能设计出一种适用于所有图像融合任务的通用方法,但是大部分的图像融合方法可以归纳为三个主要阶段:图像变换、融合变换系数和逆变换。最经典的变换域融合方法是基于多尺度变换(multi-scale transform,MST)理论的图像融合方法,图像融合框架如图1-2-9所示。其基本原理是,使用多尺度分解方法获得输入图像的多尺度表示,并根据特定的融合规则对不同图像的多尺度表示进行融合,得到融合后的多尺度表示,最后对融合后的图像进行多尺度逆变换,得到融合后的图像。其核心问题是多尺度分解方法的选择,以及用于多尺度表示的融合策略的选择。

图1-2-9 基于多尺度变换的多模态图像融合框架

在多模态图像融合技术中,最常用的多尺度分解方法是金字塔分解和小波变换,如拉普拉斯金字塔(Laplacian pyramid,LP)、离散小波变换(discrete wavelet transform,DWT)和双树复小波变换(dual-tree complex wavelet transform,DTCWT),但小波变换方法的一个共同局限是不能很好地表示图像中的曲线和边缘。轮廓波和剪切波等多尺度几何分析工具的应用,可以准确地表示图像中的空间结构。轮廓波是一种能够捕捉图像固有几何结构的曲线变换,是处理二维信号的较好方法,但由于轮廓波在转换过程中包含下采样过程,故其不具备移位不变属性。基于非下采样轮廓波变换(non-subsampled contourlet transform,NSCT)的方法可以解决这个问题,但需要花费更多的时间。此外,轮廓波中使用的方向滤波器组是固定的,故不能很好地表示具有多个不同方向的复杂空间结构。与轮廓波相比,剪切波具有更高的计算效率,并且对剪切方向的数量和支撑的尺寸没有限制。

为了提高融合质量,选择有效的融合策略至关重要。融合策略中最关键的问题之一是计算权重图,权重图集成了来自不同源的像素活动信息。在大多数现有的融合方法中,该目标通过活跃度测量和权重分配两个步骤来实现。然而,由于噪声、误配准和源图像像素强度之间的差异等因素,常常导致活跃度测量和权重分配方法通常不是很稳健。为了提高融合性能,很多学者提出了很多复杂的系数分解方法和精细的权重分配策略。然而,设计一个能够综合考虑融合的所有关键问题的理想活跃度测量或权重分配策略实际上并非易事,且两个步骤单独设计,导致很多融合方法之间没有很强关联性,极大地限制了算法性能。

卷积神经网络(convolutional neural network,CNN)是深度学习的代表算法之一,可通过学习网络参数以最佳方式共同实现活跃度测量和权重分配,以克服现有融合方法所面临的上述困难,设计稳健的活跃度测量和权重分配策略。

(三)基于卷积神经网络的多模态图像融合算法

在图像分类问题中,CNN是一个端到端框架体系结构,其中输入为源图像,输出为标签向量,表示每个类别的概率。在这两个端点之间,网络包含卷积层、池化层和全连接层。深度CNN由交替连接的卷积层和池化层以及全连接层组成。在图像融合系统中,卷积层和池化层通常被看作特征提取部分,存在于输出端的全连接层被看作分类部分。因此,利用CNN进行图像融合在理论上是可行的。具体来说,在基于CNN的多模态图像融合模型中,活跃度测量被称为特征提取任务,而权重分配问题类似于分类任务。

在CNN模型中,通过训练获得从源图像到权重图的直接映射,源图像同时进行特征提取和分类,学习的结果在一定程度上可以看成是最优解,比传统方法更具潜力。CNN的主要优势还在于它的深层架构,可以在多个抽象层提取有识别力的特征,特别是在网格状拓扑中。CNN权值共享策略可定位相似特征在图像中存在关联的位置,且降低了复杂度,用卷积代替乘法,减少了权重的数量。

在文献中,Liu等人提出了一种专门用于医学图像融合的深度学习策略,采用金字塔多尺度变换方法,使融合过程更符合人类视觉感知。此外,采用基于局部相似性度量的融合策略,对源图像的分解系数进行自适应调整。融合算法采用Siamese结构生成从源图像到包含完整像素活动信息的权重图的直接映射。其中,源图像分别输入到Siamese卷积网络的两个有相同的体系结构和权值的分支,每个分支由三个卷积层和一个最大池化层组成,然后通过级联方式融合两分支的特征映射,最后再通过两个全连接层。

文献中所提出的医学图像融合算法可以概括为以下四个步骤。

步骤1:生成基于CNN的权重图

将两个源图像AB分别输入卷积网络的两个分支,生成权重图W

步骤2:金字塔分解

将每个源图像分解成拉普拉斯金字塔。设L{A}l和L{B}l分别表示AB的金字塔,其中l表示第l级分解。将权重图W分解为高斯金字塔G{W}l。每个金字塔的总分解级别最大值设置为log2min(HW,其中H×W表示源图像的空间大小,·表示向下取整操作。

步骤3:系数融合

对于每个分解级别l,分别计算L{A}lL{B}l的局部能量图(小窗口内系数平方和)。

用于融合模式确定的相似性度量计算为:

该度量范围为[-1,1],且其值越靠近1表示相似性越高。设置阈值t来确定要使用的融合模式。若Mlxy)≥t,则采用基于权重图W的加权平均融合方式:

Mlxy)<t,通过比较式中的局部能量选择融合方式:

融合策略可以总结为的一个整体,如下式所示:

步骤4:拉普拉斯金字塔重建

从拉普拉斯金字塔L{F}l重建融合图像F

文中为验证所提算法的有效性,将对医学图像进行实验,并采用医学图像融合中常用的五个客观融合指标进行定量评价,分别是融合图像的信息熵(En)、特征互信息(FMI)、基于Xydeas-Petrovic的梯度度量QG、基于Piella-Heijmans的相似性度量QE和视觉信息保真度融合度量(VIFF)。这些指标的得分越高,表示融合性能越好。

此外,文中对比分析了三种最新的医学图像融合算法,分别是基于相位一致性和方向对比度的非下采样轮廓波变换(NSCT-PCDC)方法、基于稀疏表示的同时正交匹配跟踪(SP-SOMP)方法和基于引导滤波(GF)的方法。实验中,所提融合方法通过不同设置对比视觉体验和客观指标,将阈值t的参数设置为0 6,其他三种融合算法的参数分别设置为其默认值。

文中仿真分析了三对多模态医学图像的不同方法的融合结果。可以看出,NSCT-PCDC方法可以从源图像中提取足够的空间细节,但是融合图像中存在不期望出现的伪影,一定程度上降低了视觉感知;SR-SOMP方法可以很好地防止视觉伪影出现,但往往会丢失源图像中包含的能量,导致融合图像中某些区域的亮度和对比度降低;GF方法的主要缺陷是其保留细节的能力有限,可以观察到融合图像中源图像的许多小细节是模糊的;所提算法在细节和能量保存方面都很好,且不会引入视觉伪像。

此外,文献中还列出了不同融合方法的客观评价指标结果,每个评价指标值为超过8对源图像的平均得分。可以发现,所提算法除了QG外,所有指标都优于其他三种方法,所提算法在QG上的表现仅次于GF算法,优势明显。

文章的最后还计算了融合方法的计算效率,结果表明所提算法通过GPU计算加速的C++版本用时不到0 1秒完成融合,展示了该算法的实际应用潜力,可用于实时医疗辅助系统中的多模态图像融合中。

目前医学图像融合算法的方法论创新还比较有限,在医学领域训练CNN也存在诸多挑战,主要原因是训练数据注释量大,专家注释昂贵,难以满足。迁移学习通过有效地将知识从源域传输到目标域,而不依赖于非常大的数据集,从而解决训练数据注释量大的问题。迁移学习属于机器学习的一种,将成熟的知识应用到其他的场景中,且训练过程不需要随机初始化,用预先训练参数可以加快学习过程。

文献中介绍了一种基于非下采样剪切波变换(non-subsampling shearlet transform,NSST)和卷积神经网络的CT和MRI医学图像融合方法,通过从自然数据中学习的预训练架构初始化卷积神经网络,以一种迁移学习的方式用医学图像训练CNN模型,算法流程图如图1-2-10所示。融合过程分三步进行:首先,利用NSST进行尺度分解和方向分解,将输入图像分解为低频子带和高频子带;然后,通过应用局部能量融合规则来组合低频系数,同时将高频子带馈送到CNN提取部分,提取相似的特征图,并且计算加权归一化互相关以融合各个子带;最后,针对融合系数执行NSST的逆变换,获得融合后的图像。

图1-2-10 文献中图像融合算法框图

文中将多模态融合任务建模为一个相似性度量学习问题,融合过程的活跃度是相对于相似性度量来执行的。CNN的整体架构采用完全卷积的Siamese结构。完全卷积的体系结构中,卷积层和最大池化层构成特征提取部分,决策层为相似性度量学习部分;Siamese结构中,相同权重的两个分支解释了输入子带的相同活跃度测量。对于每个分支,将一个剪切波系数的图像块输入到拥有64个大小为3×3的滤波器的第一个卷积层(C1)(为了不丢失剪切波的负值系数,所有卷积层都不进行线性整流函数激活),得到64个特征图,再由大小为2×2的最大池化层(M1)下采样(步长设置为2,增加输入畸变的不变性);第二个卷积层(C2)有128个大小为3×3×64的过滤器,最大池化层(M2)的大小为2×2,步长为2,使卷积输出对剪切波变换产生的局部平移更加健壮;最后一层为包含256个大小为3×3×128的滤波器的卷积层和大小为2×2、步长为2的最大池化层。与CNN串联的部分处理相似性度量学习。根据特征之间的相似性度量进行迁移学习,目的是学习特征之间的映射。在度量学习过程中,相似性度量评分被馈送到逻辑损失层,该逻辑损失层用作优化网络参数的目标函数,并利用随机梯度下降法使损失函数的最小化。

文中分别从两个角度对所提算法进行了实验对比。第一个实验对比了深度学习与变换域的浅层学习的优势,将所提算法与三种融合技术进行了比较,分别是:具有神经模糊的非下采样剪切波(NSST-NF)、剪切波域中的脉冲神经网络(NSSTSNN)和剪切波系数的脉冲耦合神经网络(NSSTMAX-SF-PCNN)。文中对预注册的CT和MRI图像进行了多次实验。视觉结果显示,与其他方案相比,所提方案在边界和平滑过渡区域拥有更好的质量。此外,一些客观评价也支持了视觉感知评估结果,文中列出了两个数据集在不同融合方法下的性能测量,可以看出所提算法与NSST-SNN和NSSTMAX-SF-PCNN方法相比,MI、SF和IQI指标得到了改进,且在对间隙较大的第二幅图像进行融合时,得到了最佳的STD,表明所提算法拥有更好的对比度。实验所用训练和测试数据集来源于哈佛医学院发布的包含注册CT和MRI图像的大脑图像数据集。

为了进一步评估所提算法的性能,第二个实验将所提算法与预训练好的CNN融合方法(CNNMF)进行比较。文中显示了六个预注册CT和MRI图像的视觉融合结果,可以看见所提算法的融合图像包含更多的边缘信息,说明迁移学习增强了融合结果的影响。此外,通过评估指标结果可以看出,所提方法拥有较高的SSIM值,说明相似性学习增强了CNN对融合过程的影响;MI值说明所提算法图像融合结果保留了更多信息;QCB说明所提算法在视觉人类感知方面提供了最佳的融合性能,符合视觉实验仿真结果。

视觉分析和客观评估证明,文献中所提出的深层架构在主观和客观评估方面提供了最先进的性能。但所提方法的平均运行速度较慢,复杂度较传统方法高,耗时较长,不适合用于实时辅助诊断系统。此外,迁移学习需要更多的医学实况数据,且转移学习对剪切域医学成像和相似性学习对融合过程都有一定的影响。

医学融合方法的设计既需要医学领域的知识,又需要算法的洞察力。目前医学图像融合算法的方法论创新还比较有限,大部分医学图像融合算法都是来源于已有的图像融合研究,具有挑战性的任务仍然是针对特定临床问题的特征处理、特征提取和决策算法的正确组合。

除了融合方法外,融合方法性能的客观评价也是一个具有挑战性的难题。这些融合质量指标一般分为两大类:第一类基于人类视觉的感知功能,侧重于更精确地测量参考图像与融合图像之间的差值;第二类侧重于测量融合图像中出现的互补信息(包括互补的空间结构、全局对比度等)和视觉伪影(包括边缘、颜色伪影等)。此外,在不同的应用中,选择最优的融合质量指标还应考虑实际应用的需要。由于图像噪声、图像间分辨率的差异等原因,在图像融合和目标融合性能评价方面仍存在许多挑战。