针对结肠息肉图像分割时空间归纳偏差和全局上下文信息的有效表示缺失,导致边缘细节信息丢失和病变区域误分割等问题,提出一种融合Transformer和跨级相位感知的结肠息肉分割方法。该方法一是从变换的全局特征角度出发,运用分层Transformer编码器逐层提取病变区域的语义信息和空间细节;二是通过相位感知融合模块(PAFM)捕获各阶段跨层次交互信息,有效聚合多尺度上下文信息;三是设计位置导向功能模块(POF)有效整合全局与局部特征信息,填补语义空白,抑制背景噪声;四是利用残差轴反向注意力模块(RA-IA)来提升网络对边缘像素点的识别能力。在公共数据集CVC-ClinicDB、Kvasir、CVC-ColonDB和EITS上进行实验测试,其Dice相似性系数分别为94.04%、92.04%、80.78%和76.80%,平均交并比分别为89.31%、86.81%、73.55%和69.10%。仿真实验结果表明,本文提出的方法能有效地分割结肠息肉图像,为结直肠息肉的诊断提供了新窗口。
引用本文: 梁礼明, 何安军, 朱晨锟, 盛校棋. 融合Transformer和跨级相位感知的结肠息肉分割方法. 生物医学工程学杂志, 2023, 40(2): 234-243. doi: 10.7507/1001-5515.202211067 复制
0 引言
结肠癌是世界上最常见和最致命的恶性肿瘤之一,其中腺癌性息肉是诱发结肠癌的关键因素之一。由于病变区域在形状、大小和纹理上质地各异,当下结肠息肉专科医生主要通过结肠镜来定位结肠病变区域。因此,临床上迫切需要一种能够自动识别和准确分割的方法,以提升临床医生的诊断效率[1]。
目前针对结肠息肉的分割方法主要分为两大类:① 基于区域生长、阈值图像和主动轮廓模型等传统分割方法[2-5];② 基于深度学习的方法[6]。由于结肠息肉与周围组织对比度低,形状结构复杂多变,传统学习方法难以生成高精度的预测结果。近年来,许多基于卷积神经网络(convolutional neural network,CNN)的结肠息肉分割方法被提出,CNN编码器通过不断堆叠卷积和下采样操作逐步提取图像的上下文信息,解码器用于重构分割预测结果。Poudel等[7]首先通过聚合金字塔结构的U-Net编码器来生成多尺度全局上下文依赖关系,然后利用注意力机制来校准编码器中的全局信息,实现了细胞核和息肉的自动分割。最近,许多基于Transformer的网络应用于视觉任务,以捕获远程依赖关系,获得较高的预测分割结果。Dosovitskiy等[8]提出ViT,首次将Transformer结构应用于图像分类任务。Chen等[9]结合Transformer和CNN的优点提出TransUNet,应用于多器官和心脏分割等不同的医学领域,在实际的分割工作中取得较好的效果,但其计算量大,计算复杂度较高。Dong等[10]提出Polyp-PVT,该方法采用金字塔Transformer作为网络编码器进行特征提取,使模型能够在不同的子空间中探索丰富的语义信息和空间细节,并设计相似性聚合模块和级联融合模块进一步挖掘局部像素,在结肠息肉分割中获得较好的分割结果。Gao等[11]提出一种有效的自注意力机制和相对位置编码结构去捕获不同尺度上的远程依赖关系,并应用到编码器解码器网络中,在多标签、多供应商的心脏磁共振成像队列中获得较好的结果。上述方法主要是通过改进U-Net来提升结肠息肉的分割精度,但是单纯地以CNN为基础构成的U形网络不足以学习全局语义信息和远程语义信息,难以对特征信息进行长期交互。受到自然语言的启发,将Tansformer结构应用于视觉领域,可以取得较好的效果,但仅利用Transformer结构在局部信息建模中易缺乏空间归纳偏差,导致捕捉细节能力受限。
针对上述方法的不足,本文提出一种融合Transformer和跨级相位感知的结肠息肉分割方法。该方法引用SegFormer网络[12]中的分层编码器重塑图像结构,缩短远距离特征间距,提取图像的语义信息和空间细节。为了适应空间归纳偏差和全局上下文的有效表示,一是设计位置导向功能(position oriented function,POF)模块来过滤背景噪声,进行空间细节整合;二是引入相位感知融合模块(phase-aware fusion module,PAFM),对不同阶段特征图赋予不同相位和振幅,并根据不同相位差和振幅进行智能融合;三是设计残差轴反向注意力模块(residual axis inverse attention module,RA-IA),利用轴向注意力机制对特征图中相互依赖的局部细节进行强化,并用反向注意力机制提升网络对边缘像素的划分能力。
1 算法描述
结肠息肉图像中病灶区域形态结构复杂以及边界模糊等复杂特性,导致在进行结肠息肉图像分割时存在边缘细节信息丢失和病灶区域错分割的问题。为解决以上难点,本文提出一种融合Transformer和跨级相位感知(transformer and cross-level phase awareness fusion,TCPA-Net)的编解码网络用于结肠息肉分割,其结构如图1所示。网络主要包括4个模块,即:Transformer编码器、PAFM、POF和RA-IA。其中编码器采用ADE20K[13]数据集上预训练的MiT-B3网络模型,有效建立远距离特征依赖关系,提取结肠息肉图像的空间细节和深层语义特征。PAFM通过为不同阶段的特征图赋予不同的相位和振幅,动态调制各特征图间的权值关系,以自适应的方式进行特征加权融合。POF用于补充编码部分浅层网络与深层网络之间的语义空白。RA-IA利用轴向注意力机制和反向注意力机制来提高模型的微观表示和边界信息的识别能力。
1.1 Mix Transformer
SegFormer是一个简单而高效强大的语义分割框架,将Transformer和多层感知器编码结合起来。与Vision Transformer(ViT)相比,它是一种新型的无位置编码的分层Transformer编码器。采用无位置编码的方式,可以有效避免当测试分辨率与训练分辨率不同而带来的性能误差。其次,分层Transformer编码器能够生成高分辨率精细特征和低分辨率的粗特征,而ViT结构生成的特征图分辨率低且单一,易导致局部信息丢失。分层Transformer编码器由高效自注意力(efficient self-attention)层、混合前馈网络(mix feedforward network,Mix-FFN)层和重叠压缩合并层(overlapped patch merging,OPM)构成。
自注意力层通过图像形状的重塑,缩短远距离依赖特征间距,使网络过滤非语义信息,捕捉图像空间细节特征。其结构如图2所示,自注意力模块的输入接受三个相同维度的输入矩阵,即查询矩阵Q、键矩阵K和值矩阵V。该自注意模块计算式为:
其中,注意力矩阵A中的行元素对应于Q中给定元素相对于K中所有元素的相似度;Q、K、V表示图2中特征图X的不同学习嵌入。位置编码嵌入到输入特征图中可有效地捕获息肉病变区域的相对位置和绝对位置。
位置编码嵌入高效自注意层能有效地建立图像上下文联系。当测试分辨率与训练分辨率不同时,图像通过采样的方式来保持分辨率一致,采样操作会导致细节信息丢失,最终影响分割性能。为了抑制零填充对泄漏位置信息的影响,本文在高效注意力层后面引入混合前馈网络。混合前馈网络使用3 × 3的卷积为分层Transformer提供位置信息。其计算式为:
其中, 表示高效自注意层的输出;M表示多层感知器;GU表示GELU激活函数。Conv3×3表示3×3的标准卷积。
重叠压缩合并层将给定输入 的图像转化为 的图像,用于改变图像分辨率和通道数,保留稳定的空间细节特征,减少冗余信息。基于以上思想,Xie等[12]提出了6种不同的Mix Transformer编码器,即MiT-B0到MiT-B5。6种Mix Transformer编码器具有相同的架构,只是大小不同,综合考量推理速度和测试精度,选用MiT-B3作为本文模型编码器。
1.2 位置导向功能模块
为了获得强大语义结构信息的表示和实现良好空间细节信息整合。文献[14]提出改进的DoubleUnet,在两个子网络的编解码部分都引入SE注意力模块,促使网络为每个通道赋予不同的学习权重,以增强特征学习的表征能力。文献[15]提出混合通道空间注意力模型,通过一系列的卷积、全局平均池化和全局最大池化等操作,聚焦特征图的病变区域,从而提升模型微观表达能力。本文提出POF通过跨通道交互的方式来挖掘不同特征图之间的关键信息,并为之分配合适的学习权重。算法的伪代码表示为:
Position Oriented Function Module Inputs: The input features map of the two branches features of and , i = 2,3,4 Output: 1: = Interpolate(, )/*Matching the size of feature maps between and */ 2: = Add(*, )/*Concatenate the feature map of and */ 3: = Conv3 × 3()/*3 × 3 convolution operation*/ 4: = Avgpool(β)/*avg-pool*/ 5: = Conv1d()/*1 × 1 convolution operation*/ 6: ()/*After sigmoid, the feature map becomes 7: = * + /*The feature map of sigmoid is multiplied with and then the original map add*/End
首先将来自PAFM编码路径的特征图 进行采样操作,使其大小与特征图 相匹配,然后进行矩阵乘法,引入残差结构来减少特征图之间的语义空白。对叠加后的特征图使用3 × 3的卷积操作,并对其全局平均池化,得到1 × 1 × C的权重值。考虑到全连接操作是捕获所有通道之间的依赖关系,突显出很高的复杂性,为了减少计算复杂度,本文设计一个一维卷积,该卷积只考虑每个通道的k个邻近像素来探索特征图之间的空间细节信息。接着使用Sigmoid函数将特征值压缩到0~1,经过一维卷积处理后的特征图与Sigmoid后的权重值相乘,最后使用1×1的标准卷积对病灶位置特征进行结构性补充。图3为POF示意图。POF具体表示为:
其中, 表示下采样, 表示3 × 3的卷积, 元素乘法, 元素加法。 表示1 × 1的卷积; 表示卷积核大小为K的一维卷积,核大小可以自适应地设置 , 表示最近的奇数,C 表示 的通道数; 表示Sigmoid激活函数。
1.3 残差轴反向注意力模块
结肠息肉图像病变区域与正常组织高度一致,容易导致边缘像素点划分不准确。为了挖掘边缘信息,实现更加精准和完整的预测映射,Fan等[16]和Lou等[17]提出反向注意力模块和轴向注意力模块,有效地减少了目标边缘像素点的误分类。受到文献[16-17]的启发,结合反向注意力模块和轴向注意力模块的优点,文本引入RA-IA融合由粗网络到精网络的特征分布。图4为RA-IA的实现过程,其顶部的输入是来自POF的输出特征图。首先使用轴向注意力机制沿着高度和宽度轴分析显著性信息,并引入残差结构,加快网络收敛速度和防止梯度消失,然后使用反向操作来检测全局的显著性特征,使用元素相乘的方式重新对息肉边缘和位置信息进行信息校正。最后采用3 × 3卷积运算、BN和ReLU操作得到轮廓清晰、目标位置精准的特征图。该模块计算过程为:
其中, 表示RA-IA输出; 表示POF输出; 表示3 × 3的标准卷积, 表示轴向注意力。
1.4 相位感知融合模块
高分辨率特征图包含丰富的空间细节特征,能精准定位息肉位置。低分辨率特征图具有更加深层的语义信息,有利于识别息肉的外观细节。为了更好地调整不同阶段对目标区域权值的恢复以及减少由于采样操作而产生的语义空白,本文引入PAFM[18],动态调制不同阶段特征图之间的关系,以更恰当的方式进行聚合。在PAFM中,每张特征图被表示为具有振幅和相位信息的波,其波状表达式为:
其中,i满足 ; 表示绝对值操作; 元素乘法; 表示振幅每个特征图的实值特征; 是一个周期函数; 表示相位,即当前特征图的位置;对于振幅和相位均可表示在复数域中。
当融合不同的特征图信息时,相位项 会根据相位差赋予不同的权重值进行自适应聚合。假设特征图g和特征图h的波形表示为 和 ,聚合的结果可表示为 ,实验中 和 设置均为1。其振幅 和相位 满足的计算式如下:
其中, 表示双参数的反正切函数。
相位表示:为了分别捕获每个输入的特定属性,使用一个估计模块Θ根据输入特征生成相位信息,即
其中,、、 分别表示可学习参数。
振幅表示:为了更好地利用全局信息,采用点卷积操作为每个特征图进行图序列编码。给定输入 ,每个图序列标记 都是一个 d 维向量。特征图图序列编码可以表述为:
其中, 表示可学习参数权重。
PAFM如图5所示,采用波状表示方法为每张特征图赋予振幅和相位信息。由于每张特征图都被赋予不同的振幅和相位信息,在进行特征图融合时,会根据不同的相位差进行智能融合。PAFM具体操作为:对于给定输入频率 ,用信道全连接操作和相位估计模块为每张特征图分别生成振幅 和相位 。然后用式(6)展开波状标记,用式(9)聚合输出特征 ,最后的模块输出是通过与另一个信道全连接操作来进一步转换 ,以提高特征信息的复用率。
2 实验
本实验采用的所有模型均在操作系统Ubuntu16.04(Canonical Inc.,美国)上进行;建模基于深度学习架构Pytorch 1.5(Facebook Inc.,美国)和计算统一设备架构CUDA 10.1(Nvidia Inc.,美国)。计算机具体配置:显卡(Nvidia GeFore GTX2070 GPU,Nvidia Inc.,美国),中央处理器(Intel Core TM i7-6700H CPU,Inter Inc.,美国)。
2.1 数据集和实验设置
为了验证模型的适用性,采用4个公开的息肉图像数据库。包括CVC-ClinicDB[19]、Kvasir[20]、CVC-ColonDB[21]和EITS[22]。其中CVC-ClinicDB数据库是由医学图像计算机与计算机辅助干预国际会议于2015年发布,Kvasir数据库是由挪威奥斯陆大学医院内窥镜专家采集并标注,EITS数据库是由MIC-CAI息肉挑战赛于2017年发布,CVC-ColonDB数据库是从美国国立大学梅奥诊所结直肠镜检查中的15个简短视频中随机抽取生成。实验中训练集由未经过任何数据增强随机抽取的900张Kvasir图像和550张CVC-ClinicDB图像组成,测试集是由剩下100张Kvasir图像、62张CVC-ClinicDB图像和未可见数据集380张CVC-ColonDB图像、196张EITS图像组成。由于图像分辨率大小不一,为了方便训练和测试,本文将其调整为352 × 352。采用自适应矩估计优化器(adaptive moment estimation,Adam),损失函数采用二进制交叉熵损失函数和交并比损失函数为基础的联合损失,初始学习率设置为0.000 1,动量(momentum,Mom)设置为0.9,批量处理量设置为6,迭代次数设置为50,并使用多尺度训练策略{0.75,1,1.25}。
2.2 评价指标
本文采用Dice相似性系数、平均交并比(mean intersection over union,MIoU)、召回率(sensitivity,SE)、精确率(precision,PC)、F2得分和平均绝对误差(mean absolute error,MAE)来对结肠息肉的分割结果进行评估。其具体计算式分别为:
其中,X为预测输出图像,Y为专家标注的金标签图像,TP为预测结果中正确分类的前景像素数目,FN为预测结果中被错误分类为前景像素的数目,FP为预测结果中被错误分类为背景像素的数目,N为图像中的像素点数。
2.3 实验结果
2.3.1 不同方法对比
为了评估本文提出方法的分割性能,分别与U-Net、ResUnet[23]、PraNet、Polyp-PVT、SegFormer、SSFormer[24]方法进行对比,得到不同方法的各种量化指标,对比结果如表1所示,最优指标加粗表示。
表1给出了上述7种网络在Kvasir、CVC-ClinicDB、CVC-ColonDB和EITS数据集上的量化指标,综合对比可见本文网络TCPA-Net分割性能较优。TCPA-Net在Kvasir、CVC-ClinicDB和CVC-ColonDB数据集上Dice、MIoU和PC指标中均最优,在EITS数据集上MIoU指标获得最优,Dice和PC指标获得次优结果,SE和F2指标均获得较好的得分,相比于U-Net六个指标都有了较大的提升。TCPA-Net的MIoU分别为86.81%、89.31%、73.55%和69.10%,说明其预测分割结果更贴近真实标签;精确度揭示了正确分类病变像素与正确和错误分类病变像素之间的比率关系,TCPA-Net的PC分别为94.92%、93.67%、84.32%和75.38%,说明它对结肠病变区域像素划分能力最优。上述性能指标结果证明TCPA-Net相比其他网络分割性能更优,泛化性能更好。
表2给出了上述7种网络的模型参数性能,以Transformer为基础框架构成的网络SSFormer、SegFormer、Polyp-PVT和TCPA-Net在性能指标上明显高于U-Net和ResUnet。在一定程度上,Transformer结构会提升网络的参数量和降低推理速度。本文方法参数量为4.42 × 108,浮点运算为1.574 × 1011,单轮训练时长为280 s,相比于ResUnet,参数量有一定提升,但计算复杂度却大为降低,训练一轮时长相接近。本文方法在考虑计算复杂度的同时也兼顾模型的训练时间,其训练时间和计算复杂度达到对比网络的平均水平。
综合表1和图6~7可知,在四个数据集上基于Transformer结构的分割结果均优于基于CNN结构的U-Net和ResUNet,这是因为U-Net和ResUNet作为基础卷积神经网络对目标区域的特征重构能力不足,容易丢失空间细节特征。PraNet分割效果相对于U-Net和ResUNet更加精准,由于设计反向注意力机制来细化边缘特征,提高了分割精度,但该网络没有充分利用上下文特征,导致分割结果出现漏缺现象。SegFormer和SSFormer使用Transformer结构来缩短远距离特征间距,建立全局信息与局部信息的联系,来缓解上下文特征信息缺失问题,但仍有分割不完全的现象。相比之下,Polyp-PVT在解码部分设计相似性聚合模块来探索低层次语义信息和深层次局部细节信息的高阶关系,进一步优化了分割结果,但并没有突出全局信息在网络中的指导作用,在面临结肠息肉边缘模糊时,分割效果并不理想。本文提出的TCPA-Net网络,一方面通过Transformer结构来建立短距离和远距离的依赖关系,提取图像的语义信息和空间细节;另一方面,利用RA-IA来增强目标的边缘识别能力以及通过POF来进一步捕获病变区域的位置信息,充分利用了全局信息与局部信息的关联性,在努力分割不同尺度大小息肉的同时,可以避免误分割以及息肉内部漏缺现象,得到更加贴近金标准的分割结果,并在分割性能上有了一定的优化。
2.3.2 与其他先进方法对比
为了验证本文方法的优越性和泛化性,通过Dice和MIoU两个指标将本文方法与近年先进方法[25-30]进行定量对比,结果如表3所示,其中最优值加粗表示。在CVC-ClinicDB、CVC-ColonDB和EITS数据集上,本文方法的Dice和MIoU最优。在Kvasir数据集上,本文方法的Dice和MIoU获得次优的结果。总的来说,本文方法在四个数据集上均具有较好的分割性能。本文方法相比于文献[28]提出的SANet有了较大的提升,后者主要是通过设计边界分布生成模块来聚合高级特征,生成边界分布图用于补充解码器空间细节信息的丢失,并采用多尺度特征交互策略来改善不同大小的息肉分割。文献[30]的ConvMLPSeg网络以Conv-MLP作为网络编码器,使模型在不同的子空间中探索丰富的语义信息和空间细节并缩短远程依赖关系,与之相比本文方法在CVC-ClinicDB、CVC-ColonDB和EITS数据集上的Dice和MIoU更具优势。综合分析对比在四个数据集上的结果显示,本文提出的TCPA-Net整体较优,在抑制背景噪声和预测分割方面更具优势。
2.3.3 消融研究
为探究本文方法中各模块对整体分割性能的影响,本文在Kvasir和EITS数据集上进行了消融研究。M1将分层Transformer编码器和U型网络结合,不添加任何模块;M2在M1的基础上添加PAFM;M3在M2的基础上添加RA-IA;M4在M3的基础上添加POF,即本文所提TCPA-Net方法。消融实验结果如表4所示,最优值加粗表示。PAFM可互补高低层次特征图的语义空白,有效聚合多尺度上下文信息,提升网络MIoU值;POF和RA-IA对多尺度特征图进行空间细节信息整合和边缘像素点识别,提升了网络的Dice,在提高精度的同时能进一步权衡SE和PC。消融实验验证了本文所提模块的有效性和所提方法的合理性。
3 结论
本文提出融合Transformer和跨级相位感知网络用于结肠息肉分割,有效地解决了结肠息肉分割中边缘细节信息丢失和病变区域误分割等问题。网络首先利用分层Transformer编码器对结肠息肉图像进行粗粒度和细粒度特征提取,输出丰富的多尺度特征图。接着利用PAFM动态捕捉跨层次交互信息,减少不同阶段特征图的语义空白。其次,设计POF过滤背景噪声,整合空间细节特征。最后,引入RA-IA提升网络对边缘像素点的识别能力,减少边缘信息缺失的情况。在CVC-ClinicDB和Kvasir数据集上验证其有效性,其SE分别为95.01%和91.13%,F2得分分别为94.53%和91.32%。结果表明,本文方法分割性能优于现有方法,对结肠息肉的诊出具有一定的应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:梁礼明主要负责项目主持、平台搭建、算法程序设计、协调沟通以及计划安排;何安军主要负责实验流程、数据记录与分析、论文编写以及算法程序设计;朱晨锟和盛校棋主要负责提供实验指导、数据分析指导以及论文审阅修订。
0 引言
结肠癌是世界上最常见和最致命的恶性肿瘤之一,其中腺癌性息肉是诱发结肠癌的关键因素之一。由于病变区域在形状、大小和纹理上质地各异,当下结肠息肉专科医生主要通过结肠镜来定位结肠病变区域。因此,临床上迫切需要一种能够自动识别和准确分割的方法,以提升临床医生的诊断效率[1]。
目前针对结肠息肉的分割方法主要分为两大类:① 基于区域生长、阈值图像和主动轮廓模型等传统分割方法[2-5];② 基于深度学习的方法[6]。由于结肠息肉与周围组织对比度低,形状结构复杂多变,传统学习方法难以生成高精度的预测结果。近年来,许多基于卷积神经网络(convolutional neural network,CNN)的结肠息肉分割方法被提出,CNN编码器通过不断堆叠卷积和下采样操作逐步提取图像的上下文信息,解码器用于重构分割预测结果。Poudel等[7]首先通过聚合金字塔结构的U-Net编码器来生成多尺度全局上下文依赖关系,然后利用注意力机制来校准编码器中的全局信息,实现了细胞核和息肉的自动分割。最近,许多基于Transformer的网络应用于视觉任务,以捕获远程依赖关系,获得较高的预测分割结果。Dosovitskiy等[8]提出ViT,首次将Transformer结构应用于图像分类任务。Chen等[9]结合Transformer和CNN的优点提出TransUNet,应用于多器官和心脏分割等不同的医学领域,在实际的分割工作中取得较好的效果,但其计算量大,计算复杂度较高。Dong等[10]提出Polyp-PVT,该方法采用金字塔Transformer作为网络编码器进行特征提取,使模型能够在不同的子空间中探索丰富的语义信息和空间细节,并设计相似性聚合模块和级联融合模块进一步挖掘局部像素,在结肠息肉分割中获得较好的分割结果。Gao等[11]提出一种有效的自注意力机制和相对位置编码结构去捕获不同尺度上的远程依赖关系,并应用到编码器解码器网络中,在多标签、多供应商的心脏磁共振成像队列中获得较好的结果。上述方法主要是通过改进U-Net来提升结肠息肉的分割精度,但是单纯地以CNN为基础构成的U形网络不足以学习全局语义信息和远程语义信息,难以对特征信息进行长期交互。受到自然语言的启发,将Tansformer结构应用于视觉领域,可以取得较好的效果,但仅利用Transformer结构在局部信息建模中易缺乏空间归纳偏差,导致捕捉细节能力受限。
针对上述方法的不足,本文提出一种融合Transformer和跨级相位感知的结肠息肉分割方法。该方法引用SegFormer网络[12]中的分层编码器重塑图像结构,缩短远距离特征间距,提取图像的语义信息和空间细节。为了适应空间归纳偏差和全局上下文的有效表示,一是设计位置导向功能(position oriented function,POF)模块来过滤背景噪声,进行空间细节整合;二是引入相位感知融合模块(phase-aware fusion module,PAFM),对不同阶段特征图赋予不同相位和振幅,并根据不同相位差和振幅进行智能融合;三是设计残差轴反向注意力模块(residual axis inverse attention module,RA-IA),利用轴向注意力机制对特征图中相互依赖的局部细节进行强化,并用反向注意力机制提升网络对边缘像素的划分能力。
1 算法描述
结肠息肉图像中病灶区域形态结构复杂以及边界模糊等复杂特性,导致在进行结肠息肉图像分割时存在边缘细节信息丢失和病灶区域错分割的问题。为解决以上难点,本文提出一种融合Transformer和跨级相位感知(transformer and cross-level phase awareness fusion,TCPA-Net)的编解码网络用于结肠息肉分割,其结构如图1所示。网络主要包括4个模块,即:Transformer编码器、PAFM、POF和RA-IA。其中编码器采用ADE20K[13]数据集上预训练的MiT-B3网络模型,有效建立远距离特征依赖关系,提取结肠息肉图像的空间细节和深层语义特征。PAFM通过为不同阶段的特征图赋予不同的相位和振幅,动态调制各特征图间的权值关系,以自适应的方式进行特征加权融合。POF用于补充编码部分浅层网络与深层网络之间的语义空白。RA-IA利用轴向注意力机制和反向注意力机制来提高模型的微观表示和边界信息的识别能力。
1.1 Mix Transformer
SegFormer是一个简单而高效强大的语义分割框架,将Transformer和多层感知器编码结合起来。与Vision Transformer(ViT)相比,它是一种新型的无位置编码的分层Transformer编码器。采用无位置编码的方式,可以有效避免当测试分辨率与训练分辨率不同而带来的性能误差。其次,分层Transformer编码器能够生成高分辨率精细特征和低分辨率的粗特征,而ViT结构生成的特征图分辨率低且单一,易导致局部信息丢失。分层Transformer编码器由高效自注意力(efficient self-attention)层、混合前馈网络(mix feedforward network,Mix-FFN)层和重叠压缩合并层(overlapped patch merging,OPM)构成。
自注意力层通过图像形状的重塑,缩短远距离依赖特征间距,使网络过滤非语义信息,捕捉图像空间细节特征。其结构如图2所示,自注意力模块的输入接受三个相同维度的输入矩阵,即查询矩阵Q、键矩阵K和值矩阵V。该自注意模块计算式为:
其中,注意力矩阵A中的行元素对应于Q中给定元素相对于K中所有元素的相似度;Q、K、V表示图2中特征图X的不同学习嵌入。位置编码嵌入到输入特征图中可有效地捕获息肉病变区域的相对位置和绝对位置。
位置编码嵌入高效自注意层能有效地建立图像上下文联系。当测试分辨率与训练分辨率不同时,图像通过采样的方式来保持分辨率一致,采样操作会导致细节信息丢失,最终影响分割性能。为了抑制零填充对泄漏位置信息的影响,本文在高效注意力层后面引入混合前馈网络。混合前馈网络使用3 × 3的卷积为分层Transformer提供位置信息。其计算式为:
其中, 表示高效自注意层的输出;M表示多层感知器;GU表示GELU激活函数。Conv3×3表示3×3的标准卷积。
重叠压缩合并层将给定输入 的图像转化为 的图像,用于改变图像分辨率和通道数,保留稳定的空间细节特征,减少冗余信息。基于以上思想,Xie等[12]提出了6种不同的Mix Transformer编码器,即MiT-B0到MiT-B5。6种Mix Transformer编码器具有相同的架构,只是大小不同,综合考量推理速度和测试精度,选用MiT-B3作为本文模型编码器。
1.2 位置导向功能模块
为了获得强大语义结构信息的表示和实现良好空间细节信息整合。文献[14]提出改进的DoubleUnet,在两个子网络的编解码部分都引入SE注意力模块,促使网络为每个通道赋予不同的学习权重,以增强特征学习的表征能力。文献[15]提出混合通道空间注意力模型,通过一系列的卷积、全局平均池化和全局最大池化等操作,聚焦特征图的病变区域,从而提升模型微观表达能力。本文提出POF通过跨通道交互的方式来挖掘不同特征图之间的关键信息,并为之分配合适的学习权重。算法的伪代码表示为:
Position Oriented Function Module Inputs: The input features map of the two branches features of and , i = 2,3,4 Output: 1: = Interpolate(, )/*Matching the size of feature maps between and */ 2: = Add(*, )/*Concatenate the feature map of and */ 3: = Conv3 × 3()/*3 × 3 convolution operation*/ 4: = Avgpool(β)/*avg-pool*/ 5: = Conv1d()/*1 × 1 convolution operation*/ 6: ()/*After sigmoid, the feature map becomes 7: = * + /*The feature map of sigmoid is multiplied with and then the original map add*/End
首先将来自PAFM编码路径的特征图 进行采样操作,使其大小与特征图 相匹配,然后进行矩阵乘法,引入残差结构来减少特征图之间的语义空白。对叠加后的特征图使用3 × 3的卷积操作,并对其全局平均池化,得到1 × 1 × C的权重值。考虑到全连接操作是捕获所有通道之间的依赖关系,突显出很高的复杂性,为了减少计算复杂度,本文设计一个一维卷积,该卷积只考虑每个通道的k个邻近像素来探索特征图之间的空间细节信息。接着使用Sigmoid函数将特征值压缩到0~1,经过一维卷积处理后的特征图与Sigmoid后的权重值相乘,最后使用1×1的标准卷积对病灶位置特征进行结构性补充。图3为POF示意图。POF具体表示为:
其中, 表示下采样, 表示3 × 3的卷积, 元素乘法, 元素加法。 表示1 × 1的卷积; 表示卷积核大小为K的一维卷积,核大小可以自适应地设置 , 表示最近的奇数,C 表示 的通道数; 表示Sigmoid激活函数。
1.3 残差轴反向注意力模块
结肠息肉图像病变区域与正常组织高度一致,容易导致边缘像素点划分不准确。为了挖掘边缘信息,实现更加精准和完整的预测映射,Fan等[16]和Lou等[17]提出反向注意力模块和轴向注意力模块,有效地减少了目标边缘像素点的误分类。受到文献[16-17]的启发,结合反向注意力模块和轴向注意力模块的优点,文本引入RA-IA融合由粗网络到精网络的特征分布。图4为RA-IA的实现过程,其顶部的输入是来自POF的输出特征图。首先使用轴向注意力机制沿着高度和宽度轴分析显著性信息,并引入残差结构,加快网络收敛速度和防止梯度消失,然后使用反向操作来检测全局的显著性特征,使用元素相乘的方式重新对息肉边缘和位置信息进行信息校正。最后采用3 × 3卷积运算、BN和ReLU操作得到轮廓清晰、目标位置精准的特征图。该模块计算过程为:
其中, 表示RA-IA输出; 表示POF输出; 表示3 × 3的标准卷积, 表示轴向注意力。
1.4 相位感知融合模块
高分辨率特征图包含丰富的空间细节特征,能精准定位息肉位置。低分辨率特征图具有更加深层的语义信息,有利于识别息肉的外观细节。为了更好地调整不同阶段对目标区域权值的恢复以及减少由于采样操作而产生的语义空白,本文引入PAFM[18],动态调制不同阶段特征图之间的关系,以更恰当的方式进行聚合。在PAFM中,每张特征图被表示为具有振幅和相位信息的波,其波状表达式为:
其中,i满足 ; 表示绝对值操作; 元素乘法; 表示振幅每个特征图的实值特征; 是一个周期函数; 表示相位,即当前特征图的位置;对于振幅和相位均可表示在复数域中。
当融合不同的特征图信息时,相位项 会根据相位差赋予不同的权重值进行自适应聚合。假设特征图g和特征图h的波形表示为 和 ,聚合的结果可表示为 ,实验中 和 设置均为1。其振幅 和相位 满足的计算式如下:
其中, 表示双参数的反正切函数。
相位表示:为了分别捕获每个输入的特定属性,使用一个估计模块Θ根据输入特征生成相位信息,即
其中,、、 分别表示可学习参数。
振幅表示:为了更好地利用全局信息,采用点卷积操作为每个特征图进行图序列编码。给定输入 ,每个图序列标记 都是一个 d 维向量。特征图图序列编码可以表述为:
其中, 表示可学习参数权重。
PAFM如图5所示,采用波状表示方法为每张特征图赋予振幅和相位信息。由于每张特征图都被赋予不同的振幅和相位信息,在进行特征图融合时,会根据不同的相位差进行智能融合。PAFM具体操作为:对于给定输入频率 ,用信道全连接操作和相位估计模块为每张特征图分别生成振幅 和相位 。然后用式(6)展开波状标记,用式(9)聚合输出特征 ,最后的模块输出是通过与另一个信道全连接操作来进一步转换 ,以提高特征信息的复用率。
2 实验
本实验采用的所有模型均在操作系统Ubuntu16.04(Canonical Inc.,美国)上进行;建模基于深度学习架构Pytorch 1.5(Facebook Inc.,美国)和计算统一设备架构CUDA 10.1(Nvidia Inc.,美国)。计算机具体配置:显卡(Nvidia GeFore GTX2070 GPU,Nvidia Inc.,美国),中央处理器(Intel Core TM i7-6700H CPU,Inter Inc.,美国)。
2.1 数据集和实验设置
为了验证模型的适用性,采用4个公开的息肉图像数据库。包括CVC-ClinicDB[19]、Kvasir[20]、CVC-ColonDB[21]和EITS[22]。其中CVC-ClinicDB数据库是由医学图像计算机与计算机辅助干预国际会议于2015年发布,Kvasir数据库是由挪威奥斯陆大学医院内窥镜专家采集并标注,EITS数据库是由MIC-CAI息肉挑战赛于2017年发布,CVC-ColonDB数据库是从美国国立大学梅奥诊所结直肠镜检查中的15个简短视频中随机抽取生成。实验中训练集由未经过任何数据增强随机抽取的900张Kvasir图像和550张CVC-ClinicDB图像组成,测试集是由剩下100张Kvasir图像、62张CVC-ClinicDB图像和未可见数据集380张CVC-ColonDB图像、196张EITS图像组成。由于图像分辨率大小不一,为了方便训练和测试,本文将其调整为352 × 352。采用自适应矩估计优化器(adaptive moment estimation,Adam),损失函数采用二进制交叉熵损失函数和交并比损失函数为基础的联合损失,初始学习率设置为0.000 1,动量(momentum,Mom)设置为0.9,批量处理量设置为6,迭代次数设置为50,并使用多尺度训练策略{0.75,1,1.25}。
2.2 评价指标
本文采用Dice相似性系数、平均交并比(mean intersection over union,MIoU)、召回率(sensitivity,SE)、精确率(precision,PC)、F2得分和平均绝对误差(mean absolute error,MAE)来对结肠息肉的分割结果进行评估。其具体计算式分别为:
其中,X为预测输出图像,Y为专家标注的金标签图像,TP为预测结果中正确分类的前景像素数目,FN为预测结果中被错误分类为前景像素的数目,FP为预测结果中被错误分类为背景像素的数目,N为图像中的像素点数。
2.3 实验结果
2.3.1 不同方法对比
为了评估本文提出方法的分割性能,分别与U-Net、ResUnet[23]、PraNet、Polyp-PVT、SegFormer、SSFormer[24]方法进行对比,得到不同方法的各种量化指标,对比结果如表1所示,最优指标加粗表示。
表1给出了上述7种网络在Kvasir、CVC-ClinicDB、CVC-ColonDB和EITS数据集上的量化指标,综合对比可见本文网络TCPA-Net分割性能较优。TCPA-Net在Kvasir、CVC-ClinicDB和CVC-ColonDB数据集上Dice、MIoU和PC指标中均最优,在EITS数据集上MIoU指标获得最优,Dice和PC指标获得次优结果,SE和F2指标均获得较好的得分,相比于U-Net六个指标都有了较大的提升。TCPA-Net的MIoU分别为86.81%、89.31%、73.55%和69.10%,说明其预测分割结果更贴近真实标签;精确度揭示了正确分类病变像素与正确和错误分类病变像素之间的比率关系,TCPA-Net的PC分别为94.92%、93.67%、84.32%和75.38%,说明它对结肠病变区域像素划分能力最优。上述性能指标结果证明TCPA-Net相比其他网络分割性能更优,泛化性能更好。
表2给出了上述7种网络的模型参数性能,以Transformer为基础框架构成的网络SSFormer、SegFormer、Polyp-PVT和TCPA-Net在性能指标上明显高于U-Net和ResUnet。在一定程度上,Transformer结构会提升网络的参数量和降低推理速度。本文方法参数量为4.42 × 108,浮点运算为1.574 × 1011,单轮训练时长为280 s,相比于ResUnet,参数量有一定提升,但计算复杂度却大为降低,训练一轮时长相接近。本文方法在考虑计算复杂度的同时也兼顾模型的训练时间,其训练时间和计算复杂度达到对比网络的平均水平。
综合表1和图6~7可知,在四个数据集上基于Transformer结构的分割结果均优于基于CNN结构的U-Net和ResUNet,这是因为U-Net和ResUNet作为基础卷积神经网络对目标区域的特征重构能力不足,容易丢失空间细节特征。PraNet分割效果相对于U-Net和ResUNet更加精准,由于设计反向注意力机制来细化边缘特征,提高了分割精度,但该网络没有充分利用上下文特征,导致分割结果出现漏缺现象。SegFormer和SSFormer使用Transformer结构来缩短远距离特征间距,建立全局信息与局部信息的联系,来缓解上下文特征信息缺失问题,但仍有分割不完全的现象。相比之下,Polyp-PVT在解码部分设计相似性聚合模块来探索低层次语义信息和深层次局部细节信息的高阶关系,进一步优化了分割结果,但并没有突出全局信息在网络中的指导作用,在面临结肠息肉边缘模糊时,分割效果并不理想。本文提出的TCPA-Net网络,一方面通过Transformer结构来建立短距离和远距离的依赖关系,提取图像的语义信息和空间细节;另一方面,利用RA-IA来增强目标的边缘识别能力以及通过POF来进一步捕获病变区域的位置信息,充分利用了全局信息与局部信息的关联性,在努力分割不同尺度大小息肉的同时,可以避免误分割以及息肉内部漏缺现象,得到更加贴近金标准的分割结果,并在分割性能上有了一定的优化。
2.3.2 与其他先进方法对比
为了验证本文方法的优越性和泛化性,通过Dice和MIoU两个指标将本文方法与近年先进方法[25-30]进行定量对比,结果如表3所示,其中最优值加粗表示。在CVC-ClinicDB、CVC-ColonDB和EITS数据集上,本文方法的Dice和MIoU最优。在Kvasir数据集上,本文方法的Dice和MIoU获得次优的结果。总的来说,本文方法在四个数据集上均具有较好的分割性能。本文方法相比于文献[28]提出的SANet有了较大的提升,后者主要是通过设计边界分布生成模块来聚合高级特征,生成边界分布图用于补充解码器空间细节信息的丢失,并采用多尺度特征交互策略来改善不同大小的息肉分割。文献[30]的ConvMLPSeg网络以Conv-MLP作为网络编码器,使模型在不同的子空间中探索丰富的语义信息和空间细节并缩短远程依赖关系,与之相比本文方法在CVC-ClinicDB、CVC-ColonDB和EITS数据集上的Dice和MIoU更具优势。综合分析对比在四个数据集上的结果显示,本文提出的TCPA-Net整体较优,在抑制背景噪声和预测分割方面更具优势。
2.3.3 消融研究
为探究本文方法中各模块对整体分割性能的影响,本文在Kvasir和EITS数据集上进行了消融研究。M1将分层Transformer编码器和U型网络结合,不添加任何模块;M2在M1的基础上添加PAFM;M3在M2的基础上添加RA-IA;M4在M3的基础上添加POF,即本文所提TCPA-Net方法。消融实验结果如表4所示,最优值加粗表示。PAFM可互补高低层次特征图的语义空白,有效聚合多尺度上下文信息,提升网络MIoU值;POF和RA-IA对多尺度特征图进行空间细节信息整合和边缘像素点识别,提升了网络的Dice,在提高精度的同时能进一步权衡SE和PC。消融实验验证了本文所提模块的有效性和所提方法的合理性。
3 结论
本文提出融合Transformer和跨级相位感知网络用于结肠息肉分割,有效地解决了结肠息肉分割中边缘细节信息丢失和病变区域误分割等问题。网络首先利用分层Transformer编码器对结肠息肉图像进行粗粒度和细粒度特征提取,输出丰富的多尺度特征图。接着利用PAFM动态捕捉跨层次交互信息,减少不同阶段特征图的语义空白。其次,设计POF过滤背景噪声,整合空间细节特征。最后,引入RA-IA提升网络对边缘像素点的识别能力,减少边缘信息缺失的情况。在CVC-ClinicDB和Kvasir数据集上验证其有效性,其SE分别为95.01%和91.13%,F2得分分别为94.53%和91.32%。结果表明,本文方法分割性能优于现有方法,对结肠息肉的诊出具有一定的应用价值。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:梁礼明主要负责项目主持、平台搭建、算法程序设计、协调沟通以及计划安排;何安军主要负责实验流程、数据记录与分析、论文编写以及算法程序设计;朱晨锟和盛校棋主要负责提供实验指导、数据分析指导以及论文审阅修订。