融合坐标感知与混合提取的视网膜病变分级算法

时间:2024-09-23 09:00:17 来源:网友投稿

梁礼明,金家新,冯 耀,卢宝贺

江西理工大学电气工程与自动化学院,江西 赣州 341000

糖尿病视网膜病变(Diabetic retinopathy,DR)是一种由糖尿病所引发的眼部疾病,患者长期处在高血糖环境下,非常容易损伤视网膜,如未能及时发现疾病并进行治疗则易造成失明,如及时治疗则有很大概率能保住视力。在临床实践中,糖尿病视网膜病变诊断,这一过程非常耗时需要训练有素和经验丰富的眼科医生来进行判别,诊断的精度需要经济、时间成本和相应的医疗资源。此外,当前患糖尿病的人群正在逐年递增,而具有专业眼科经验医生人数严重不足。因此将计算机用于DR 智能诊断,提高诊断效率和准确度的需求显得尤为迫切[1-2]。

近年来,深度学习技术逐渐成为主流[3],使得卷积神经网络(convolutional neural network,CNN)在DR 智能诊断方面得到广泛应用,但对于当前的视网膜病变分级仍存在不足之处:①由于本文研究对象视网膜本身情况较为复杂且病灶区域与微血管瘤等周围环境差异较少,病变特征提取困难。②受糖尿病病变阶段和可治愈性的影响,导致患者处在不同病变阶段的数量不一致,使其数据集的样本分布不平衡。针对上述问题,国内外众多学者进行大量研究,如He 等[4]构建一种CABNet 网络,由新类别的注意力(category attention block,CAB)探索DR 各类别的区域特征以捕捉更细小的病变信息,从而缓解特征提取不足情况。Ashwini 等[5]设计一种基于离散小波变换多分辨分解的特征提取方法,先对图像使用自适应直方图均衡化预处理方式,然后利用过采样去确保各类别样本数量相等。Zhou 等[6]采用一种多任务学习策略,该策略通过分类和回归损失来预测标签,同时又通过均方差损失函数去减少预测值与实际值的差异,但也存在训练时间较长的问题。Shi 等[7]使用迁移学习技术学习多个数据集的特征信息,从而使模型获得充足的特征信息,强DR 分级效率,同时提出一种类平衡损失函数,缓解数据集样本不平衡问题。Shaik 等[8]利用预训练的卷积学习视网膜的图像空间表征,此外还利用卷积自编码器和神经支持向量机进行端对端训练,从而获得基于类别病灶特征的潜在注意力特征。张文轩等[9]通过多分支注意力增强机制的卷积神经网络,利用局部响应图来反映关注目标局部位置,能够反映存在不同位置的权重,将会使局部特征较为敏感,此外注意力机制还可以对所需位置进行针对性强化,使该网络能够准确定位病灶区域。程小辉等[10]构建的一种注意力网络ME-ANet,通过模型融合进行特征提取,应用迁移学习的方式训练模型从而减少训练时间,但模型的结构较为复杂,存在可优化空间。针对视网膜病变分级当前面临的技术局限问题,本文提出一种融合坐标感知与混合提取的视网膜病变分级网络,其改进工作主要有:①采用Res2Net-50 和Densenet-121 作为骨干网络共同构成混合双模型(mixed dual model,MDM)进行逐层特征提取图像的语义信息和空间细节信息,并利用两个模型不同的特征提取方式进行优势互补,提升算法的鲁棒性和泛化性。②多层坐标感知模块(Multi-layer coordinate sensing module,MCSM)通过全局和局部两种方式获得深层语义信息与细节边缘信息,同时还利用残差结构捕捉浅层语义信息,进一步完善病变区域特征信息。③利用焦点损失(focal loss,FL)和交叉熵损失函数组成的组合损失函数来抑制样本不平衡而造成的模型性能问题,弱化因样本引起视网膜病变分级准确率不高,改善DR 分级效果。

视网膜病变分级相对于其他细粒度图像分类问题较为困难,因公开的数据集中存在样本分布不均匀、类间差异小和图像噪声干扰较大的问题。本文设计出一种融合坐标感知与混合提取的视网膜病变分级,其主要由图像预处理、混合双模型(MDM)、多层坐标感知模块(MCSM)、注意力特征融合模块(attentional feature fusion module,AFFM)、组合损失函数共同组成整体网络,其中GAP 与Avg pooling 为全局平均池化、ReLU 和Sigmoid 为激活函数、Point-wise Conv为逐点卷积,如图1 所示。在进行特征提取之前对本文所采用的两个数据集进行预处理改变其分辨率的大小,首先通过混合双模型进行特征提取获得丰富的语义信息,选择最后三层的尺度特征图大小为512×56×56、1024×28×28和 2048×14×14;
其次利用MCSM 对所输出的多种尺度信息进一步挖掘潜在特征,提高特征识别的效率,增强图片处理速率;
再次通过卷积操作使通道数一致化,分别为512×56×56、512×28×28和 512×14×14,进一步利用AFFM 将不同尺度特征图X与Y特征融合处理,其结果特征图为Z,输出多尺度特征图共同构成完整的图像信息,增强病灶区域特征的识别效率,加快模型训练速度;
最后通过组合损失函数进一步缓解类间差异情况

图1 算法整体框架Fig.1 The overall framework of the algorithm

2.1 混合双模型

针对视网膜病变分级中存在病灶区域与背景区域特征相差较小而造成的特征提取困难问题,本文提出的混合双模型,该模型主要由Res2Net-50[11]和Densenet-121[12]组成用于提取病灶信息,相较于单个模型具有较高的分类精度。Res2Net-50 采用跳跃连接方式,通过残差块有利于输入信息和处理后信息的再次处理,从而降低需要学习的目标难度且能够捕捉到图像中细节和上下文信息、减少模型的冗余。Densenet-121 能利用密集连接将特征图进行拼接促进信息的流动和减轻梯度消失问题,同时还能防止图像信息的丢失。残差网络和密集网络共同组成的混合模型能增强特征提取能力并进一步改善算法模型的性能,将获取更全面的图像全局和局部信息,其模型的结构如图2所示。Res2Net-50 和Densenet-121 拥有相同的阶段,但两者的不同阶段所蕴含特征信息不一致,其每个阶段的输入信息表达式分别为:

图2 混合双模型Fig.2 The hybrid dual model

其中:n∈(1,2,3,4),Xn(R)是Res2Net-50 输入特征,Xn(D)是Densenet-121 输入特征,H1(•)表示非线性转化函数。

本文所需提取最后三个阶段特征图大小一致,但其通道数还是存在差别,为使两者的特征信息进行融合处理,将Densenet-121 的最后一层的通道数通过Conv 1×1从1024 转为2048,最后输出三个不同的特征图大小。

2.2 多层坐标感知模块

由于视网膜图像周围存在的微血管瘤、黄白色硬性渗出或有少量的出血斑等细小病变特征,与正常区域对比差异不明显,单层的特征学习对信息特征提取可能存在不足之处,导致视网膜病变分级的效果不佳。为捕获更完整的信息,得到较高的视网膜分级准确率,从而设计一种多层坐标感知模块(MCSM),使模型更准确地定位并识别病灶区域。MCSM 主要由坐标注意力模块[13](coordinate attention module,CAM)、多层感知机(multilayer perceptron,MLP)和残差连接结构三部分组成,其整体结构如图3 所示。为加快模型训练的收敛速度而加入BN (batch normalization),而后CAM 是一种嵌入位置信息注意力,能够获得较大的区域信息且运行参数较少,同时为避免2D 全局平均池化造成的信息损失,设计两个1D 全局平均池化分别对水平方向和垂直方向的输入特征处理聚合生成两个独立的方向特征图f,水平方向的池化核为(H,1),垂直方向的池化核是(1,W),C维特征输出分别为:

图3 多层坐标感知模块Fig.3 The multi -layer coordinate perception module

其中:F1是变换函数,特征图f∈RC/r×(H×W),r为缩减比,δ 是一个非线性激活函数。

同时将存在特定信息特征图编码生成两个注意力图分别为gh、gw,从而获取两个不同的空间信息,其中一个空间方向能够捕获与特征图之间的跨通道信息,则另一个空间方向将获得准确的位置信息,使注意力图能够同时获取方向感知和位置坐标的深层语义信息,同时残差连接又能从输入特征获取浅层语义信息,最终通过融合进一步处理生成具有丰富语义信息的特征注意力图,即表达式为:

其中:fh∈RC/r×H,fw∈RC/r×W,σ是sigmoid,xc(i,j)输入特征,yc(i,j)输出特征,Fh、Fw将fh、fw的通道张量转换成与输入值一致。

为排除与病灶不相关的干扰信息,利用第一个全连接层与激活函数进行线性变换和非线性变换,其后dropout 层则丢弃部分隐藏特征信息,而第二个全连接层将隐藏特征映射回输入特征,最后通过一个残差连接将弱化非病变特征信息和输入特征信息进行聚合处理,进一步聚焦病灶区域特征。

2.3 注意力特征融合模块

为捕获和聚合不同尺度特征图的局部细节信息和全局信息且能自适应不同大小和位置的病灶区域识别。本文引入了注意力特征融合模块(AFFM)[14]融合多层坐标感知模块输出的多种尺度信息,该模块主要由全局和局部两部分组成,其结构如图1 中AFFM 所示。AFFM 中的输入特征X和Y来自两个不同的特征图。在全局方向上利用全局平均池化对空间池进行调整,以实现多个尺度的通道关注。此外,为控制整体网络的运行参数,将注意力添加到上下文当中,随后通过逐点卷积把上下文聚合在一起。在局部方向则只能实现特定通道的关注,同时利用逐点卷积将上下文信息联会贯通。将经过全局和局部的输入特征通过聚合处理,最后经过sigmoid 函数对权重进行再次分配,并利用跳跃连接与初始输入特征进行融合处理,其表达式为:

其中:Z∈RC×H×W是输出特征,X、Y∈RC×H×W是输入特征,⊕初始特征积分,M为sigmoid 函数,X⊕Y是输入sigmoid 函数的值。

2.4 组合损失函数

公开的DR 数据集是来自糖尿病患者的视网膜图像,根据患者处在糖尿病的阶段不同可分为五个等级,而糖尿病阶段不同也造成可被治愈程度不一致,导致各个类别存在较大的差异。为解决各类别之间样本不均匀情况,本文提出的组合损失函数由焦点损失函数[15]和交叉熵损失函数[16]共同构成,焦点损失函数能够通过一个动态缩放因子,在易被识别的正确样本时缩放因子就会下降到一个较低值,相反遇到较难辩别的样本时就会聚焦此样本,同时影响因子会上升到一个较高值,两种损失函数的表达式分别为:

其中:v是加权误差调制系数,pt是标签预测概率,t表示样本类别,yi,k表示第i个样本的真实标签为k,共有k个标签值的N个样本,pi,k表示第i个样本预测为第k个标签值的概率。最后,将所使用的焦点损失和交叉熵损失函数进行加权求和,其计算式如下:

其中,α为超参数设置为0.002。

3.1 实验环境和参数配置

本文所使用设备信息CPU 为12th Gen Intel(R)Core(TM) i7-12700H,GPU 为NVIDIA RTX4060,16 G运行内存,操作系统是Windows11,基于Python3.9框架建模,Pycharm 的仿真平台。其学习率设为0.002、batch-size 为4、epoch 为150 轮。在 IDRI D数据集实验中平均一轮的训练时间为45 秒/轮,测试时间为11 秒/轮。在APTOS 2019 数据集实验中平均一轮的训练时间为2 分30 秒/轮,测试时间为15 秒/轮。

3.2 数据的来源和处理

本文使用“印度糖尿病视网膜病变图像(Indian DR image dataset,IDRID)数据集”,该数据集拥有不同等级的眼底图像一共516 张,其图像的分辨率为4288×4288,将分辨率进行适当的调整,改为512×512。由于当前数据集所含有的图像数量较少,其实验结果对于本文的模型解释性不够充分,因此还采用“亚太远程眼科学会2019 年失明检测(Asia Pacific Tele-Ophthalmology Society 2019 Blindness Detection,APTOS 2019 BD)”数据集来增强模型的解释性,其数据集含有3662 张眼底图像,图像分辨率为224×224,并通过上采样操作转变成256×256。对本文IDRID 和APTOS 2019 数据集的眼底图像将分为训练集和测试集,统一按8: 2 进行划分。根据当前国际医疗领域的评判标准将糖尿病视网膜病变按照不同等级可划分为5 类[17],即为无糖尿病(DR: 0)、轻度非增殖性(DR: 1)、中度非增殖性(DR: 2)、重度非增殖性(DR: 3)和增殖性(DR: 4)。在本文所使用的两个数据集中,存在病变区域和图像背景对比度差异不明显的情况,因此需要进行预处理操作,先对原始图像RGB 通道统一为灰度化操作能在一定程度上加快运算速度,后利用高斯滤波和加权融合处理去除图像噪声,进一步增强病变区域和图像背景的对比度,突出对比的差异性。其表达式分别为:

其中:α、β和 ε是加权系数,本文分别设为4、-4和128;
Gσ是标准差;
σ 是二维高斯核;
*是滤波操作;
Id是加权融合操作后的图像。此外,IDRID 与APTOS 2019 数据集相比较样本数量较少,可能会出现过拟合现象,所以对该数据集进行水平、垂直翻转和镜像翻转、几何变换等操作来数据增强避免出现过拟合。其预处理图像前后如图4 所示。

图4 不同DR 分级图像预处理对比。(a)原始图像;
(b)预处理后图像Fig.4 Different DR hierarchical images pre -processing comparison.(a) Primitive images;(b) Pre-processing images

3.3 评价指标

为体现IDRID 和APTOS 2019 数据集在算法上的表现效果,同时能够对其它算法进行比较,本文在IDRID 数据集使用灵敏度(sensitivity,Se)、特异性(specificity,Sp)、准确率(accuracy,Acc)和二次加权kappa 系数(quadratic weighted kappa,QWK)作为评价指标。此外在APTOS 2019 数据集还利用ROC 曲线下方的面积(area under curve,AUC)和召回率(recall,Re)对其进行评估,其计算式分别为:

其中:TP为样本和模型识别结果都为正类,TN的表示则恰好与之相反,FN表示样本为负类而模型结果为正类,FP表示样本为正类而模型结果负类,N为总类别数,Wi,j表示i类和j类的惩罚权重,Qi,j为第i类判别为j类的数量,Ei,j为第i类的总数×第j类的总数除以总数,用于平衡分类效果kappa 系数是检验一致性的指标,其系数在[-1,1]变化通常大于0,值越高则表示一致性越高。

3.4 实验结果分析

本文算法在IDRID 和APTOS 2019 数据集训练过程损失值变化趋势如图5 所示,IDRID 数据集训练损失值维持在0.4 左右,APTOS 2019 数据集损失值维持在0.1 左右,波动幅度较小,表明网络已趋于收敛。该算法的两个数据集都经过150 轮的训练过程,在130 轮的时候将达到最高峰,且通过观察损失函数曲线在130 轮的时候训练和测试损失曲线将达到平稳,并且两者之间相差较小达到收敛状态。

图5 本文算法在 (a) IDRID 数据集和 (b) APTOS 2019 数据集上的训练损失曲线Fig.5 The training loss curves of the proposed algorithm on (a) the IDRID dataset and (b) the APTOS 2019 dataset

3.4.1 热图可视化

为验证本文算法对视网膜图像的学习效果,利用原始图像通过本文模型生成网络特征热图[18],通过观察网络特征热图,发现图像病变区域色彩差异较大效果明显,如图6 所示。在图6(b)的图像中其蓝色代表低概率病变区域,绿色代表存在可能病变区域,红色代表高概率病变区域。其中绿色方框表示原始细微处的病灶区域,橘色方框为经过模型学习后的效果,通过观察DR: 1-4 能够发现热力图高亮区域越来越多且分布较广,既有细微之处的病变也有显著的病灶区域,图像相较于初始图像对病灶区域的对比差异度明显,从而表明该算法学习效果较好。

图6 网络特征热图。(a) 初始图像;
(b) 热力图像Fig.6 Network feature hot pictures.(a) Initial images;(b) Thermal images

3.4.2 消融实验

为探究本文算法中各模块和组合损失函数的有效性,通过控制变量法在IDRID 数据集进行消融实验。实验结果如表一所示,表中M1:在整个算法模型中仅去除MCSM;
M2:在整个算法模型中仅去除AFFM;
M3:基于Res2Net-50 的单个模型的网络;
M4:基于Densenet-121 的单个模型的网络;
M5:基于混合模型的焦点损失函数网络;
M6:完整的算法模型网络。

从表1 中M1、M2 和M6 的数据对比可以得知,各项的评价指标均有较大的提升,表明多层坐标感知模块和注意力特征融合模块的加入,可以进一步增强DR 分级效果;
M3 和M6 对比结果可知,混合模型相较于单个Res2Net-50 模型在准确率、特异性和二次加权kappa 系数上有较大的提升,分别为1.94%、5.88%和2.63%;
M4 与M6 对比可知,对比Densenet-121 模型在准确率和灵敏度上有较大的提升,分别为0.97%和7.25%,说明本文使用的混合双模型结构能够加强模型的一致性和病变区域的敏感性;
M5 和M6 的实验数据分析可知,各参数指标都有一定程度的增长,表明组合损失函数能够提升视网膜病变分级的性能。

表1 在IDRID 数据集的消融结果Table 1 The ablation results of the IDRID dataset

消融对比实验混淆矩阵如图7 所示,从图7 中比较能够发现M6 混淆矩阵,数据多分布在对角线上且数值较大。而错误识别的样本数据较小且分布在对角线周围,说明本文所提出的改进对视网膜病变区域识别有显著作用,能够增强DR 分级能力。

图7 混淆矩阵Fig.7 The confused matrix

3.5 与其他DR 分级算法的对比

IDRID 和APTOS 2019 数据集在不同算法中实验对比结果分别为表2 和表3。表2 用QWK、Acc、Se和Sp 作为评价指标,与之对比该实验的是当前DR分级主流算法(如文献[7])采用多阶段的迁移学习方法,提取不同数据集中特征表示信息,能够提高病变分级效果,与本文结果相比略低。文献[19]提出IFTL DR 预测模型(CNN+SVM),先对数据集进行背景消除技术,再利用CNN 模型获取图像特征并通过SVM 进行机器学习分类,虽然综合了两者的优势,有较大的进步,但还是低于本文算法。文献[20]构建一种将粗细网络优势互补的方法,粗网络主要进行二分类作用,而细网络则进行细分等级,提高视网膜分级效率,与本文相比仍有不足之处。文献[21]是采用ResNet-50 为主干网络,其次还有自适应特征过滤、特征互补融合模块和细粒度分类损失和焦点损失函数共同组成算法模型,能够在一定程度上缓解样本不平衡,提高模型DR 分级效率,Se 和本文一样,但其他指标略低于本文算法。表2 中的文献[22]和文献[23]是关于IDRID数据集的复现,文献[22]是细粒度分类,以ResNet-50 为骨干网络加入特征增强、抑制模块和信息融合模块共同组成,有利于挖掘细微病变特征,提高病变分级能力,只有QWK 比本文高0.35%,其他指标低于本文算法。文献[23]是一种跨层相互注意力网络能够循环训练进行特征提取,但由于参数量较多,模型过于复杂,所以指标比本文较低。

表2 不同算法在IDRID 数据集的结果表现Table 2 The results of different algorithms in IDRID data sets

表3 不同模型在APTOS 2019 数据集的结果表现Table 3 The results of different models in the APTOS 2019 data sets

如表3 所示,在APTOS 2019 数据集采用QWK、Acc、Re 和AUC 作为评价指标,与最近主流算法作对比。文献[8]构建一种多阶段学习,能够同时获取图像空间表征信息和病灶注意力特征信息,准确率略高于本文算法,但其他指标则远低于本文算法,可能对于潜在的注意力特征病变区域的利用较优于文中算法。文献[24]构建了一种具有门控注意力机制的深度神经网络,能够独立的从不同的通道特征中学习到不一致的特征信息,且有利于提高模型的泛化性,但与本文算法相比较弱。文献[25]使用VGG16-fc2 和Xception 结合的混合模型,从不同模型中提取到多个深度特征,进行相互补充,虽然能提高模型性能但其评价指标远低于本文。文献[26]应用迁移学习DenseNet201 算法能在较短时间内生成大量特征,在对比结果中准确率最高,超过本文1.51%,但其它评价指标低于本文算法,造成结果相差较大。文献[26]基于水平和垂直方向的非固定尺寸分割模型,对于病灶区域的识别相较于本文算法更为准确。这可能是因实验设备存在差异,文献[26]采用服务器来进行实验而本文则采用电脑的方式进行实验。

此外,为进一步增强本文算法的说服力,在相同实验条件下将最近主流算法的两篇文献[22]和[23]在APTOS 2019 数据集上进行复现,其数据结果如表3 所示。文献[22]算法与本文算法在Acc 评价指标上结果较为接近,但QWK、AUC 与Se 值与本文相比较低。文献[23]虽然可以多次循环训练,但也存在 (a)、(b)、(c) 模型结构复杂、实验时间较长等问题。

图8 是APTOS 2019 数据集的实验结果,其中8(a)、8(b) 和 8(c) 分别表示文献[22]复现结果、文献[23]复现结果和本文算法的ROC 曲线,观察图8中的三幅图发现 8(c) 中DR:0-4 的曲线图分布较为相近且都靠近左上角(越靠近左上角表明预测模型的准确率越高),尤其当DR 为4 时对比 8(a) 和 8(b) 曲线图更为明显。ROC 曲线下面积计算AUC 值分别为92.78%、92.46%和93.60%,结果表明本文算法在该数据集上较优。通过表2 和表3 本文算法和对比算法进行比较其数据较好,表明模型存在较强的泛化性且具有一定的优越性,对视网膜病变分级具有良好效果。

图8 复现DR 各类AUC 值。(a) ResNet-50+FDM[22];
(b) ResNet-50[23];
(c) 本文方法Fig.8 Reapped various types of AUC values.(a) ResNet-50+FDM [22];(b) ResNet-50[23];(c) Method of this article

本文提出一种融合坐标感知与混合提取的糖尿病视网膜病变分级模型。由于存在特征提取不充分问题,采用混合双模型进行逐级特征提取,并选取多种尺度信息构成一个完整的图像信息。为了使多尺度特征信息进一步聚焦到病变特征,通过多层坐标感知模块和注意力特征融合模块筛选干扰噪声后进行两种多尺度信息特征融合;
其次根据自适应病灶特征重新分配权重确保微小病变区域也能够获取足够的权重;
再次利用组合损失函数缓解不同样本之间存在的差异,从而提升DR 分级的准确率;
最后进行实验在数据集IDRID 中的灵敏度与特异性分别为94.20%和97.05%。在数据集APTOS 2019 上的灵敏度和ROC 曲线下方面积分别为87.40%和93.60%。实验结果表明,本文算法总体性能优于近年不同算法,结果表明本文算法具有一定的应用价值。

猜你喜欢 视网膜损失分级 深度学习在糖尿病视网膜病变诊疗中的应用现代仪器与医疗(2022年2期)2022-08-11家族性渗出性玻璃体视网膜病变合并孔源性视网膜脱离1例中医眼耳鼻喉杂志(2021年1期)2021-07-22高度近视视网膜微循环改变研究进展中医眼耳鼻喉杂志(2021年2期)2021-07-21胖胖损失了多少元数学小灵通·3-4年级(2021年5期)2021-07-16玉米抽穗前倒伏怎么办?怎么减少损失?今日农业(2019年15期)2019-01-03分级诊疗路难行?中国医疗保险(2017年6期)2017-07-18复明片治疗糖尿病视网膜病变视网膜光凝术后临床观察湖南中医药大学学报(2016年1期)2016-12-01分级诊疗的“分”与“整”中国卫生(2016年5期)2016-11-12一般自由碰撞的最大动能损失广西民族大学学报(自然科学版)(2015年3期)2015-12-07分级诊疗的强、引、合中国卫生(2015年10期)2015-11-10

推荐访问:视网膜 病变 坐标

版权所有:天豪文档网 2012-2024 未经授权禁止复制或建立镜像[天豪文档网]所有资源完全免费共享

Powered by 天豪文档网 © All Rights Reserved.。浙ICP备12036114号-1