随着网络结构的迅速发展,卷积神经网络(CNN)在图像分析领域已成为一种领先的机器学习工具。因此,基于 CNN 的语义分割也已成为医学图像理解中的一项关键高级任务。本文综述了基于 CNN 的语义分割在医学图像领域中的研究进展,回顾了多种经典的语义分割方法及其架构变化,并重点介绍了它们在该领域的贡献和意义。在此基础上,进一步总结和讨论了它们在一些重要的生理与病理解剖结构分割中的应用。最后,本文讨论了语义分割在医学图像领域应用将遭遇的挑战和潜在发展方向。
引用本文: 吴玉超, 林岚, 王婧璇, 吴水才. 基于卷积神经网络的语义分割在医学图像中的应用. 生物医学工程学杂志, 2020, 37(3): 533-540. doi: 10.7507/1001-5515.201906067 复制
引言
图像分割是图像处理和计算机视觉领域中的一项关键技术,是计算机认知图像的关键一步。它通常依据图像的特定性质,如灰度、颜色、纹理、几何形状和梯度等,把图像划分为若干具有相似性质且互不相交的子区域并提取出感兴趣区域。传统的图像分割方法主要包括阈值分割、边缘检测、水平集方法等[1]。图像分割所提取出的区域可用于后续的图像识别等任务,如在医学图像领域,图像分割可以辅助放射科医生进行分析,减少诊断所需的时间。传统图像分割是非监督学习,不需要有关图像像素的标签信息,无法使分割出的区域具有可描述性的语义标注。随着计算机计算能力的提高,人们也开始考虑获取图像的语义描述。语义分割技术可以从像素级将图像分割成属于不同语义类别的区域,做到对图像场景的高级别分析和理解。在深度学习技术快速发展之前,语义分割一般根据图像像素自身的低阶视觉信息来进行图像分割[2],如利用图论的理论和方法,是将图像映射为带权无向图,把像素视作节点,利用最小剪切准则得到图像的最佳分割。但这类方法只能进行二类语义分割,多个目标就要多次运算,无法进行大规模、批量化的图像处理。同时,由于计算复杂度低,在较复杂的任务上,分割效果并不能令人满意。
近年来,随着计算机硬件性能的提升和大规模图像数据库的出现,深度学习模型在图像处理领域有了突飞猛进的发展。其中,一种主流深度学习技术是卷积神经网络(convolutional neural networks,CNN)[3]。CNN 是一种多层的基于监督学习的神经网络,它根据对输入图像的卷积运算来判断图像中物体的所属类别。其中,卷积运算通过局部连接和权值共享的设计方式,显著降低了模型的复杂度,减少了权值的数量;而网络主要包括卷积层、池化层和全连接层,如图 1 所示。卷积层和池化层是实现 CNN 特征提取功能的核心模块,低层网络主要由它们交替组成。高层网络则是全连接层,对应逻辑回归分类器,完成对数据的识别等任务[4]。

但是,传统 CNN 的全连接层会将二维图像特征压扁成一维的特征向量,丢失了空间信息,直接用于分割任务的效果并不理想。2015 年,Long 等[5]提出了全卷积网络(fully convolutional network,FCN)的概念,并且首次实现了输入到输出像素点的一一映射,实现了像素级的识别。虽然 FCN 改变了 CNN 的结构,实现了更加高效的语义分割,但是分割精度依然不够。为了提高网络分割的精度,研究者们提出了许多不同结构改进,改善了语义分割模型的精确度。医学图像分割作为图像处理领域的一个研究热点,长期受到广大科研工作者的关注。与普通图像相比较,医学图像具有低对比度、不均匀性等特点,另外,人体的解剖组织结构形状复杂且具有较大差异性。这些都给医学图像语义分割带来困难。本文聚焦于综述基于 CNN 模型的语义分割在医学图像分析领域的研究现状和挑战。从语义分割网络的基础结构出发,论述了语义分割任务中网络模型的基本架构及其改进。随后,结合医学影像领域的应用实例介绍语义模型在一些重要的生理与病理解剖结构图像分割任务中的表现。最后,总结了该研究领域面临的挑战与应对策略,并对未来研究发展方向进行展望。
1 语义分割网络
1.1 全卷积网络
CNN 在卷积层之后会连接若干个全连接层,将卷积层、池化层提取的二维特征图压缩成一维向量,这种操作使得网络的输出丢失了图像的空间信息,更适用于整体图像分类。为了进一步理解图像内容,研究者们希望了解这些类别在图像中所处的空间位置及其它信息,并进行进一步的空间密集型的像素分类与预测任务。如果直接将 CNN 用于语义分割,是将一个小区域作为 CNN 的输入来进行训练和预测。这往往就存在存储开销大、计算效率低以及感知区域需要确定等缺陷。FCN 的设计思路就是以恢复丢失的空间信息为主线,使用了卷积化、上采样和跳跃结构三大关键技术,如图 2 所示。卷积化技术将 CNN 网络后半部分的所有全连接层都改造成相应大小的卷积层,这样卷积层对输入图像的大小不再限制,可以接受任意大小的输入图像。将卷积层提取出的特征进行整合,获得所分类的目标物热力图。为了在输出端得到对原图像像素级的分类图,还需要将热力图的像素数恢复到原图的同样大小,产生像素级别的语义分割结果。反卷积将输出的热力图上采样到与输入图像相同尺度,得到 32 倍放大(FCN-32s)的分割结果。而跳跃连接将不同分辨率的特征图通过上采样整合到同一分辨率尺度,进行特征融合,最后再进行一定倍数的上采样还原,16 倍放大(FCN-16s)和 8 倍放大(FCN-8s)的分割结果均基于跳跃连接来融合放大获取。FCN 是语义分割问题中的一个里程碑,它展示了如何训练 CNN 来解决端到端的语义分割任务。

1.2 编码-解码器
语义分割网络的基本结构是将两个单独的神经网络结构结合在一起,它们是基于前端的 CNN 编码器结构和基于后端的解码器结构[6]。前端编码器结构使用了预训练的 CNN,如视觉几何组(visual geometry group,VGG)和残差网络(residual network,ResNet)等结构进行图像特征提取,以及特征的编码压缩,产生低分辨率特征图。为了在分割网络的输出端得到对原输入图像的像素预测结果,后端解码器结构将编码器学习到的低分辨率判别特征图映射到高分辨率像素空间上。FCN 就是最经典的编码—解码结构,但从设计角度它也有着一些缺陷,如其固有的空间不变性没有考虑到有用的全局上下文信息,以及实时性差等。从分割结果来看,其分割精度也还有一定不足。从 FCN 开始,这种编码—解码结构已成为语义分割的基本结构,现有的语义分割网络的创新主要来源于对编码器、解码器结构的不断持续改造与优化以及其效率的提升。
1.3 结构优化
语义分割网络的优化从网络结构出发可以分为编码器结构的优化、解码器结构的优化和独立后处理模块的优化;从功能出发可以分为基于特征融合的优化、基于多尺度信息的优化等。本文以结构的优化为分类标准,分别介绍了几种代表性的语义分割网络,其网络名称及架构和关键特点如表 1 所示。

1.3.1 编码器结构优化
前端编码器一般使用预训练的 CNN 进行图像特征提取,产生低分辨率特征图,该部分最常见的改进是采用更复杂的基础 CNN 网络来提取更优化的特征。但 CNN 网络提取特征中存在的一个问题是特征图分辨率相对较低,进行上采样后得到的分割结果细节粗糙。为了改善分割精度,DeepLab 设计提出了一个系列的网络,包括 DeepLab 初始版本和其三个改进版本,其中第一个改进版本(DeepLabv2)引入了膨胀系数的概念,使用膨胀卷积取代传统卷积来进行下采样。在感受野不变的情况下,避免了下采样带来的特征图分辨率的减小。第二个改进版本(DeepLabv3)在 DeepLabv2 的基础上,继续对膨胀卷积层结构进行优化,采用串行和并行的膨胀卷积架构,可以提取更具有表征力的特征。
1.3.2 解码器结构优化
解码器将编码器学习到的不同阶段低分辨率判别特征进行上采样与融合,并映射到高分辨率像素空间上,以获得密集分类。它是语义分割网络与传统 CNN 最大区别所在,也是结构优化的重点。解码过程的改进主要围绕上采样过程和全局与局部多尺度的特征图融合展开。SegNet 网络对上采样过程做了改进,解码器使用了来源于相应编码器最大池化过程所保存的池化索引进行上采样,消除了学习上采样的需要。上采样后取得的特征图与一组可训练的滤波器组进行卷积来生成密集的特征映射,使语义分割网络结构更加清晰。U-Net 在生物医学数据分割任务中被广泛使用。它将编码器中的高分辨率特征图与上采样过程相结合,通过跳跃连接架构实现编码器与解码器中的特征图拼接,在每个阶段都允许解码器学习在编码器池化中丢失的相关特征。为了进一步提高分割精度。语义分割网络需要集成各个空间尺度的信息,精细化的局部信息对于实现良好的像素级别预测至关重要,同时全局上下文背景信息整合可以改善局部像素信息之间联系模糊的情况。PSPNet 使用了一种金字塔池化模块对不同分辨率的特征信息进行融合,提高像素分类的准确度。DeepLab 的第三个改进版本(DeepLabv3+)在 DeepLabv3 的结构上做了进一步改进,在解码网络中使用跳跃连接进行特征融合,分别结合了编码、解码结构的优势算法,得到了一个更快、更强的编码—解码网络。
1.3.3 基于独立模块的结构优化
CNN 架构固有的空间变换不变性限制了语义分割网络分割的空间精度,一种可用的解决方案是在输出端加上一个条件随机场(conditional random field,CRF)的独立模块来获得更精细的分割结果。DeepLab 系列中的初始版本(DeepLab v1)在原始的 FCN 的基础上,加入了全连接条件随机场,作为一个独立的后处理模块,对网络的输出进行边界优化。
2 语义分割网络的医学应用
在 CNN 技术发展成熟并广泛应用之前,基于阈值、形态学运算等传统图像分割算法在医学图像分割中已经取得了一定应用效果。但普遍存在需要一定的先验知识、适用条件严格、泛化性能较差等缺点。基于 CNN 的语义分割算法的优化更聚焦于网络结构的设计,对先验知识的需求小,并且通过大数据的训练可以使算法模型具有较好的泛化性能,能够满足医学应用的需求。
2.1 医学领域应用特点
语义分割网络尽管已经在自然图像处理任务中获得了令人瞩目的成绩,但医学领域对技术的应用有严格的要求,因为医学图像和医疗行为有一定的特殊性。
2.1.1 较高的维度
前文中提到的语义分割网络及其优化结构都是在自然图像数据上开发的,尽管它们很有效,但大多数方法只能处理二维图像。而临床应用的大多数医疗影像数据都是三维结构。相对于二维的自然图像语义分割,对三维数据进行语义分割的模型更难创建,这也是当前医学图像领域的一大挑战。针对三维数据,当前存在着两种类型的解决方案:多视角 CNN 与三维 CNN。在多视角 CNN 中,从不同视角提取二维图像,并将这些二维图像送入传统的二维 CNN,以并行多流的方式进行处理[12]。Chung 等[13]提出一种基于轴向、矢状面和冠状面三平面的肝脏肿瘤分割方法,系统集成了三个二维神经网络,分别与三维图像的 XY、YZ、ZX 平面存在一一对应关系,从不同视图中学习深层特征用于分割。通过实验验证显示此类多视角的方法明显优于单视图法。在三维 CNN 中,使用三维卷积核替代二维卷积核进行运算。如 V 型网络(V-Net)[14]就是一种三维版本的 U-Net,其网络结构主要特点是三维卷积核,并引入残差模块和 U-Net 的框架。
2.1.2 医疗数据使用规范
安全性是所有医疗行为必须遵守的行为准则,对医疗数据的使用也必须以不对患者造成伤害为第一原则。各种功能的辅助诊断系统要遵循严格的质量标准,保证其具有高度的稳定性和准确性,并且不会发生无法人为逆转的严重错误。其次医疗数据的使用涉及到患者的隐私信息,在使用数据时必须严格保密,严格授权使用,并制定相应法律对患者隐私进行保护。相应的,人工智能技术应用于医疗领域最重要的法律责任是发生误判的责任。凡是医疗行为就会存在一定风险,所以必须由法律做出明确规定,确定技术开发人员和技术应用医生之间的权责关系,是技术最终得到应用的关键。
2.2 跨领域的迁移学习
从头开始训练一个语义分割网络需要海量的有标注的影像数据,并且要达到收敛可能需要很长的时间。因此,语义分割网络在医学图像领域的应用,首先面临的问题是缺乏足够的标注好的影像数据。这些图像需要专家手动标记每个像素,在医生已经承担繁重医疗工作量的情况下,通常是不可行的。迁移学习本质上是使用预先训练过的网络,解决缺乏大数据集对深度网络进行训练的问题。尽管医学图像和自然图像所表示的信息完全不同,迁移学习可以从自然图像预先训练好的网络开始,通过微调预训练网络的权重来完成医学图像语义分割的任务。荷兰内梅亨大学医学中心和哈佛医学院等科研机构的研究者们将迁移学习应用于磁共振成像(magnetic resonance imaging,MRI)的脑损伤分割任务中[15],通过实验探索了在迁移学习中,需要多少来自当前任务的数据才能对原有网络进行适当的调整,以及需要对原模型的哪一部分进行再训练。从其实验结果显示,在仅有少量训练数据的情况下,通过对最后几层进行微调即可获得较好效果。
2.3 医学领域应用实例
医学图像分割领域的一项关键任务是识别感兴趣的目标器官或组织。但由于医学图像本质的复杂性,对其进行自动分割是一项困难的任务。除了待分割的器官和组织外,医学图像中一般会包括周围的其它器官或组织。与周围器官或组织相比,待分割组织可能和它们具有相似的形态和特征。同时,待分割的区域本身可能还存在着特征的异质性。本节通过对语义分割网络在重要的生理与病理解剖结构和其它生物医学图像的不同分割任务中具体应用实例,展现了基于 CNN 的语义分割算法的广泛的适用性及较高的准确性。
2.3.1 常见大型解剖结构分割
(1)脑结构分割
脑影像分析被广泛应用于研究阿尔茨海默病、癫痫、精神分裂症、多发性硬化症、癌症以及神经退行性疾病等脑疾病[16-17]。在脑图像中,语义分割技术被用于在空间和时间上对正常(如白质和灰质)或异常脑组织(如脑肿瘤)进行定量测量和定性分析。现已发布多个可公开获取的脑影像数据集并用于脑图像分割的研究。常见的数据集包括:脑肿瘤分割数据集(网址为:http://braintumorsegmentation.org/)、缺血性卒中病变分割数据集(网址为:http://www.isles-challenge.org/)、轻度创伤性脑损伤预后预测数据集(网址为:https://tbichallenge.wordpress.com/)和脑 MRI 图像分割数据集(网址为:https://mrbrains18.isi.uu.nl/)等。王海鸥等[18]将超像素分割和 U-Net 基础网络结构相结合,对灰质、白质、脑脊液等 5 种脑结构进行分割,实验结果表明该网络在分割性能上优于 FCN-16s、CNN 以及一般结构 U-Net。Chen 等[19]在 U-Net 的下采样中通过使用不同尺寸的卷积核提取图像特征和进行特征融合,获得了一种多尺度的改进型 U-Net 网络。通过 2 000 余幅 MRI 图像的训练,所得模型灰质、白质和脑脊液的分割中取得了 87.19%、86.41% 和 39.65% 的精度,较 U-Net 具有更好的分割效果。多模态 MRI 技术不仅能探索脑形态学的改变,还能反映不同脑区间微结构改变及功能活动的异常。Nie 等[20]获取了 11 名健康婴儿的 T1、T2 和弥散加权三种模态神经影像,通过使用整合上下文语义信息、融合不同尺度特征等方法进行网络优化,使用三维 FCN 对多模态的脑 MRI 图像进行分割。结果显示该方法在灰质、白质和脑脊液的分割任务中,与手工分割金标准的重合率优于三维 U-Net 等其它方法。然后,进一步对 50 例来自国家自闭症研究数据库的数据测试,验证了该方法的泛化能力。海马形态变化是一项研究阿尔兹海默症患者脑萎缩变化的关键特征,但海马区图像边缘一般比较模糊。为了提高海马区的边缘分割精度,Wang 等[21]提出了一种基于 CRF 的边缘感知 FCN 网络,通过将边缘信息加入损失函数中,实现了更精确的边缘分割,模型准确率高达 87.31%,远高于 FCN-8s 等基础语义分割网络。除了脑结构的变化会反映脑部疾病的信息外,脑皮层沟的形状也能够对一些发育性疾病和神经退行性疾病病情提供诊断信息。Borne 等[22]从不同的异构数据库中挑选出 62 例健康大脑图像作为训练集,利用三维 U-Net 对与大脑皮层褶皱对应的体素进行标记,然后对结果进行空间正则化,所得的模型对 63 个右脑沟和 64 个左脑沟进行了分割,10 折交叉验证结果显示错误率仅为 15.06%。
在肿瘤治疗领域,对脑部肿瘤的分割也是一项极具挑战性的任务。例如脑胶质瘤是最常见的脑肿瘤,通常具有很强的浸润性,存在边界模糊和对比度差的特点。Cui 等[23]使用多模态脑肿瘤分割数据集,设计了一种级联的网络结构来实现对脑胶质瘤的自动语义分割。该数据集包含 220 例高级别胶质瘤和 54 例低级别胶质瘤病例,每个病例包含 4 组多模态 MRI 数据,数据被标记为正常脑组织、坏死、水肿、非增强肿瘤、增强肿瘤五类,级联肿瘤定位网络和瘤内分类网络两个子网络可从每例多模态 MRI 数据中检测出完整的肿瘤并将其分类为不同的肿瘤亚区。
(2)肺结构分割
肺实质组织以及对应结节和血管的分割是后续定量肺部计算机断层扫描(computed tomography,CT)图像分析的先决条件和初始步骤。由于需要分割的肺部组织部分一般结构尺寸小,信噪比、对比度低,因此这也是一项具有挑战性的任务。Anthimopoulos 等[24]收集了来自多家医疗机构的 172 例高分辨率 CT 图像,使用具有膨胀卷积结构和多尺度特征融合的 FCN 对肺 CT 图像中的肺实质、健康组织、微结节和蜂窝状结构进行分割。网络测试结果达到了接近 82% 的分割精度。在肺癌诊断中,Bouget 等[25]提出了一种结合 U-Net 优点的算法对纵膈解剖结构和恶性淋巴结进行自动检测和分割,利用处理数据不平衡的损失函数和一种实例分割网络,在边界框内提供实例检测和改进的像素分割。其研究经五折交叉检验结果显示,在 15 个解剖结构中的相似度评价系数得分为 76%。而在淋巴结检测中结果显示,对每个患者 9 个假阳性的召回率达到 75%,平均每个维度的质心位置估计误差仅为 3 mm。
(3)肝结构分割
肝脏作为人体中最大的实质性器官,由于其内部含有复杂的血管结构,如何在制定治疗方案时精确定位肝脏内部的病灶及大血管等结构是肝脏图像分割中的一个重要挑战。Astono 等[26]使用一种形如 FCN 的自动提取特征的网络,在上采样过程中利用保留的空间信息实现像素的预测输出,获得了医学图像计算和计算机辅助干预(medical image computing and computer assisted intervention,MICCAI)会议主办的挑战赛中的冠军。
2.3.2 其它生物医学图像分割
基于 CNN 的语义分割网络在其它生物医学图像分割领域也有着重要应用。李智能等[27]提出一种基于 CNN 的医学宫颈细胞图像语义分割方法,通过标定显微图像中的细胞核和细胞质轮廓制作数据集进行分割模型训练,模型在测试数据集上的核质分割准确率高达 94.7%,具有很好的辅助诊断意义。Tran 等[28]利用 SegNet 结构对显微血液涂片图像中的红细胞和白细胞进行分割,全局精度也高达 89.45%。另外,语义分割网络还在诸如肌肉骨骼结构分割、眼底病灶分割等方面有重要应用。Liu 等[29]采用 SegNet 结构作为核心网络,对取自 MICCAI 挑战赛数据集的 100 组带标记的膝关节 MRI 图像进行肌肉、软骨、骨骼的分割,期望可为临床骨关节炎研究提供快速、准确的软骨等组织的分割。Edupuganti 等[30]利用 FCN 对眼底图像中视盘和杯状区域进行分割,用以辅助青光眼的诊断。
3 讨论
语义分割网络的基础结构 CNN 来自于图像分类任务。在过去几年中,基础的 CNN 网络得到了高速的发展,在部分图像识别领域已经可以超过人类。因此,在语义分割网络开发中采用最新型的 CNN 构建模块,如 ResNet 和改进的 ResNet 等,可以较容易地在二维医学图像分割任务中获得较优的性能。
随着计算机计算能力的增强,借助于医学大数据,基于 CNN 的语义分割算法在许多医学图像分割挑战赛中开始占据主导地位,成为该领域首选方法。但它们也具有一定的局限性。首先,基于语义的卷积网络是一个黑箱模型,模型构建通常需要大量反复尝试,缺乏从数学和理论上的解释,这妨碍了理解和识别不准确分割背后的原因以及对模型性能好坏的评估能力。对该问题的一种解决途径在于提升模型的可解释性[31]以及寻找特征可视化的新方法[32]。其次,基于语义的深度网络在性能改进上很大程度会依赖于大型的医学影像数据集。与其他领域大型的公共可用数据集相比,目前医学领域的公共可用数据集仍然非常有限。在文献概述中可以发现,大部分应用都是采用 U-Net 架构在小数据集上实现,而有限的训练数据会成为该领域进一步发展应用的瓶颈。此外,目前该领域常见的一种解决方法是迁移学习,但医学图像通常是单通道、低对比度和具有丰富纹理的,在自然图像上训练的特征模型可能不完全适合医学图像。因此,针对该领域的一种潜在解决方案是基于多影像采集中心、多设备的多数据源迁移学习。当前,也有越来越多的大型公共医学影像数据库,如阿尔兹海默症神经影像学计划[33]、肺部图像数据库联盟[34]等开始创建。另外,医学影像分割一项关键任务是获取这些图像的相关注释/标签,而这些注释/标签往往需要放射科医生大量工作,获取足够多的标记数据在医学领域并不容易。一种潜在的解决方案是采用无监督的生成对抗网络进行学习,减少对数据标签的需求。最后,由于基于语义的医学图像分割方法一般计算量大,而且医学成像数据的数量也在不断增加,需要更为有效的实施方式。现代图形处理器(graphics processing unit,GPU)由多个核心组成,每个核心都有多个功能单元,具有高度的数据并行体系结构。这部分的改进一般来源于软件和硬件层次。硬件设计上,往往通过增加线程处理器的数量、时钟速度和板载内存的数量来提升通用计算性能。在软件层次上,英伟达推出的统一计算设备架构(compute unified device architecture,CUDA),则为目前深度学习算法提供了最基础的底层开发技术,可以在构建高性能深度学习应用程序时,充分发挥 GPU 的强大计算功能。CUDA 目前仅支持三维线程的创建,由于计算能力的强弱对模型构建和模型性能的影响很大,所以未来在运算能力更强的硬件上开发支持高维数据运算的底层库,可以为处理更复杂的医学图像任务提供探索研究的可能。
基于语义的 CNN 凭借其设计和性能的优势迅速成为医学图像分割的热门技术,这些算法已经应用在前文所述的诸多解剖结构中,并且在实际应用中,对比传统的相对阈值法等医学影像分割算法,其具有更好的性能。未来,预计会有大量商业或开源的基于语义深度网络的自动分割工具出现,必将在临床实践中得到医护工作者更广泛的接受并最终应用于临床。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
图像分割是图像处理和计算机视觉领域中的一项关键技术,是计算机认知图像的关键一步。它通常依据图像的特定性质,如灰度、颜色、纹理、几何形状和梯度等,把图像划分为若干具有相似性质且互不相交的子区域并提取出感兴趣区域。传统的图像分割方法主要包括阈值分割、边缘检测、水平集方法等[1]。图像分割所提取出的区域可用于后续的图像识别等任务,如在医学图像领域,图像分割可以辅助放射科医生进行分析,减少诊断所需的时间。传统图像分割是非监督学习,不需要有关图像像素的标签信息,无法使分割出的区域具有可描述性的语义标注。随着计算机计算能力的提高,人们也开始考虑获取图像的语义描述。语义分割技术可以从像素级将图像分割成属于不同语义类别的区域,做到对图像场景的高级别分析和理解。在深度学习技术快速发展之前,语义分割一般根据图像像素自身的低阶视觉信息来进行图像分割[2],如利用图论的理论和方法,是将图像映射为带权无向图,把像素视作节点,利用最小剪切准则得到图像的最佳分割。但这类方法只能进行二类语义分割,多个目标就要多次运算,无法进行大规模、批量化的图像处理。同时,由于计算复杂度低,在较复杂的任务上,分割效果并不能令人满意。
近年来,随着计算机硬件性能的提升和大规模图像数据库的出现,深度学习模型在图像处理领域有了突飞猛进的发展。其中,一种主流深度学习技术是卷积神经网络(convolutional neural networks,CNN)[3]。CNN 是一种多层的基于监督学习的神经网络,它根据对输入图像的卷积运算来判断图像中物体的所属类别。其中,卷积运算通过局部连接和权值共享的设计方式,显著降低了模型的复杂度,减少了权值的数量;而网络主要包括卷积层、池化层和全连接层,如图 1 所示。卷积层和池化层是实现 CNN 特征提取功能的核心模块,低层网络主要由它们交替组成。高层网络则是全连接层,对应逻辑回归分类器,完成对数据的识别等任务[4]。

但是,传统 CNN 的全连接层会将二维图像特征压扁成一维的特征向量,丢失了空间信息,直接用于分割任务的效果并不理想。2015 年,Long 等[5]提出了全卷积网络(fully convolutional network,FCN)的概念,并且首次实现了输入到输出像素点的一一映射,实现了像素级的识别。虽然 FCN 改变了 CNN 的结构,实现了更加高效的语义分割,但是分割精度依然不够。为了提高网络分割的精度,研究者们提出了许多不同结构改进,改善了语义分割模型的精确度。医学图像分割作为图像处理领域的一个研究热点,长期受到广大科研工作者的关注。与普通图像相比较,医学图像具有低对比度、不均匀性等特点,另外,人体的解剖组织结构形状复杂且具有较大差异性。这些都给医学图像语义分割带来困难。本文聚焦于综述基于 CNN 模型的语义分割在医学图像分析领域的研究现状和挑战。从语义分割网络的基础结构出发,论述了语义分割任务中网络模型的基本架构及其改进。随后,结合医学影像领域的应用实例介绍语义模型在一些重要的生理与病理解剖结构图像分割任务中的表现。最后,总结了该研究领域面临的挑战与应对策略,并对未来研究发展方向进行展望。
1 语义分割网络
1.1 全卷积网络
CNN 在卷积层之后会连接若干个全连接层,将卷积层、池化层提取的二维特征图压缩成一维向量,这种操作使得网络的输出丢失了图像的空间信息,更适用于整体图像分类。为了进一步理解图像内容,研究者们希望了解这些类别在图像中所处的空间位置及其它信息,并进行进一步的空间密集型的像素分类与预测任务。如果直接将 CNN 用于语义分割,是将一个小区域作为 CNN 的输入来进行训练和预测。这往往就存在存储开销大、计算效率低以及感知区域需要确定等缺陷。FCN 的设计思路就是以恢复丢失的空间信息为主线,使用了卷积化、上采样和跳跃结构三大关键技术,如图 2 所示。卷积化技术将 CNN 网络后半部分的所有全连接层都改造成相应大小的卷积层,这样卷积层对输入图像的大小不再限制,可以接受任意大小的输入图像。将卷积层提取出的特征进行整合,获得所分类的目标物热力图。为了在输出端得到对原图像像素级的分类图,还需要将热力图的像素数恢复到原图的同样大小,产生像素级别的语义分割结果。反卷积将输出的热力图上采样到与输入图像相同尺度,得到 32 倍放大(FCN-32s)的分割结果。而跳跃连接将不同分辨率的特征图通过上采样整合到同一分辨率尺度,进行特征融合,最后再进行一定倍数的上采样还原,16 倍放大(FCN-16s)和 8 倍放大(FCN-8s)的分割结果均基于跳跃连接来融合放大获取。FCN 是语义分割问题中的一个里程碑,它展示了如何训练 CNN 来解决端到端的语义分割任务。

1.2 编码-解码器
语义分割网络的基本结构是将两个单独的神经网络结构结合在一起,它们是基于前端的 CNN 编码器结构和基于后端的解码器结构[6]。前端编码器结构使用了预训练的 CNN,如视觉几何组(visual geometry group,VGG)和残差网络(residual network,ResNet)等结构进行图像特征提取,以及特征的编码压缩,产生低分辨率特征图。为了在分割网络的输出端得到对原输入图像的像素预测结果,后端解码器结构将编码器学习到的低分辨率判别特征图映射到高分辨率像素空间上。FCN 就是最经典的编码—解码结构,但从设计角度它也有着一些缺陷,如其固有的空间不变性没有考虑到有用的全局上下文信息,以及实时性差等。从分割结果来看,其分割精度也还有一定不足。从 FCN 开始,这种编码—解码结构已成为语义分割的基本结构,现有的语义分割网络的创新主要来源于对编码器、解码器结构的不断持续改造与优化以及其效率的提升。
1.3 结构优化
语义分割网络的优化从网络结构出发可以分为编码器结构的优化、解码器结构的优化和独立后处理模块的优化;从功能出发可以分为基于特征融合的优化、基于多尺度信息的优化等。本文以结构的优化为分类标准,分别介绍了几种代表性的语义分割网络,其网络名称及架构和关键特点如表 1 所示。

1.3.1 编码器结构优化
前端编码器一般使用预训练的 CNN 进行图像特征提取,产生低分辨率特征图,该部分最常见的改进是采用更复杂的基础 CNN 网络来提取更优化的特征。但 CNN 网络提取特征中存在的一个问题是特征图分辨率相对较低,进行上采样后得到的分割结果细节粗糙。为了改善分割精度,DeepLab 设计提出了一个系列的网络,包括 DeepLab 初始版本和其三个改进版本,其中第一个改进版本(DeepLabv2)引入了膨胀系数的概念,使用膨胀卷积取代传统卷积来进行下采样。在感受野不变的情况下,避免了下采样带来的特征图分辨率的减小。第二个改进版本(DeepLabv3)在 DeepLabv2 的基础上,继续对膨胀卷积层结构进行优化,采用串行和并行的膨胀卷积架构,可以提取更具有表征力的特征。
1.3.2 解码器结构优化
解码器将编码器学习到的不同阶段低分辨率判别特征进行上采样与融合,并映射到高分辨率像素空间上,以获得密集分类。它是语义分割网络与传统 CNN 最大区别所在,也是结构优化的重点。解码过程的改进主要围绕上采样过程和全局与局部多尺度的特征图融合展开。SegNet 网络对上采样过程做了改进,解码器使用了来源于相应编码器最大池化过程所保存的池化索引进行上采样,消除了学习上采样的需要。上采样后取得的特征图与一组可训练的滤波器组进行卷积来生成密集的特征映射,使语义分割网络结构更加清晰。U-Net 在生物医学数据分割任务中被广泛使用。它将编码器中的高分辨率特征图与上采样过程相结合,通过跳跃连接架构实现编码器与解码器中的特征图拼接,在每个阶段都允许解码器学习在编码器池化中丢失的相关特征。为了进一步提高分割精度。语义分割网络需要集成各个空间尺度的信息,精细化的局部信息对于实现良好的像素级别预测至关重要,同时全局上下文背景信息整合可以改善局部像素信息之间联系模糊的情况。PSPNet 使用了一种金字塔池化模块对不同分辨率的特征信息进行融合,提高像素分类的准确度。DeepLab 的第三个改进版本(DeepLabv3+)在 DeepLabv3 的结构上做了进一步改进,在解码网络中使用跳跃连接进行特征融合,分别结合了编码、解码结构的优势算法,得到了一个更快、更强的编码—解码网络。
1.3.3 基于独立模块的结构优化
CNN 架构固有的空间变换不变性限制了语义分割网络分割的空间精度,一种可用的解决方案是在输出端加上一个条件随机场(conditional random field,CRF)的独立模块来获得更精细的分割结果。DeepLab 系列中的初始版本(DeepLab v1)在原始的 FCN 的基础上,加入了全连接条件随机场,作为一个独立的后处理模块,对网络的输出进行边界优化。
2 语义分割网络的医学应用
在 CNN 技术发展成熟并广泛应用之前,基于阈值、形态学运算等传统图像分割算法在医学图像分割中已经取得了一定应用效果。但普遍存在需要一定的先验知识、适用条件严格、泛化性能较差等缺点。基于 CNN 的语义分割算法的优化更聚焦于网络结构的设计,对先验知识的需求小,并且通过大数据的训练可以使算法模型具有较好的泛化性能,能够满足医学应用的需求。
2.1 医学领域应用特点
语义分割网络尽管已经在自然图像处理任务中获得了令人瞩目的成绩,但医学领域对技术的应用有严格的要求,因为医学图像和医疗行为有一定的特殊性。
2.1.1 较高的维度
前文中提到的语义分割网络及其优化结构都是在自然图像数据上开发的,尽管它们很有效,但大多数方法只能处理二维图像。而临床应用的大多数医疗影像数据都是三维结构。相对于二维的自然图像语义分割,对三维数据进行语义分割的模型更难创建,这也是当前医学图像领域的一大挑战。针对三维数据,当前存在着两种类型的解决方案:多视角 CNN 与三维 CNN。在多视角 CNN 中,从不同视角提取二维图像,并将这些二维图像送入传统的二维 CNN,以并行多流的方式进行处理[12]。Chung 等[13]提出一种基于轴向、矢状面和冠状面三平面的肝脏肿瘤分割方法,系统集成了三个二维神经网络,分别与三维图像的 XY、YZ、ZX 平面存在一一对应关系,从不同视图中学习深层特征用于分割。通过实验验证显示此类多视角的方法明显优于单视图法。在三维 CNN 中,使用三维卷积核替代二维卷积核进行运算。如 V 型网络(V-Net)[14]就是一种三维版本的 U-Net,其网络结构主要特点是三维卷积核,并引入残差模块和 U-Net 的框架。
2.1.2 医疗数据使用规范
安全性是所有医疗行为必须遵守的行为准则,对医疗数据的使用也必须以不对患者造成伤害为第一原则。各种功能的辅助诊断系统要遵循严格的质量标准,保证其具有高度的稳定性和准确性,并且不会发生无法人为逆转的严重错误。其次医疗数据的使用涉及到患者的隐私信息,在使用数据时必须严格保密,严格授权使用,并制定相应法律对患者隐私进行保护。相应的,人工智能技术应用于医疗领域最重要的法律责任是发生误判的责任。凡是医疗行为就会存在一定风险,所以必须由法律做出明确规定,确定技术开发人员和技术应用医生之间的权责关系,是技术最终得到应用的关键。
2.2 跨领域的迁移学习
从头开始训练一个语义分割网络需要海量的有标注的影像数据,并且要达到收敛可能需要很长的时间。因此,语义分割网络在医学图像领域的应用,首先面临的问题是缺乏足够的标注好的影像数据。这些图像需要专家手动标记每个像素,在医生已经承担繁重医疗工作量的情况下,通常是不可行的。迁移学习本质上是使用预先训练过的网络,解决缺乏大数据集对深度网络进行训练的问题。尽管医学图像和自然图像所表示的信息完全不同,迁移学习可以从自然图像预先训练好的网络开始,通过微调预训练网络的权重来完成医学图像语义分割的任务。荷兰内梅亨大学医学中心和哈佛医学院等科研机构的研究者们将迁移学习应用于磁共振成像(magnetic resonance imaging,MRI)的脑损伤分割任务中[15],通过实验探索了在迁移学习中,需要多少来自当前任务的数据才能对原有网络进行适当的调整,以及需要对原模型的哪一部分进行再训练。从其实验结果显示,在仅有少量训练数据的情况下,通过对最后几层进行微调即可获得较好效果。
2.3 医学领域应用实例
医学图像分割领域的一项关键任务是识别感兴趣的目标器官或组织。但由于医学图像本质的复杂性,对其进行自动分割是一项困难的任务。除了待分割的器官和组织外,医学图像中一般会包括周围的其它器官或组织。与周围器官或组织相比,待分割组织可能和它们具有相似的形态和特征。同时,待分割的区域本身可能还存在着特征的异质性。本节通过对语义分割网络在重要的生理与病理解剖结构和其它生物医学图像的不同分割任务中具体应用实例,展现了基于 CNN 的语义分割算法的广泛的适用性及较高的准确性。
2.3.1 常见大型解剖结构分割
(1)脑结构分割
脑影像分析被广泛应用于研究阿尔茨海默病、癫痫、精神分裂症、多发性硬化症、癌症以及神经退行性疾病等脑疾病[16-17]。在脑图像中,语义分割技术被用于在空间和时间上对正常(如白质和灰质)或异常脑组织(如脑肿瘤)进行定量测量和定性分析。现已发布多个可公开获取的脑影像数据集并用于脑图像分割的研究。常见的数据集包括:脑肿瘤分割数据集(网址为:http://braintumorsegmentation.org/)、缺血性卒中病变分割数据集(网址为:http://www.isles-challenge.org/)、轻度创伤性脑损伤预后预测数据集(网址为:https://tbichallenge.wordpress.com/)和脑 MRI 图像分割数据集(网址为:https://mrbrains18.isi.uu.nl/)等。王海鸥等[18]将超像素分割和 U-Net 基础网络结构相结合,对灰质、白质、脑脊液等 5 种脑结构进行分割,实验结果表明该网络在分割性能上优于 FCN-16s、CNN 以及一般结构 U-Net。Chen 等[19]在 U-Net 的下采样中通过使用不同尺寸的卷积核提取图像特征和进行特征融合,获得了一种多尺度的改进型 U-Net 网络。通过 2 000 余幅 MRI 图像的训练,所得模型灰质、白质和脑脊液的分割中取得了 87.19%、86.41% 和 39.65% 的精度,较 U-Net 具有更好的分割效果。多模态 MRI 技术不仅能探索脑形态学的改变,还能反映不同脑区间微结构改变及功能活动的异常。Nie 等[20]获取了 11 名健康婴儿的 T1、T2 和弥散加权三种模态神经影像,通过使用整合上下文语义信息、融合不同尺度特征等方法进行网络优化,使用三维 FCN 对多模态的脑 MRI 图像进行分割。结果显示该方法在灰质、白质和脑脊液的分割任务中,与手工分割金标准的重合率优于三维 U-Net 等其它方法。然后,进一步对 50 例来自国家自闭症研究数据库的数据测试,验证了该方法的泛化能力。海马形态变化是一项研究阿尔兹海默症患者脑萎缩变化的关键特征,但海马区图像边缘一般比较模糊。为了提高海马区的边缘分割精度,Wang 等[21]提出了一种基于 CRF 的边缘感知 FCN 网络,通过将边缘信息加入损失函数中,实现了更精确的边缘分割,模型准确率高达 87.31%,远高于 FCN-8s 等基础语义分割网络。除了脑结构的变化会反映脑部疾病的信息外,脑皮层沟的形状也能够对一些发育性疾病和神经退行性疾病病情提供诊断信息。Borne 等[22]从不同的异构数据库中挑选出 62 例健康大脑图像作为训练集,利用三维 U-Net 对与大脑皮层褶皱对应的体素进行标记,然后对结果进行空间正则化,所得的模型对 63 个右脑沟和 64 个左脑沟进行了分割,10 折交叉验证结果显示错误率仅为 15.06%。
在肿瘤治疗领域,对脑部肿瘤的分割也是一项极具挑战性的任务。例如脑胶质瘤是最常见的脑肿瘤,通常具有很强的浸润性,存在边界模糊和对比度差的特点。Cui 等[23]使用多模态脑肿瘤分割数据集,设计了一种级联的网络结构来实现对脑胶质瘤的自动语义分割。该数据集包含 220 例高级别胶质瘤和 54 例低级别胶质瘤病例,每个病例包含 4 组多模态 MRI 数据,数据被标记为正常脑组织、坏死、水肿、非增强肿瘤、增强肿瘤五类,级联肿瘤定位网络和瘤内分类网络两个子网络可从每例多模态 MRI 数据中检测出完整的肿瘤并将其分类为不同的肿瘤亚区。
(2)肺结构分割
肺实质组织以及对应结节和血管的分割是后续定量肺部计算机断层扫描(computed tomography,CT)图像分析的先决条件和初始步骤。由于需要分割的肺部组织部分一般结构尺寸小,信噪比、对比度低,因此这也是一项具有挑战性的任务。Anthimopoulos 等[24]收集了来自多家医疗机构的 172 例高分辨率 CT 图像,使用具有膨胀卷积结构和多尺度特征融合的 FCN 对肺 CT 图像中的肺实质、健康组织、微结节和蜂窝状结构进行分割。网络测试结果达到了接近 82% 的分割精度。在肺癌诊断中,Bouget 等[25]提出了一种结合 U-Net 优点的算法对纵膈解剖结构和恶性淋巴结进行自动检测和分割,利用处理数据不平衡的损失函数和一种实例分割网络,在边界框内提供实例检测和改进的像素分割。其研究经五折交叉检验结果显示,在 15 个解剖结构中的相似度评价系数得分为 76%。而在淋巴结检测中结果显示,对每个患者 9 个假阳性的召回率达到 75%,平均每个维度的质心位置估计误差仅为 3 mm。
(3)肝结构分割
肝脏作为人体中最大的实质性器官,由于其内部含有复杂的血管结构,如何在制定治疗方案时精确定位肝脏内部的病灶及大血管等结构是肝脏图像分割中的一个重要挑战。Astono 等[26]使用一种形如 FCN 的自动提取特征的网络,在上采样过程中利用保留的空间信息实现像素的预测输出,获得了医学图像计算和计算机辅助干预(medical image computing and computer assisted intervention,MICCAI)会议主办的挑战赛中的冠军。
2.3.2 其它生物医学图像分割
基于 CNN 的语义分割网络在其它生物医学图像分割领域也有着重要应用。李智能等[27]提出一种基于 CNN 的医学宫颈细胞图像语义分割方法,通过标定显微图像中的细胞核和细胞质轮廓制作数据集进行分割模型训练,模型在测试数据集上的核质分割准确率高达 94.7%,具有很好的辅助诊断意义。Tran 等[28]利用 SegNet 结构对显微血液涂片图像中的红细胞和白细胞进行分割,全局精度也高达 89.45%。另外,语义分割网络还在诸如肌肉骨骼结构分割、眼底病灶分割等方面有重要应用。Liu 等[29]采用 SegNet 结构作为核心网络,对取自 MICCAI 挑战赛数据集的 100 组带标记的膝关节 MRI 图像进行肌肉、软骨、骨骼的分割,期望可为临床骨关节炎研究提供快速、准确的软骨等组织的分割。Edupuganti 等[30]利用 FCN 对眼底图像中视盘和杯状区域进行分割,用以辅助青光眼的诊断。
3 讨论
语义分割网络的基础结构 CNN 来自于图像分类任务。在过去几年中,基础的 CNN 网络得到了高速的发展,在部分图像识别领域已经可以超过人类。因此,在语义分割网络开发中采用最新型的 CNN 构建模块,如 ResNet 和改进的 ResNet 等,可以较容易地在二维医学图像分割任务中获得较优的性能。
随着计算机计算能力的增强,借助于医学大数据,基于 CNN 的语义分割算法在许多医学图像分割挑战赛中开始占据主导地位,成为该领域首选方法。但它们也具有一定的局限性。首先,基于语义的卷积网络是一个黑箱模型,模型构建通常需要大量反复尝试,缺乏从数学和理论上的解释,这妨碍了理解和识别不准确分割背后的原因以及对模型性能好坏的评估能力。对该问题的一种解决途径在于提升模型的可解释性[31]以及寻找特征可视化的新方法[32]。其次,基于语义的深度网络在性能改进上很大程度会依赖于大型的医学影像数据集。与其他领域大型的公共可用数据集相比,目前医学领域的公共可用数据集仍然非常有限。在文献概述中可以发现,大部分应用都是采用 U-Net 架构在小数据集上实现,而有限的训练数据会成为该领域进一步发展应用的瓶颈。此外,目前该领域常见的一种解决方法是迁移学习,但医学图像通常是单通道、低对比度和具有丰富纹理的,在自然图像上训练的特征模型可能不完全适合医学图像。因此,针对该领域的一种潜在解决方案是基于多影像采集中心、多设备的多数据源迁移学习。当前,也有越来越多的大型公共医学影像数据库,如阿尔兹海默症神经影像学计划[33]、肺部图像数据库联盟[34]等开始创建。另外,医学影像分割一项关键任务是获取这些图像的相关注释/标签,而这些注释/标签往往需要放射科医生大量工作,获取足够多的标记数据在医学领域并不容易。一种潜在的解决方案是采用无监督的生成对抗网络进行学习,减少对数据标签的需求。最后,由于基于语义的医学图像分割方法一般计算量大,而且医学成像数据的数量也在不断增加,需要更为有效的实施方式。现代图形处理器(graphics processing unit,GPU)由多个核心组成,每个核心都有多个功能单元,具有高度的数据并行体系结构。这部分的改进一般来源于软件和硬件层次。硬件设计上,往往通过增加线程处理器的数量、时钟速度和板载内存的数量来提升通用计算性能。在软件层次上,英伟达推出的统一计算设备架构(compute unified device architecture,CUDA),则为目前深度学习算法提供了最基础的底层开发技术,可以在构建高性能深度学习应用程序时,充分发挥 GPU 的强大计算功能。CUDA 目前仅支持三维线程的创建,由于计算能力的强弱对模型构建和模型性能的影响很大,所以未来在运算能力更强的硬件上开发支持高维数据运算的底层库,可以为处理更复杂的医学图像任务提供探索研究的可能。
基于语义的 CNN 凭借其设计和性能的优势迅速成为医学图像分割的热门技术,这些算法已经应用在前文所述的诸多解剖结构中,并且在实际应用中,对比传统的相对阈值法等医学影像分割算法,其具有更好的性能。未来,预计会有大量商业或开源的基于语义深度网络的自动分割工具出现,必将在临床实践中得到医护工作者更广泛的接受并最终应用于临床。
利益冲突声明:本文全体作者均声明不存在利益冲突。