基于模糊 C 均值聚类和改进的随机游走算法的肺结节分割_《生物医学工程学杂志》

作者：

刘策 , 张花齐 , 王洪瑞 , 李艳 ,  王光磊

河北大学电子信息工程学院（河北保定 071002）;

关键词：

模糊 C 均值聚类随机游走困难肺结节空间距离测地线

DOI：

10.7507/1001-5515.201811056

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

准确分割肺结节是医生判定肺癌的重要前提。针对肺结节分割方法的误分割问题，尤其是难以分离的与胸壁或血管相连的粘连型肺结节的问题，本文提出了一种基于改进的随机游走算法来准确分割困难肺结节的方法。本文的创新点在于将图像中节点和种子点的坐标值与空间距离相结合，加入测地线距离来重新定义权值，然后使用改进的随机游走算法实现了对肺结节的准确分割。本文选取了 17 名不同类型肺结节患者的计算机断层扫描（CT）图像进行分割实验，将实验结果与传统随机游走方法以及几种文献方法进行了对比。实验表明，本文方法在肺结节分割方面具有较好的精度，准确率超过 88%，单张肺结节 CT 图像分割时间不超过 4 s。结果提示本文方法可用于对肺结节良恶性的辅助诊断，从而提高医生的工作效率。

引用本文： 刘策, 张花齐, 王洪瑞, 李艳, 王光磊. 基于模糊 C 均值聚类和改进的随机游走算法的肺结节分割. 生物医学工程学杂志, 2019, 36(6): 978-985. doi: 10.7507/1001-5515.201811056 复制

引言

肺癌已成为中国男性和女性发病率和死亡率最高的癌症^[1]。肺癌的病理学特征复杂难辨，恶性程度高，早期症状不易被发现，大多数肺癌病例是在癌症已经转移的情况下被诊断出来的^[2]。而肺结节是肺癌的前期表现，在临床早期医生可通过肺结节的大小、形状、纹理等信息来诊断患者的病情，从而及时采取治疗手段^[3]。早期肺结节常表现为孤立性肺结节（solitary pulmonary nodule，SPN）、与胸壁相连的粘连性肺结节（juxta-pleural nodule，JPN）和毛玻璃型肺结节（ground glass opacity，GGO）。在实际诊断当中，由于肺结节种类的多样性以及不同患者病情的差异性，使得肺结节的数量、种类、形状、大小、密度、位置等特征存在较大差异，而医生受专业经验的局限、分心或疲劳等不稳定因素影响，可能导致对病情的错误诊断。如果能在肺癌早期从计算机断层扫描（computed tomography，CT）图像中准确分割出肺结节区域，然后采取正确的治疗方案和预后方案，及时进行手术，存活率可以提高 20%^[4]。由此可见，早期准确地发现肺结节对肺癌的诊断和治疗至关重要。

目前针对 CT 图像中肺结节的分割研究，学者们提出了多种解决方案。有研究者提出将分水岭算法（watershed algorithm）和模糊 C 均值（fuzzy c-means，FCM）算法相结合的分割方法，通过 FCM 获取预分割区域的中心点坐标映射到 CT 图像中的对应位置，以得到的映射点为种子点利用分水岭算法完成肺结节的分割^[5-6]；有研究者使用一种滚球算法（rolling ball algorithm）对 JPN 进行分割，该算法先对肺部 CT 图像预处理，再用滚球法对肺部掩模进行修复，最后将图像叠加完成对 JPN 的分割^[7-9]；有研究者提出了改进的基于局部的和全局隶属的活动轮廓模型（localized graph-cuts based multiphase active contour model，LGMACM）和改进的基于模糊速度的活动轮廓模型（fuzzy velocity function based on active contour model，FVFACM）来分别分割 GGO 和 JPN 型肺结节^[10-12]；还有研究者应用基于深度学习的肺结节检测算法，使用改进的卷积神经网络来训练数据集，提取肺结节尺寸、形态、纹理等特征，建立网络模型从而完成肺结节的检测和提取^[13-14]。

但是，上述这些方法只针对特定类型肺结节的分割。由于肺部区域包含大量血管以及 JPN 型肺结节，并且胸膜与结节和血管具有近似相同的灰度，因此分水岭方法会误将血管和胸廓作为肺结节区域，从而产生过分割和误分割；肺结节大小和形态的多样性，使得滚球法在处理血管或结节造成的粗分割过程中，很难找到一致尺寸的结构元，降低了分割的准确性；而基于活动轮廓模型的分割方法由于对初始轮廓敏感、分割精度低以及过分依赖梯度信息等，不能对 GGO 型肺结节取得较好的分割效果；基于深度学习的肺结节检测和分割，虽然能取得较为不错的结果，但是该算法前提是需要训练大量带有注释的数据集，同时采集特征、算法收敛等都需要耗费大量时间，并且算法复杂，计算量太大。

最近较为流行的随机游走（random walk，RW）算法在医学图像处理方面取得了不错的成绩，基于图论的随机游走算法可在尽量减少漏边界风险的情况下较好地识别弱边界，且计算简便、分割速度快，但传统随机游走算法需人工设置大量种子点，应用局限性较大^[15]。鉴于以上问题，本文提出了一种基于 FCM 聚类和改进的随机游走算法分割肺结节，拟通过如下途径改进对肺结节的分割效果：（1）对 FCM 算法进行改进，加入血管特征系数，重新定义 FCM 模糊隶属度，使与肺结节粘连的血管区域以及肺结节边缘区域的灰度值得到抑制，增强肺结节的对比度，为后续的准确分割奠定基础；（2）加入测地线距离来重新定义随机游走算法的权函数，将点对之间的最短加权距离作为分割目标区域的衡量指标之一，从而避免因图像强度信息而导致的误分割。

1 肺结节分割算法

本文提出的肺结节分割算法流程如图 1 所示。对初始肺结节 CT 图像使用改进的 FCM 聚类进行预分割，增强灰度值较高的肺结节区域的对比度，降低血管等干扰区域的灰度，同时获取图像像素的坐标；然后结合非线性各向异性扩散滤波和形态学方法对图像滤波去噪，在保证良好轮廓的前提下，去掉肺部区域中的噪声点及细小血管等无关区域；最后选取随机游走算法所需的种子点，将图像中像素点和种子点的空间测地线距离加入到随机游走算法之中，根据坐标信息计算肺结节区域像素点和种子点的空间最短测地线距离，并将此距离作为随机游走算法分割的衡量依据，使用随机游走算法来对像素进行归类，实现对肺结节的准确分割。

图1 肺结节分割流程图 Figure1. Segmentation flowchart of lung nodules

图选项

下载全尺寸图像

下载幻灯片

1.1 FCM 聚类算法

本文利用改进的 FCM 聚类算法先对原始图像进行预分割，通过加入血管特征系数，对模糊隶属度进行改进，增强肺结节区域的对比度，去除干扰区域的同时最大程度上排除血管的干扰，也更有利于获取像素坐标来计算测地线距离，提高分割的准确度。

模糊聚类能量函数为：

'/>

其中为灰度值属于第类区域的隶属度，为隶属度的加权指数

血管特征系数^[16]定义为：

规定，其中为血管特征评价，血管特征系数的引入使血管区域明亮度降低，减小与背景区域的对比度而增强与肺结节的对比度，从而更好地区分肺结节与血管区域。

改进后的模糊隶属度和聚类中心表达式为：

FCM 聚类算法的改进如图 2 所示，图 2a 中 A-D 为血管区域，E-M 为肺结节区域。当血管区域与肺结节区域灰度值接近时，在分割的时候很容易产生过分割；当加入血管特征系数之后，降低血管区域与背景的对比度，如图 2b 中的 A-D，当一个像素越接近血管区域，模糊隶属度也就越小，当像素属于血管区域时取得最小值，而非血管区域的模糊隶属度则几乎保持不变，最后准确分割出肺结节区域，如图 2b 中的 E-M。本文使用 FCM 聚类对图像预分割时设置能够取得较好的处理结果，有利于对图像进一步处理。

图2 改进的 FCM 聚类算法

a. 传统 FCM 聚类；b. 加入血管特征系数

Figure2. Improved FCM clustering algorithm

a. traditional FCM clustering；b. adding vascular characteristic coefficient

图选项

下载全尺寸图像

下载幻灯片

1.2 各向异性扩散滤波

Penora 和 Malik 在 1990 年首次将各向异性扩散模型（P-M 模型）作为图像处理工具应用于图像分割、图像增强和图像去噪等领域^[17]。在肺部 CT 图像中，由于胸壁区域与两侧具有较高的灰度差异，因此使用 P-M 模型对肺 CT 图像进行滤波去噪的过程当中，能够在肺区域内部进行平滑去噪，而在有边缘的地方抑制平滑，相较于高斯滤波、均值滤波等方法，在保证图像重要特征信息的前提下，能够更有效地去除噪声、保留图像边缘。非线性各向异性扩散方程：

其中表示待处理图像，是散度，是梯度算子，表示扩散系数，控制着扩散速率，通常选取图像梯度函数，这样在扩散时可以保护到图像边缘信息。表示初始条件。

P-M 边缘停止函数：

其中，常数用来控制对边缘的灵敏度，通过迭代来对图像进行平滑去噪，经 50 组实验测试可知，迭代次数越高，效果越好，但是时间也会相应增加。本文中常数取 0.15（最大值 0.25），迭代次数为 150。

1.3 形态学方法

本文将形态学^[18]开运算与闭运算相结合来使用，根据目标和噪声的特点，去除噪声和其他孤立的微小区域的干扰。

1.4 改进随机游走算法

本文对随机游走算法进行改进，将测地线距离作为肺结节分割的衡量依据，更准确地判断出像素点从属于某一类种子点的概率。在肺结节 CT 数据图像中存在着较多灰度值与肺结节相似的纵横交错的血管区域以及肺结节边缘毛刺区域，甚至肺结节与胸壁相粘连，这些情况使得基于灰度或者基于欧几里得距离的随机游走算法无法取得较好的分割效果，但是图上的测地线距离则不受此限制^[19]。

1.4.1 权值的定义

在肺结节 CT 图像中，胸壁 JPN 的灰度值与胸壁几乎是一样的，如果只根据灰度值信息很难准确地将两者分开。因此，本文在像素灰度信息的基础上，将图像中各像素点的坐标位置信息以及与种子点之间的测地线距离信息加入到权函数中，定义图像上像素点与种子点之间的测地距，结合坐标信息计算测地距，然后根据图像灰度和空间最短测地线距离更精确地分割出肺结节^[20-22]。

我们定义图中像素点与种子点之间的测地线距离为：

其中，，表示路径经过像素点和种子点连线时，=1，否则，且。表示连接像素点和种子点的所有路径集，是一条通过叠加一系列相邻像素点之间的边而形成的路径，即测地线距离是图中连接空间两点的最短路径，在全局性基础上测地线距离比欧氏距离更好地保持了数据的内部几何特征。

图像中像素点与种子点的空间测地距相似性定义为：

因此，改进后的权函数定义如下：

式中表示像素点的灰度值，表示像素点的空间坐标，表示灰度特征参数，表示像素几何距离特征系数，表示空间测地距的权重。

图 3 展示了随机游走算法改进前后分割结果的不同，其中红点为目标种子点，绿点为背景种子点。在加入测地距之前，只根据图像的灰度信息来分割肺结节，由于胸壁粘连处灰度值相近，不能得到较好的分割结果，如图 3 左侧所示；在加入测地距之后，在胸壁粘连处，通过判断图像像素点与种子点的测地线距离，肺结节区域像素点与目标种子点的连线路径都在肺结节内部，而背景种子点及之外的像素点与目标种子点的距离要大得多，因此不会产生过分割，如图 3 右侧所示。

图3 随机游走算法的改进 Figure3. Improvement of random walk algorithm

图选项

下载全尺寸图像

下载幻灯片

1.4.2 求解 Dirichlet

我们将求解随机游走的概率问题转化为求解联合 Dirichlet 问题，图的拉普拉斯矩阵定义为：

求解离散狄利克雷问题即求解：

1.4.3 随机游走种子点

本文针对不同类型肺结节的分割难题，将图像中点对之间的空间信息加入到随机游走权函数当中，结合像素的灰度信息，利用图像中像素点与种子点之间的的空间距离来完成分割。在分割难度较大的 JPN（见图 4a）过程当中，在与胸壁粘连的肺结节之内标记目标种子点，如图 4b 红点所示，同时在粘连的胸壁位置以及肺实质低灰度区域设置背景种子点，如图 4b 绿点所示，充分利用图像像素点与种子点之间的空间关系。因此，本文在选择种子点的时候，先对预处理后的图像进行适当尺寸的形态学膨胀，这时候肺实质边缘轮廓大于其真实轮廓，如图 4c 中绿线① 所示，选取边缘像素点作为背景种子点，并记录所需像素点及种子点的坐标值；然后进行适当尺寸的形态学腐蚀，此时肺实质边缘仍大于其真实轮廓，如图 4c 中红线② 所示，选取边缘像素点作为目标种子点可保证肺结节区域存在目标种子点，记录所需坐标值；最后进行较大尺寸的形态学腐蚀，此时肺实质边缘轮廓小于其真实轮廓，如图 4c 黑线③ 所示，选取边缘像素点作为背景种子点，种子点肯定在 JPN 外部并且在肺实质内部。得到种子点后，利用改进的随机游走算法，计算分割需要的像素点与种子点的测地线距离，完成对肺结节的准确分割，分割结果如图 4d 所示。

图4 随机游走种子点选择

a. 原始图像；b. 种子点标记规则；c. 种子点选取；d. 分割结果

Figure4. Seed selection for random walk

a. original image；b. rules for seed point marking；c. selecting seed point；d. result of segmentation

图选项

下载全尺寸图像

下载幻灯片

经试验反复测试，在选取种子点过程中，本文使用尺度为 4 的结构圆盘对目标区域进行形态学膨胀，形态学腐蚀则选择尺度为 2 的结构圆盘和尺度为 7 的结构圆盘，以上参数是直接在测试数据集上不断调整，直至取得最佳分割效果后的结果。

2 实验结果与性能分析

本文使用的实验数据图像一部分由河北大学附属医院放射科提供，从 12 名已确诊患者的 919 幅肺结节 CT 图像中，选取包含 74 个不同类型肺结节的图像进行实验；另一部分来自公共数据库——LIDC-IDRI^[23-24]，从 5 名患者的 1 438 幅肺结节 CT 图像中，选取包含 112 个不同类型肺结节的图像进行实验。本实验所使用的硬件环境为 Intel（R）Core（TM）i5-7 400HQ CPU，主频 2.50 GHz，内存 4 GB；软件环境为 Window 10 操作系统和 Matlab 2014a 开发平台。

2.1 实验结果

为评定本文提出的算法的性能，从实验的 17 名患者中，列举出 5 位患者的部分肺结节分割结果，并将医生手动分割金标准、传统随机游走算法分割结果与本文算法分割结果进行了对比，下面列出来自河北大学附属医院放射科提供的 3 名患者不同类型肺结节 CT 图像以及 LIDC-IDRI 数据库中 ID 为 GSM714044 和 GSM714052 的 2 名患者肺结节 CT 图像的分割结果。5 名患者临床信息如表 1 所示。

表1 五名患者的临床信息 Table1. Clinical information of five patients

表选项

下载CSV

患者信息	年龄	性别	病理类型	是否经过化疗
患者 1	57 岁	男	周围型肿瘤	否
患者 2	72 岁	女	多发转移瘤	否
患者 3	52 岁	女	磨玻璃肺结节	否
患者 4	72 岁	男	周围型肿瘤	否
患者 5	84 岁	男	多发转移瘤	否

由表 1 可看出，本文所选样本包含了几种临床上常见的病理类型和分期，从而使本文结果更好地与临床工作相结合。分割结果如图 5 所示。

图5 五位患者肺结节分割结果对比 Figure5. Comparison of pulmonary nodule segmentation results of 5 patients

图选项

下载全尺寸图像

下载幻灯片

由图 5 中可看以看出，本文算法在不同类型的肺结节上都有明显优于传统随机游走算法的分割结果，更加准确地分割出了肺结节，尤其是 JPN 型肺结节和 GGO 型肺结节。因为传统随机游走仅仅考虑像素间的灰度信息，因此对于灰度差别较小的困难型肺结节，不能取得较好的分割结果。本文算法重新定义随机游走权函数，将像素点与种子点的空间测地距加入到分割过程的衡量中，能够完成不同类型肺结节的准确分割，使得分割结果更加接近于目标真实区域。

2.2 性能分析

为了对本文提出方法的精度进行评定，本文针对 17 名患者的 186 个肺结节，首先使用杰卡德相似系数对比了不同算法的分割结果，然后对比了不同算法的分割时间和误分割率^[25]。杰卡德系数越接近于 1，表示分割面积重合率越大，分割精度越高。杰卡德相似系数定义为：

其中 A 为不同算法的分割结果，B 为医生手动分割的结果（金标准）。结果如表 2 所示。

表2 算法改进前后分割结果的杰卡德相似系数（

） Table2. Jaccard similarity coefficient of the segmentation result before and after the improvement of algori thms (

)

表选项

下载CSV

数据	SPN	JPN	GGO
传统 FCM 算法	0.649 0.034	0.643 0.064	0.655 0.049
改进的 FCM 算法	0.666 0.041	0.675 0.077	0.674 0.053
传统随机游走算法	0.748 0.061	0.766 0.074	0.720 0.044
本文方法	0.887 0.021	0.877 0.056	0.882 0.038

从表 2 中可看出，传统 FCM 聚类算法分割 SPN 的杰卡德系数为 0.649，JPN 为 0.643，GGO 为 0.655，这是由于传统 FCM 聚类受肺部图像复杂的背景影响，往往会产生过分割现象。而加入血管特征系数之后的 FCM 算法，能增强肺结节区域相较于背景的对比度，抑制边缘无关区域的灰度值，能较好地处理因血管、毛刺等因素造成的过分割现象，对 SPN、JPN 和 GGO 的杰卡德系数分别为 0.666、0.675、0.674，证明了本文算法中改进策略的有效性。结果还显示，本文方法分割 SPN、JPN 和 GGO 的杰卡德系数分别为 0.887、0.877、0.882，相比于传统随机游走算法，本文算法的杰卡德相似系数明显更高，即具有更高的分割精度。为了进一步证明本文方法的实际准确性，表 3 列出了本文算法与文献[5]、[13]、[18]、[19]在分割精度与分割效率上的对比。

表3 不同算法肺结节分割时间对比（

） Table3. Comparison of segmentation time of pulmonary no dules by different algorithms (

)

表选项

下载CSV

从表 3 可以看出，传统随机游走算法受图像灰度信息的影响，杰卡德系数只有 0.745，同时设置大量的种子点，也在一定程度上增加了分割时间；文献[5]中的分水岭算法，由于没有加入任何针对 JPN 的改进，并且容易受到微小血管的干扰，因此会出现过分割情况，杰卡德系数为 0.715；文献[13]为最近流行的深度学习算法，通过建立神经网络，训练数据集来收集肺结节特征，能够更加准确地分割出肺结节真实区域，杰卡德系数为 0.924，但是因其训练数据需要复杂且庞大的计算量，因此分割时间较长；文献[18]当中的自动随机游走算法虽然是全自动的，但是只根据图像像素灰度以及像素点坐标不能完成不同类型肺结节的分割，甚至对于边缘毛刺较多、周围有微小血管的肺结节也不能取得较好的分割效果，杰卡德系数为 0.762；文献[19]基于区域生长算法和形态学，通过手动标记肺结节直径来分割目标区域，能对 SPN 型肺结节及部分 GGO 型肺结节产生较好的效果，但是仍旧不能对 JPN 型肺结节进行准确分割，杰卡德系数为 0.797；本文算法在分割过程中，针对难以准确分割的 JPN 型肺结节，加入血管特征系数和测地线距离，更好地解决了血管粘连型和胸壁粘连型肺结节，因此可以完成对不同类型肺结节的准确分割，杰卡德系数为 0.882，具有良好分割结果的同时，也具有较好的分割性能，单张肺结节 CT 图像分割时间不超过 4 s。

为了更好地体现本文算法分割的准确率，将本文算法分别与文献[5]、[13]、[18]、[19]算法的分割结果进行对比，结果以误分割率的形式给出^[26]。误分割率定义为：

其中，FN（false nodule）表示误分割的肺结节个数，若肺结节的分割结果出现过分割或者欠分割，都将其归类于误分割；TN（true nodule）表示正确分割的肺结节个数，分割结果没有过分割或者欠分割现象。误分割率反映了算法模型对肺结节分割精度的优劣。统计结果如表 4 所示。

表4 不同算法的误分割率对比 Table4. Comparison of mis-segmentation rates of different algo rithms

表选项

下载CSV

算法	TN	FN	ESR
文献[5]算法	115	71	38.2%
文献[13]算法	172	14	7.5%
文献[18]算法	131	55	29.6%
文献[19]算法	139	47	25.3%
本文方法	167	19	10.2%

文献[13]是基于深度学习的多重卷积神经网络分割算法，从表 4 中可以看出，它误分割率较低。但是，该方法分割效率比较差。而本文算法在分割过程中，针对难以准确分割的 JPN 型肺结节，加入血管特征系数和测地线距离，更好地解决了血管粘连型和胸壁粘连型肺结节，因此实现了对不同类型肺结节的准确分割，误分割率为 10.2%，分割精度大大高于其他分割算法，改进效果明显。

3 总结

本文提出了一种基于改进的随机游走算法的不同类型肺结节 CT 图像的分割方法，通过对随机游走算法进行改进，充分利用图像像素与种子点的空间距离关系，加入测地线距离来更加准确地对像素点进行分类，弥补了传统肺结节分割方法仅仅依据灰度信息或者欧式距离而造成的错误分割，保证了准确分割出 CT 图像上不同类型的肺结节区域。通过将本文算法的分割结果与几种传统分割算法以及基于深度学习的神经网络算法的分割结果进行对比，证明了本文方法不仅提高了分割精度，同时具有较好的分割性能。本文提出的方法能够为医生提供不同类型的肺结节真实区域，分割精度较高，可进一步提高医生对患者病情诊断的准确率。

利益冲突声明：本文全体作者均声明不存在利益冲突。

引言