基于多特征描述的乳腺癌肿瘤病理自动分级摘要:为了辅助病理医生快速高效诊断乳腺癌并提供乳腺癌预后信息,提出一种计算机辅助乳腺癌肿瘤病理自动分级方法。该方法使用深度卷积神经网络和滑动窗口自动检测病理图像中的细胞;随后综合运用基于稀疏非负矩阵分解的颜色分离、前景标记的分水岭算法以及椭圆拟合得到每个细胞的轮廓。基于检测到的细胞和拟合出的细胞轮廓,提取出肿瘤的组织结构特征和上皮细胞的纹理形状特征等共203维的特征,运用这些特征训练支持向量机分类器(SVM),实现对病理组织图像自动分级。17位患者的49张H&E染色的乳腺癌病理组织图像自动分级的100次十折交叉检验评估结果表明:基于病理图像的细胞形状特征与组织的空间结构特征对病理图像的高、中、低分化等级分类整体准确率为90.20%;同时对高、中、低各分化等级的区分准确率分别为92.87%、82.88%、93.61%。相比使用单一结构特征或者纹理特征的方法,所提方法具有更高的准确率,能准确地对病理组织图像中肿瘤的高级和低级分化程度自动分级,且各分级之间的准确率差异较小。关键词:乳腺癌;组织病理图像;自动英文无病理病理分级;计算机辅助预后分析中图分类号:TP391.41;TP182文献标志码:AAbstract:Inordertoassistinthefastandefficientdiagnosisofbreastcancerandprovidetheprognosisinformationforpathologists,acomputeraideddiagnosisapproachforautomaticallygradingbreastpathologicalimageswasproposed.Intheproposedalgorithm,cellsofpathologicalimageswerefirstautomaticallydetectedbydeepconvolutionalneuralnetworkandslidingwindow.Then,thealgorithmsofcolorseparationbasedonsparsenonnegativematrixfactorization,markercontrolledwatershed,andellipsefittingwereintegratedtogettheboundaryofeachcell.Atotalof203dimensionalimagederivedfeatures,includingarchitecturalfeaturesoftumor,textureandshapefeaturesofepithelialcellswereextractedfromthepathologicalimagesbasedonthedetectedcellsandthefittedboundary.ASupportVectorMachine(SVM)classifierwastrainedbyusingtheextractedfeaturestorealizetheautomatedgradingofpathologicalimages.Inordertoverifytheproposedalgorithm,atotalof49Hematoxylin&Eosin(H&E)stainedbreastpathologicalimagesobtainedfrom17patientswereconsidered.Theexperimentalresultsshowthat,for100tenfoldcrossvalidationtrials,thefeatureswiththecellshapeandthespatialstructureoforganizationofpathologicalimagesetsuccessfullydistinguishtestsamplesoflow,intermediateandhighgradeswithclassificationaccuracyof90.20%.Moreover,theproposedalgorithmisabletodistinguishhighgrade,intermediategrade,andlowgradepatientswithaccuracyof92.87%,82.88%and93.61%,respectively.Comparedwiththemethodsonlyusingtexturefeatureorarchitecturalfeature,theproposedalgorithmhasahigheraccuracy.Theproposedalgorithmcanaccuratelydistinguishthegradeoftumorforpathologicalimagesandthedifferenceofaccuracybetweengradesissmall.英文关键词Keywords:breastcancer;pathologicalimage;automatedpathologicalgrading;computeraidedprognosis0引言美国癌症协会2015年发布的数据显示,预计2015年美国女性乳腺癌新增病例仍居女性所有癌症病例的首位,占所有新增癌症病例的29%[1]。目前我国乳腺癌发病率位居女性恶性肿瘤的第一位,但相比肺癌、胃癌和肝癌,其预后效果最好。因此如果乳腺癌能够早发现加上恰当的治疗方案,患者的5年存活率可以达到90%以上[1]。在乳腺癌诊断过程中,采用病理组织学分级系统来判断肿瘤的恶性程度,目前通用的评价标准是世界卫生组织推荐的诺丁汉系统,通过综合评价染色切片的腺管构成、核异型性和有丝分裂次数这三个指标来预估患者临床预后结果,辅助医生治疗。目前临床上的病理组织学分级基本上都是依赖于病理医生人工分析。但人工分级具有明显的局限性,大量的研究[2-3]表明,不同的病理医生由于客观原因在人工分级上具有较大的不一致性,导致这种不一致性的主要原因是人工分析方法具有较强的主观性,容易受人为和环境因素的影响,此外这个过程比较耗时费力[4]。这种不一致性对临床诊断是非常不利的,因此迫切需要定量的分级方法来解决人工分析的缺陷。近年来,由于数字扫描技术的快速发展,“数字病理”开始受到广泛的关注[5]。研究计算机辅助系统(ComputerAidedSystem,CAD)的目标不是为了完全代替医生,而是为了向医生提供更加准确的客观建议从而提高医生的工作效率,得到更加准确的诊断结果。虽然计算机辅助诊断具有诸多优势,但由于病理组织图像呈现出高度的复杂性使得病理组织图像的自动分析仍然是一个极具有挑战性的研究领域[6]。尽管如此,近年来很多学者在乳腺癌数字病理图像分析方面取得了瞩目的进展[3,7-10]。病理自动分级的前提[11]是从病理图像中准确快速地检测和分割病理标志物(如细胞)。目前细胞检测方法通常与分割算法联系在一起,这些分割方法包括自适应阈值法[9]、区域增长法[11]、颜色聚类法[12]、形态学基础的方法[13],但是这些传统的方法对于高度异质性的乳腺细胞的检测不是非常有效。Xu等[14]采用了深度学习的方法检测细胞,由于深度学习是采用数据驱动的方法,因此相比以上提到的传统方法具有较高的鲁棒性和准确性。基于细胞检测结果,可以结合图特征的描述[9-10]构建病理等级的自动分级系统。CruzRoa等[15]讨论了基于图特征的病理分级的稳定性和辨别能力。基于图特征的分级方法已经被用于淋巴细胞浸润程度[11]、肿瘤类型[16]、肿瘤等级[17]等研究中[18]。基于细胞纹理的分级方法同样有着广泛的研究。文献[9]发现了细胞特殊的外观表现与乳腺癌等级之间存在关联。Doyle等[17,19]使用了Graylevel、Gabor和Haralick特征对乳腺癌[17]和前列腺癌[19]进行分级。本文提出的病理分级方法采用了卷积神经网络加两种尺寸的滑动窗口,该方法在检测高度异质性的肿瘤细胞时,与传统的细胞检测方法相比具有更高的准确率。同时与运用单一特征的病理分级方法不同,本文方法除了提取细胞个体的纹理和形状特征外,还试图运用图描述的方法定量地描述细胞间的空间关系,多种特征的组合明显提升了乳腺癌病理自动分级系统的准确率。1乳腺肿瘤自动病理分级算法本文提出的乳腺癌肿瘤病理图像自动病理分级方法包含四个模块:1)预处理;2)检测与分割;3)特征提取;4)自动分级。该方法的流程如图1所示。在图1(a)预处理模块中,首先对所有输入的H&E(Hematoxylin&Eosin)染色的乳腺癌病理切片图像运用基于参考图像颜色的颜色标准化算法进行标准化,目的是消除由于图像采集、成像、染色等因素导致的图像颜色不一致的问题。在图1(b)检测与分割模块图中,使用深度卷积神经网络与滑动窗口算法自动快速地检测病理图像中的细胞;同时使用基于稀疏非负矩阵分解的颜色分离[20]和自适应阈值算法得到粗略的细胞区域;接下来根据细胞检测模块中得到的检测结果,运用基于前景标记的分水岭算法分割重叠的细胞团得到细胞边界,最后运用椭圆拟合得到每个细胞更加精确的轮廓。在图1(c)特征提取模块中,首先根据图1(b)检测分割模块中细胞检测得到的细胞质心构建细胞间的空间关系图[15],提取病理组织的结构特征。同时根据细胞分割结果得到的单个细胞轮廓提取出细胞的纹理和形状特征。最后在图1(d)自动病理分级模块中,根据图1(c)模块中提取出的组织结构、上皮细胞的纹理及形态特征训练支持向量机分类器进行病理自动分级。1.1病理图像预处理模块:颜色标准化在病理切片数字化制作过程中由于染色不均匀、数字成像、数字扫描设备不同等因素,会导致获得的数字化病理图像颜色差异的问题。这种差异会对随后的细胞自动检测、分割、特征提取带来不利的影响,因此使用文献[21]中提出的线性变换的方法在Lab颜色空间对数据库中所有的图像进行颜色标准化处理。从数据库中随机选取一张图像作为参考图像,然后对剩余的图像都运用标准化算法。该方法首先将RGB颜色空间的待处理H&E染色病理图像转化到特定的CIELab(Lab)颜色空间,对Lab各通道中的每一个像素进行一个如式(1)的线性转化:l转换图像=l原始图像-原始图像l原始图像l^参考图像+参考图像(1)其中l^和分别表示L通道所有像素的方差和均值。将线性转换后得到的Lab颜色空间还原为RGB空间,即可得到与参考图像颜色分布一致的病理图像。1.2细胞的自动检测与分割模块乳腺癌病理图像中主要有上皮和淋巴两种类型的细胞,80%的癌变发生在上皮细胞区域。虽然上皮细胞和淋巴细胞都能反映出癌症病理等级信息,但由于细胞检测本身是一项极具挑战性的任务,同时检测两种类型完全不相同的细胞是极为困难的,所以前人的研究一般不区分细胞类型。本文只关注上皮细胞的组织结构、形状和纹理特征。为了排除淋巴细胞的影响以及为今后研究淋巴细胞对肿瘤微环境的影响打下基础,本文采用分别训练两个卷积神经网络结合两种尺寸的滑动窗口分别检测上皮细胞和淋巴细胞。卷积神经网络能够从训练数据中隐式学习而不需要人工设计特征,面对形状高度异质性的肿瘤区域细胞具有明显的优势。本文使用的卷积神经网络共有6层结构:2个卷积层、2个池化层和2个全连接层,2个卷积层和池化层交替连接,最后附加2个全连接层。卷积层与池化层能够保证在网络参数较少的情况下提取到对分类有效的显著特征,为了防止数据过拟合,本文在每个卷积层后都附加一个抑制率50%的dropout层。训练的两个卷积神经网络由于不同种类细胞的尺寸不同,所以两个网络第一个全连接层的参数有所不同,而前四层都是5×5的滤波器加2×2的池化层。在与其他病理分级方法对比的实验中,由表5可以看出本文方法的整体准确率均高于其他3种方法,且高、中、低三个病理等级分类准确率相差不大,其他的三种方法在分类时均具有一定的偏向性。所