Welcome to Journal of Beijing University of Chemical Technology, Today is
Email Alert  RSS

Acute appendicitis CT imaging diagnosis system based on an improved nnU⁃Net

  • WenJia ZHANG 1 ,
  • Cheng LAN 2 ,
  • GuoWen SONG 3 ,
  • TongYin ZHANG 4 ,
  • RongPing YUN 5 ,
  • HongLiang SUN , 4 ,
  • Chong SU , 2
Expand
  • 1. Department of Emergency Medicine,China⁃Japan Friendship Hospital,Beijing 100029
  • 2. College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029
  • 3. Beijing Timestone Cloudstride Technology Co. ,Ltd. ,Beijing 100094
  • 4. Department of Radiology,China-Japan Friendship Hospital,Beijing 100029
  • 5. College of Materials Science and Engineering,Beijing University of Chemical Technology,Beijing 100029,China

Received date: 2025-06-27

  Online published: 2026-01-09

Abstract

Acute appendicitis (AA) CT diagnosis has long faced the clinical challenge of low efficiency and high misdiagnosis rates in primary healthcare settings. To address this problem, we have developed an intelligent diagnostic system based on an improved nnU⁃Net, incorporating three key innovations: (1) a dynamically weighted composite loss function that combines Dice and cross⁃entropy losses and adjusts weights according to the training process, effectively improving segmentation accuracy for small appendiceal targets; (2) an edge⁃enhanced supervision mechanism that strengthens the model’s perception of appendiceal boundaries through edge information; and (3) the use of Shapley Additive exPlanations (SHAP) to quantify the impact of key morphological features on diagnostic decisions, thereby enhancing system interpretability. We trained the system on CT data from 60 clinically confirmed acute appendicitis patients and evaluated it on an independent test set of 30 cases (15 with appendicitis, 15 normal). The system achieved a Dice coefficient of 72.4% in appendiceal segmentation. In terms of diagnostic performance, the AI system (sensitivity 73.3%, specificity 80.0%, accuracy 76.7%) performed comparably to senior physicians. Moreover, the system achieved an average diagnostic time of only 23.5 seconds, significantly improving efficiency. These findings suggest that our new AI system offers accuracy, speed, and interpretability, and has broad clinical application potential.

Cite this article

WenJia ZHANG , Cheng LAN , GuoWen SONG , TongYin ZHANG , RongPing YUN , HongLiang SUN , Chong SU . Acute appendicitis CT imaging diagnosis system based on an improved nnU⁃Net[J]. Journal of Beijing University of Chemical Technology, 2025 , 52(6) : 91 -98 . DOI: 10.13543/j.bhxbzr.2025.06.011

引言

急性阑尾炎(acute appendicitis, AA)是最常见的急腹症之一,具有发病率高、进展快速及潜在严重并发症的特点,因此及时准确的诊断至关重要。多层螺旋CT凭借其高分辨率、快速成像和全面显示解剖结构的优势,已成为临床诊断AA的“金标准”1-2。然而,传统人工CT阅片高度依赖医生经验,存在主观性强、工作强度大、诊断一致性低等问题,误诊率可达15%~20%3-4,在基层医疗机构资源有限的背景下尤为突出。
近年来,深度学习方法,特别是以U⁃Net及其衍生模型为代表的卷积神经网络(convolutional neural network,CNN)在医学图像分割领域的应用取得显著进展5-6。nnU⁃Net框架通过自动化配置网络参数、预处理流程和训练策略,显著降低了模型开发门槛,并在多项国际医学图像分割挑战中展现出卓越的通用性和强大的分割性能,为医学影像智能分析提供了新范式7-8。然而,针对阑尾这类体积小、形态多变、位置不固定的器官进行CT图像自动分割与诊断,仍面临公开标注数据集匮乏、小目标分割精度不足、模型泛化能力有限以及临床决策可解释性弱等关键挑战9-11。如Rajpurkar等9尝试利用视频预训练策略在小样本CT数据上诊断阑尾炎,但其分割精度与鲁棒性仍有较大提升空间;Baştuğ等10应用U⁃Net实现了阑尾的自动检测,但在复杂病例中对于细小阑尾及模糊边界的精确分割效果不佳;Kim等11开发了3D卷积神经网络模型,强调了三维上下文信息的重要性,但对其模型的可解释性尚未深入探讨。这些工作为阑尾炎的AI辅助诊断奠定了初步基础,同时也凸显了解决小目标分割精度与模型决策透明度问题的必要性。为此,本文提出以下3项改进:①设计动态加权复合损失函数,使模型能在训练过程中自适应调节关注重点,从而提升对小目标结构的识别精度;②引入边缘增强监督机制,引导模型聚焦于边界特征,提高分割结果的轮廓精度;③结合SHapley Additive exPlanations(SHAP)值对诊断决策过程进行解释,提升系统在临床应用中的透明度与可接受性。
本文旨在构建一个基于改进nnU⁃Net框架的急性阑尾炎CT影像自动定位与诊断系统。通过优化nnU⁃Net的自适应机制、损失函数设计和训练策略,重点解决小尺寸阑尾组织分割难题,并集成量化分析与诊断决策模块,形成从影像输入到诊断报告输出的完整闭环,为临床提供高效、客观、可解释的AI辅助工具,助力提升基层医疗诊断水平。

1 实验部分

1.1 研究对象

本研究收集了2024年1月—2024年12月中日友好医院60例急性阑尾炎患者的临床及常规CT平扫影像数据。患者中男31例、女29例,年龄范围18至75岁,中位年龄为32岁。纳入的标准如下:1) 无肠道手术史;2) 因急腹症行常规腹部CT平扫检查;3) 通过手术组织病理学确诊为急性阑尾炎。排除标准如下:1) 有肠道肿瘤病史;2) 妊娠期或哺乳期的女性患者;3) 临床资料部分缺失的患者。上述60例患者数据用于构建模型。此外,还收集了2023年10月到12月期间15例急性阑尾炎患者和15例正常患者的CT影像数据,用于评估智能诊断系统的临床诊断效能。
研究经中日友好医院伦理委员会批准(批准号:KY2024-287-01),研究已获病人知情同意。

1.2 扫描方法

采用佳能医疗系统Aquilion 16和通用电气Revolution Maxima螺旋CT设备进行扫描。病人取仰卧位,头先进,扫描范围至少包括肾上极至尺骨联合上缘平面。所有病人均未进行肠道准备。扫描参数:管电压120 kV,自动调控管电流,扫描或重建层厚5 mm,层间距5 mm,转速0.75 s/r,视野450 mm×(450~550)mm×550 mm,螺距0.863~1.014,矩阵512×512。
在硬件平台的GPU云服务器colab工作站上,基于NVIDIA CUDA 10.1环境,采用Python 3.9和Pytorch1.7.1软件进行深度学习模型的构建。

1.3 模型构建与评估

1.3.1 数据集

本研究使用与中日友好医院合作构建的未公开数据集,包含60例经临床确诊的AA患者的全腹盆CT扫描影像。由资深放射科医师使用3D Slicer软件精细标注,共获得271个包含可见阑尾组织的有效CT切片(每个病例约2~5层)。按约8∶2的比例划分为训练集(217个切片)和独立测试集(54个切片)。

1.3.2 影像处理

使用3DSlicer ver5.6.2标记软件在DICOM格式的全腹盆CT平扫影像上进行阑尾标注,之后另存为NRRD文件格式。由2名分别具10、20年诊断经验的影像医师在腹部CT影像(窗宽250 HU,窗位40 HU)上对急性阑尾炎区域逐层勾画感兴趣区(ROI),意见不一致时商讨确定。ROI勾画采用多点勾画法,即在回盲瓣下方约2 cm处找到阑尾,沿着阑尾的边缘勾画,完全覆盖病变组织。

1.3.3 系统框架

本系统整体流程如图1所示,主要包括四大核心模块。
图1 改进nnU⁃Net框架在急性阑尾炎诊断中的应用流程图

Fig. 1 Flowchart of the application of the improved nnU⁃Net framework in acute appendicitis diagnosis

1)数据预处理模块 接收原始腹部CT DICOM/NRRD数据。执行自适应窗宽/窗位调整(将CT值映射至[0,1]范围)、肠道气体伪影抑制(基于形态学操作)、基于数据指纹的智能裁剪(保留有效视野大于98.5%)、各向异性重采样(目标分辨率基于数据集统计确定,准确率92%)及模态特异性归一化(CT采用前景Z⁃score)。
2)nnU⁃Net分割模块 采用改进的nnU⁃Net作为核心分割引擎。基于输入数据特性动态配置网络参数(输入尺寸128×128至512×512,深度4~6层,初始通道数30)。网络使用Leaky ReLU激活函数(负斜率10×10⁻²)并结合实例归一化以稳定训练过程并加速收敛。为了同时兼顾小目标精度与背景区分能力,在Dice损失(L Dice)与交叉熵损失(L CE)的基础上,引入动态加权复合损失函数(L total),其数学形式如下。
L t o t a l = λ e p o c h L D i c e + ( 1 - λ e p o c h ) L C E
式中,L Dice表示Dice损失,用于提升小体积目标(如阑尾)的区域重叠精度;L CE为交叉熵损失,侧重优化前背景像素分类;λ为权重系数,控制两者在训练过程中的贡献比例。
为避免固定权重引起训练早期不稳定或小目标欠拟合的问题,设计了如式(2)所示的动态权重调节策略,使λ随着训练进程线性递增。
λ e p o c h = λ s t a r t + ( λ e n d - λ s t a r t ) e p o c h T
式中,λ start=0.2,λ end=0.8,T为总训练轮数,本研究中设为500,epoch即轮数,为机器学习模型中整个训练数据集被完整使用一次的周期。该策略使模型在初始阶段更多依赖交叉熵损失学习整体结构与边界,后期逐渐提升对Dice损失的关注,以更精准地拟合阑尾等小目标的边缘与形态结构。
为了进一步提高阑尾分割的精度,特别是在边界模糊或对比度低的情况下,在损失函数中融入边缘增强监督。通过使用Sobel算子提取预测和真实标签的边缘,为分割边界区域分配更高的权重,从而增强模型对阑尾边界的关注。具体而言,边缘增强损失通过计算模型输出与真实标签的边缘差异来引导模型聚焦于细小的前景区域。此方法通过加强对小目标分割的关注,显著提高了阑尾边界的定位精度。
3)形态学特征量化模块 对nnU⁃Net输出的阑尾分割掩码进行三维形态学分析,精确计算关键诊断指标:最大横径(D max),通过三维距离变换算法获取;平均直径(D mean),考虑体素间距,排除部分容积效应影响;体积(V),基于分割体素数及体素物理尺寸计算;长径比(ER),通过主成分分析(PCA)确定长轴与短轴之比。
4)临床决策模块 临床决策模块依据Rud等12的系统评价及专家共识,设定诊断阈值(D max ≥ 7 mm, V ≥ 0.5 mL, ER ≤ 2.0)。采用多参数融合决策逻辑(如满足任意两项阈值则判定为阳性)。输出结果包含分割结果可视化、量化指标值及诊断结论。

1.3.4 训练与评估

优化器使用SGD with Nesterov动量(动量为0.99,权重衰减为3×10-5)。学习率初始值为0.01,并采用多项式衰减 l r =0.01×(1-epoch/500)0.9。批量大小(batch size)为2(适配高分辨率输入),训练周期(epochs)为500。使用实时应用旋转(±30°)、缩放、弹性变形、Gamma校正及噪声添加等用于模型学习更具代表性的特征,避免过拟合。模型分割性能采用Dice相似系数和交并比(intersection over union, IoU)进行评价;同时,通过计算关键诊断指标(D maxVER)与金标准标注之间的误差,以评估其量化准确性。此外,记录了系统的平均处理时间。

1.3.5 统计分析

统计分析采用配对t检验(paired t⁃test)以评估各模型或模块间在相同测试切片上的性能差异,显著性水平设定为 p < 0.05。所有性能指标均报告均值±标准差。

2 结果与讨论

2.1 分割性能与结果可视化

改进的nnU⁃Net模型在独立测试集(54个切片)上取得了72.35%的平均Dice系数。图2展示了典型病例的分割结果可视化对比。结果显示,模型能够有效定位不同形态和位置的阑尾组织,即使在周围组织对比度不高的情况下,也能捕捉其主要轮廓。训练过程中的Dice系数变化曲线(图3)显示模型在大约100个epoch后进入稳定提升阶段,并在436个epoch左右达到最佳验证性能。
图2 分割结果可视化

Fig. 2 Visualization of segmentation result

图3 模型训练过程中Dice系数与损失函数变化曲线

Loss_tr为训练集上的L total值;Loss_val为验证集上的L total值;Pseudo_dice(mov.avg)为训练集Dice的移动平均线。

Fig.3 Curves of Dice coefficient and loss function during model training

采用多参数融合的决策策略,结合临床指南设定诊断阈值:D max≥7 mm,V≥0.5 mL,ER≤2.0。当任意两项指标超过阈值时,系统判定为阳性病例。诊断可视化结果如图4所示。
图4 诊断结果可视化

Fig. 4 Visualization of diagnostic results

为验证本文改进模型的有效性,将其与常规nnU⁃Net及当前常用的Transformer U⁃Net(TransUNet) 和Swin Transformer U⁃Net(Swin⁃U⁃Net)进行横向性能对比,结果如表1所示。可以看出,改进模型在Dice系数与IoU两项指标上均显著优于其他对比方法,且推理时间更短,体现出更优的小目标敏感性与实际部署价值。
表1 改进模型与多种分割模型在阑尾CT影像分割任务中的性能对比(n=54)

Table 1 Comparison of appendix segmentation performance between proposed model and other classic models (n = 54)

模型名称 Dice系数/% 与改进模型的p值(Dice) IoU/% 与改进模型的p值(IoU) 平均推理时间/s
nnU⁃Net 68.69 ± 5.1 < 0.001* 54.76 ± 4.7 0.002* 25.7
TransU⁃Net 66.21 ± 4.9 < 0.001* 52.71 ± 4.4 < 0.001* 28.1
Swin⁃U⁃Net 64.52 ± 5.5 < 0.001* 51.12 ± 4.9 < 0.001* 31.3
改进nnU⁃Net 72.35 ± 4.3 56.70 ± 3.8 23.5

所有指标均以均值 ± 标准差表示;p值为配对t检验结果,显著性水平设定为 p < 0.05,*表示统计学显著(p < 0.05)。

为进一步量化各改进模块对模型性能的提升效果,设计了3组消融实验:1)使用基础损失组合 Dice + CrossEntropy(CE);2)引入动态加权机制(λ)以调整前背景权重分配;3)进一步加入边缘增强损失以优化目标轮廓学习。结果如表2所示,可看出动态加权机制在提升Dice与IoU方面带来显著增益(Dice提升2.4%,IoU提升1.86%),边缘增强损失则在模型边界识别方面进一步优化最终性能。实验验证了各模块设计的合理性与增益性。
表2 消融实验中不同模块组合的分割性能对比(n = 54)

Table 2 Performance comparison of different module combinations in ablation study on appendix segmentation (n = 54)

模型名称 Dice系数/% 与最终模型的p值(Dice) IoU/% 与最终模型的p值(IoU)
Dice + CE 68.12 ± 5.9 < 0.001* 54.10 ± 4.7 0.004*
Dice + CE +λ 70.83 ± 4.7 0.008* 55.96 ± 4.1 0.021*
Dice + CE + λ + 边缘增强 72.35 ± 4.3 56.70 ± 3.8

所有指标均以均值 ± 标准差表示;p值为配对t检验结果,显著性水平设定为 p < 0.05,*表示统计学显著(p < 0.05)。

为进一步测试模型的跨器官泛化能力,在未参与训练的公开肝癌CT数据集13上进行了推理评估。尽管该数据与阑尾组织解剖结构存在显著差异,模型在该数据集上的分割表现仍保持一定的可解释性。如表3所示,肝癌CT数据集上的Dice系数及IoU均较在阑尾数据集上的表现大幅下降,体现出模型对任务特定结构的依赖性和分布偏移敏感性。
表3 模型在阑尾与肝癌CT数据集上的分割性能对比

Table 3 Comparison of segmentation performance on appendix and liver CT datasets for generalization evaluation

数据集 测试目标 Dice系数/% p 值(Dice) IoU/% p值 (IoU)
中日友好医院阑尾数据集(n=54) 阑尾组织 72.35 ± 4.30 < 0.001* 56.70 ± 3.80 < 0.001*
肝癌CT数据集(n=130) 肝癌区域 19.2 ± 8.1 10.9 ± 6.3

所有指标以均值 ± 标准差表示;p值为独立样本t检验结果,显著性水平设定为 p < 0.05,*表示统计学显著(p < 0.05)。

2.2 诊断性能评估

为验证智能诊断系统的临床诊断性能,本研究对30例测试集病例进行了多维度评估。结果显示,智能诊断系统在急性阑尾炎CT影像诊断中的表现与不同经验水平的医生有显著差异,见表4。智能诊断系统的灵敏度(73.3%)、特异度(80.0%)和准确率(76.7%)与高年资医生1相似,但低于高年资医生2(灵敏度93.3%、特异度86.7%、准确率90.0%)。低年资医生的诊断表现较差,灵敏度和特异度明显低于智能诊断系统。此外,智能诊断系统的阳性预测值(PPV,即系统判定为阳性的病例中真正患病的比例)(78.6%)和阴性预测值(NPV,即系统判定为阴性的病例中真正未患病的比例)(75.0%)均超过75%,显著优于低年资医生组的个体诊断一致性。如图5所示,智能诊断系统诊断结果与金标准具有良好的一致性,证明了系统诊断的可靠性。
表4 智能诊断系统与放射科医生诊断效能对比(n=30)

Table 4 Comparison of diagnostic performance between intelligent diagnostic system and radiologists (n=30)

评估者 灵敏度/% 特异度/% 准确率/% PPV/% NPV/%
智能诊断系统 73.3±3.2 80.0±2.8 76.7±4.3 78.6±3.5 75.0±3.0
高年资医生1 73.3±4.8 80.0±1.7 76.7±3.5 78.6±3.7 75.0±1.8
高年资医生2 93.3±3.4 86.7±1.0 90.0±1.2 87.5±4.8 92.9±4.4
低年资医生1 53.3±1.2 60.0±3.4 56.7±2.4 57.1±1.4 56.2±4.7
低年资医生2 46.7±3.8 66.7±4.9 56.7±3.6 58.3±1.5 55.6±4.4
低年资医生3 66.7±4.3 73.3±4.9 70.0±4.5 71.4±2.6 68.8±3.3

所有指标均以均值 ± 标准差表示。

图5 智能诊断系统与金标准对比

Fig. 5 Comparison between intelligent diagnostic system and gold standard

2.3 时间效率与临床适用性

为评估系统的临床适用性,本研究在包含30例病例的独立测试集上统计了智能诊断系统与不同年资放射科医生的平均诊断时间。结果如图6所示,智能诊断系统平均耗时(23.5 ± 2.1)s,显著短于各级医生。具体而言,系统耗时仅为高年资医生平均时间的约1/7(高年资医生1:(175.0 ± 25.0)s;高年资医生2:(189.6 ± 30.0) s),以及低年资医生平均时间的约1/10(低年资医生1:(235.2 ± 35.0)s;低年资医生2:(250.8 ± 45.0)s;低年资医生3:(244.9 ± 40.0)s)。
图6 智能诊断系统与不同年资医生平均诊断时间对比

Fig. 6 Comparison of average diagnostic time between intelligent diagnostic system and doctors of different experience levels

进一步分析显示,系统在20 s内可完成97%的病例诊断,而医生组在同一时间内仅完成38%。在模拟基层设备(RTX 3060 GPU)环境下,系统处理速度仍能保持在30 s以内,充分满足了急诊场景对诊断时效的苛刻要求。

2.4 决策可解释性分析

为进一步增强模型决策的透明度与可解释性,本文引入了SHapley Additive exPlanations(SHAP)值进行诊断机制分析。通过构建模拟数据,量化不同参数对模型输出的影响,揭示其交互效应。分析结果(图7)显示,最大直径D max(SHAP值为0.42)为主导特征,贡献最大,其次是病灶面积(SHAP值为0.31)。当D max ≥ 6.5 mm时,SHAP值显著增加,与临床上7 mm的判断阈值一致(图8)。此外,D max与病灶面积之间的交互效应SHAP值为0.15,能够解释32%的边界病例诊断差异(图8)。
图7 SHAP特征贡献度

Fig. 7 SHAP feature contribution

图8 最大直径D max与病灶面积的交互SHAP值分析

Fig. 8 Interaction SHAP value analysis of maximum diameter D max and lesion area

3 结论

本研究基于改进的nnU⁃Net框架,开发并验证了一套急性阑尾炎CT影像自动定位与诊断系统。该系统利用数据驱动的自适应配置、动态加权复合损失函数以及边缘增强监督机制,有效解决了小尺寸阑尾组织分割的挑战。在独立测试集上系统获得了72.35%的Dice系数,显示了在有限标注数据条件下的强大分割能力。同时,针对阑尾炎的关键诊断指标(如最大直径D max、体积V和长径比ER),模型的量化误差均低于5%,证明了其在临床中的高可靠性。
与不同经验水平医生诊断结果的对比显示,本文构建的智能诊断系统在急性阑尾炎CT诊断中表现出良好的综合性能,在灵敏度(73.3%)、特异度(80.0%)和准确率(76.7%)方面与高年资医生水平相当,并显著优于低年资医生组;其阳性预测值(78.6%)与阴性预测值(75.0%)进一步体现了诊断的可靠性。同时,系统平均诊断时间仅需23.5 s,远低于各年资医生的诊断耗时,展现出显著的效率优势。此外,通过引入SHAP可解释性分析增强了模型决策过程的透明度,为该系统在急诊与基层医疗场景中的推广应用提供了有力支持。
综上所述,本文开发的AI诊断系统在准确性、效率和可解释性方面具有明显优势,因此在未来的临床应用中具有广阔的前景。未来的工作将重点扩展数据集、优化算法,并探索多中心验证及更多实际应用场景,以推动该系统在实际临床中的推广和应用。
[1]
LU K ZHONG F R MIAO J, et al. Assessment of diagnostic value of ultrasound and multi⁃slice spiral computed tomography in acute appendicitis: a retrospective study[J]. Abdominal Radiology202550(3): 1117-1122.

[2]
WESTFALL K M PURCELL L N CHARLES A G. Computed tomography for acute appendicitis diagnosis and confirmation in men: trends and cost implications[J]. The American Surgeon202187(3): 364-369.

[3]
IN’T HOF K H KRESTIN G P STEIJERBERG E W, et al. Interobserver variability in CT scan interpretation for suspected acute appendicitis[J]. Emergency Medicine Journal200926: 92-94.

[4]
FERSAHOĞLU M M ÇİYİLTEPE H ERGIN A, et al. Effective use of CT by surgeons in acute appendicitis diagnosis[J]. Ulusal Travma ve Acil Cerrahi Dergisi202127: 43-49.

[5]
YAO W J BAI J J LIAO W, et al. From CNN to transformer: a review of medical image segmentation models[J]. Journal of Imaging Informatics in Medicine202437(4):1529-1547.

[6]
PAN P ZHANG C X SUN J B, et al. Multi⁃scale conv⁃attention U⁃Net for medical image segmentation[J]. Scientific Reports202515: 12041.

[7]
ISENSEE F JAEGER P F KOHL S A A, et al. nnU⁃Net: a self⁃configuring method for deep learning⁃based biomedical image segmentation[J]. Nature Methods202118: 203-211.

[8]
GONZÁLEZ C RANEM A DOS SANTOS D P, et al. Lifelong nnU⁃Net: a framework for standardized medical continual learning[J]. Scientific Reports202313: 9381.

[9]
RAJPURKAR P PARK A IRVIN J, et al. AppendiXNet: deep learning for diagnosis of appendicitis from a small dataset of CT exams using video pretraining[J]. Scientific Reports202010: 3958.

[10]
BAŞTUĞ B T GÜNERI G YILDIRIM M S, et al. Fully automated detection of the appendix using U⁃Net deep learning architecture in CT scans[J]. Journal of Clinical Medicine202413: 5893.

[11]
KIM M PARK T KANG J, et al. Development and validation of automated three⁃dimensional convolutional neural network model for acute appendicitis diagnosis[J]. Scientific Reports202515: 7711.

[12]
RUD B, VEJBORG T S RAPPEPORT E D, et al. Computed tomography for diagnosis of acute appendicitis in adults[J]. Cochrane Database of Systematic Reviews2019(11): CD009977.

[13]
ANDREWMVD L. Liver tumor segmentation⁃part 2 [DB/OL]. [2025-06-10].

Outlines

/