欢迎访问北京化工大学学报(自然科学版),今天是
Email Alert  RSS
机电工程和信息科学

基于轻量化DeblurGAN⁃MobileNet模型的混凝土裂缝图像识别

  • 张瑞杰 ,
  • 祝海江
展开
  • 北京化工大学 信息科学与技术学院,北京  100029

男,1997年生,硕士生

收稿日期: 2024-07-15

  网络出版日期: 2026-04-14

基金资助

国家自然科学基金(92367111)

Image recognition of concrete cracks based on the lightweight DeblurGAN⁃MobileNet model

  • RuiJie ZHU HaiJiang ZHANG
Expand
  • College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China

Received date: 2024-07-15

  Online published: 2026-04-14

摘要

基于神经网络模型的混凝土表面裂缝图像识别已成为有效的混凝土建筑物缺陷识别方法并得到广泛关注。然而,由于无人机、智能车等搭载的识别设备在运动过程中获取的图像模糊影响了裂缝识别的准确性,并且深度神经网络模型的复杂度较高,限制了其在资源受限的混凝土裂缝智能识别设备上的开发应用。因此,设计了一种基于轻量化的去模糊生成对抗网络和可移动网络(deblurring generative adversarial network and mobile network,DeblurGAN⁃MobileNet)模型的混凝土裂缝图像识别网络,有效提升了在运动模糊背景下混凝土裂缝图像识别的准确度及推理速率。首先,在去运动模糊网络DeblurGAN⁃V2的特征金字塔网络(feature pyramid network,FPN)中,采用“X”型的交叉网络对特征金字塔网络的内部结构进行改进,解决了在图像的跨尺度特征融合过程中因不同尺度特征的分辨率不同,造成特征融合分辨率贡献不均,以及最高维和最低维的特征融合图像信息丢失大的问题;然后,在图像分类网络MobileNetV3的Bottleneck中加入不同空洞率的空洞卷积并逐级联入网络,降低了网络计算复杂度,同时能够在不改变图像尺寸的情况下增大感受视野,提升识别准确率。在不同数据集上的运动模糊复原和裂缝图像识别实验结果表明,所提方法在去运动模糊效果和运动模糊背景下的识别精度方面表现优异。在GOPRO运动模糊数据集和自制混凝土图像数据集上的峰值信噪比(PSNR)分别达到了23.51和21.95,对混凝土裂缝图像的识别精准率为0.889,且推理速率高,平均每张图像仅需0.47 s。

本文引用格式

张瑞杰 , 祝海江 . 基于轻量化DeblurGAN⁃MobileNet模型的混凝土裂缝图像识别[J]. 北京化工大学学报(自然科学版), 2026 , 53(2) : 99 -109 . DOI: 10.13543/j.bhxbzr.2026.02.011

Abstract

Image recognition of concrete surface cracks using neural network models has become an effective method for identifying defects in concrete buildings. However, the accuracy of crack recognition is affected by the fuzzy images acquired during the motion of recognition devices mounted on drones and smart vehicles. The high complexity of deep neural network models limits their application in devices for the intelligent identification of concrete cracks. Therefore, in this work, a lightweight concrete crack image recognition network based on a deblurring generative adversarial network and mobile network (DeblurGAN-MobileNet) model has been designed to effectively improve the accuracy and inference rate of concrete crack image recognition in motion blur background. Firstly, in the feature pyramid network (FPN) of DeblurGAN-V2 for motion deblurring, we adopted an “X”⁃shaped cross network to improve the internal structure of the FPN. This addresses the issue of uneven resolution contribution and significant information loss in the highest and lowest dimensions during cross-scale feature fusion. Secondly, we incorporated dilated convolutions with different dilation rates into the Bottleneck of the MobileNetV3 image classification network and gradually cascaded them through the network. This not only reduces the computational complexity of the network but also enlarges the receptive field without altering the image dimensions, ultimately enhancing recognition accuracy. The experimental results of motion blur restoration and crack image recognition on different datasets show that our method performs excellently in terms of motion blur removal and recognition accuracy with a motion blur background. Using the GOPRO dataset and a self-made concrete image dataset, the peak signal-to-noise ratio (PSNR) reached 23.51 and 21.95, respectively. Using this method, the recognition accuracy (P) for concrete crack images was 0.889, with an average fast inference speed of only 0.47 seconds per image.

引言

混凝土建筑物(如公路、桥梁、楼房)在长期运输荷载、阳光曝晒及雨水腐蚀等环境因素作用下会产生不同程度的裂缝。这些裂缝不仅威胁混凝土建筑物的结构完整性和安全性,更会对公众安全构成潜在风险。因此,对混凝土裂缝的高效、准确识别成为评估混凝土建筑物安全性的关键。目前,混凝土建筑物的种类和数量剧增且分布地势日趋复杂,使得裂缝识别工作面临巨大挑战。随着计算机技术的高速发展,无人机、智能车等所搭载的基于数字图像处理技术的混凝土裂缝智能识别设备代替了传统的人工识别,成为当前最常用的混凝土裂缝识别方法,具有经济性、安全性和高效性等优点。
在早期的混凝土裂缝图像识别方法的研究中,传统的数字图像处理识别算法得到广泛应用。根据刘宇飞等1的总结,传统的数字图像处理识别算法对阈值参数依赖性较高,导致其在面对光照条件不足、噪声大等诸多复杂环境时鲁棒性不强。
随着深度学习的迅速发展,基于神经网络模型的混凝土裂缝图像识别方法突破了传统图像处理方法的局限,提高了图像分类和识别的准确度。Ren等2基于卷积神经网络(CNNs)在像素水平上分割路面裂缝,实现了裂纹的自动识别与定位。Nguyen等3在同一数据集上分析了26个基于深度学习的裂纹识别模型,并基于子区域分类综合思想实现了道路裂缝识别。尽管以上基于深度神经网络的混凝土裂缝识别算法在测试中表现良好,但模型复杂度较高,限制了在资源受限的混凝土裂缝智能识别设备的AI芯片上的开发应用。特别需要指出的是,它们通常针对静态清晰图像。
由无人机、智能车等搭载的混凝土裂缝智能识别设备在实际识别过程中由于相对运动和相机抖动等原因不可避免地会产生图像运动模糊4,影响了裂缝识别的准确性。Chen等5采用维纳滤波去模糊和support vector machine(SVM)决策树分类器设计了一款爬壁机器,实现了在运动中对混凝土裂缝的识别,但维纳滤波去运动模糊中的模糊核参数依赖于当前环境进行先验设置,泛化能力较差,且分类器算法效率较低。
针对模糊图像影响裂缝识别的准确性,以及复杂度较高的神经网络模型限制了其在资源受限的混凝土裂缝智能识别设备上的开发应用等问题,本文设计了一种基于轻量化deblur generative adversarial network mobile net(DeblurGAN⁃MobileNet)模型的混凝土裂缝图像识别网络,可提高设备在运动中对混凝土裂缝图像识别的准确度及推理速率。该网络主要由改进的DeblurGAN⁃V2网络和MobileNetV3网络组成。首先基于DeblurGAN⁃V2的特征金字塔网络(feature pyramid network,FPN),设计了一种在输出端加入了卷积注意力模块(convolutional block attention module,CBAM)的交叉“X”型加权双向特征金字塔结构(BiFPN⁃XC);然后在MobileNetV3的残差模块(Bottleneck)中引入不同空洞率的空洞卷积,并逐级联入MobileNetV3网络中。在GOPRO运动模糊数据集和自制混凝土图像数据集上的实验结果表明,本文方法有效提升了运动模糊背景下混凝土裂缝图像识别性能。

1 DeblurGAN与MobileNet网络

在数字图像中,常见的图像模糊有运动模糊、高斯模糊、散焦模糊等,其中最主要的是运动模糊。传统的单图像运动去模糊分为非盲去模糊和盲去模糊两类方法,前者在模糊核已知情况下进行图像去模糊,后者则模糊核未知,需同时估计模糊核和清晰图像。深度学习技术的兴起推动了图像恢复任务的突破。Ren等6提出一种卷积神经网络用于模糊核估计。除了基于模糊核估计的方法外,Nah等7还开创了端到端的CNN方法,探索从模糊图像中直接恢复清晰图像的可能性。Kupyn等8利用生成对抗网络(GAN)的思想,引入去模糊生成对抗网络(deblurring generative adversarial network, DeblurGAN)实现端到端的单图像去运动模糊;为了进一步提升去模糊效果,他们又在DeblurGAN的基础上推出了DeblurGAN⁃V29,采用内部包含最小二乘损失和双尺度的相对论判别器,并将原本用于目标检测的FPN10引入到网络中来组合多尺度特征,其去模糊效果相比于DeblurGAN有较大提升。Vasavi等11在FPN之上增加了一个额外的自下而上的路径聚合网络(PANet)对DeblurGAN⁃V2进行改进,以减少FPN在多尺度特征融合过程中因单向传递造成的信息缺失,但也存在网络连接冗余和不同分辨率的输入图像在跨尺度特征融合时贡献不均衡的问题,亟待有更直观、更有原则的方式优化多尺度特征融合。
近年来,设计深度神经网络架构以在精度和效率之间达到最佳权衡成为研究领域的热点。传统的轻量化技术主要关注于减少参数数量,而最近的研究则将重点转移到减少操作数量和实际测量的延迟上。MobileNet系列作为轻量化模型中的经典网络,由Google公司针对手机等嵌入式设备提出。MobileNetV1结构简单、没有特征融合,采用深度可分离卷积(DSC)和激活函数在低维度(通道数)处理图像数据,从而降低标准卷积核的参数量,提高计算效率12,但这样容易造成图像数据的信息丢失,降低了模型的表达能力。MobileNetV2针对以上问题在MobileNetV1基础上进行改进13,引入了一个具有倒置残差(inverted residuals)和线性瓶颈(linear bottleneck)的资源高效块(inverted bottleneck)。首先通过增加图像信息维度(通道数)在高维空间利用DSC进行计算,然后利用普通卷积在低维空间融合存储图像信息,以此来增强模型的表达能力。但高维空间的DSC计算增加了模型的操作数量,降低了计算效率。为了更好地改善模型的表达能力和计算效率,研究人员在MobileNetV3中引入挤压激励(squeeze⁃and⁃excitation,SE)注意力机制和H⁃Swish激活函数对MobileNetV2的Bottleneck和网络结构进行改进,其在图像分类任务中相比于MobileNetV2正确率上升了3.2%,计算延时降低了20%14。但由于MobileNetV3主要针对移动设备,其输入图像尺寸较小,导致网络中的感受野较小,在处理小尺寸图像信息时表现不佳,需要在实际任务场景中对模型的表达能力和计算效率寻求更好的平衡。

2 轻量化混凝土裂缝图像识别网络

本文以运动模糊复原网络DeblurGAN⁃V2和图像分类网络MobileNetV3作为基础网络来设计轻量化混凝土裂缝图像识别网络,总体框架如图1所示。将原始模糊的混凝土图像经过改进的DeblurGAN⁃V2网络去模糊后,再输入到改进的MobileNetV3网络中进行裂缝识别。
图1 轻量化混凝土裂缝图像识别网络框图

Fig. 1 Block diagram of the lightweight concrete crack image recognition network

2.1 BiFPN⁃XC模块

DeblurGAN⁃V2网络中的FPN结构如图2(a)所示,从主干网络输出的图像经过FPN后输出5个不同尺度的特征图,这些特征图随后被上采样到相同的1/4输入大小,并连接成一个包含不同级别语义信息的张量。然而,FPN架构在多尺度特征提取的下采样过程中会造成高层特征信息丢失,导致在后续的多尺度特征融合中无法捕获原始图像的完整特征信息。针对此问题,本文引入加权双向特征金字塔结构(BiFPN)15,如图2(b)所示,采用双向的采样路径来进行多尺度特征融合,并加入可学习的权重w以衡量不同尺度特征的重要性,解决不同分辨率的特征图像在多尺度特征融合中对最终输出的图像特征信息贡献不均衡的问题。本文还针对BiFPN在跨尺度特征融合过程中最高维和最低维的特征融合图像信息丢失大的问题,对BiFPN的结构进行改进,得到一个新的BiFPN⁃XC如图2(c)所示。采用“X”型的交叉网络对BiFPN的内部结构进行变形,为了提升特征提取性能,在每个输出端加入了CBAM。BiFPN⁃XC模块的P4级传输过程中的两个融合输出由式(1)(2)描述。
P 4 t d = C o n v w 1 P 4 i n + w 2 R e s i z e P 5 i n w 1 + w 2 + ε
P 4 o u t = C o n v w 1 ' P 4 i n + w 2 ' P 4 t d + w 3 ' R e s i z e P 3 o u t w 1 ' + w 2 ' + w 3 ' + ε
式中, P 4 t d为P4级中间点特征图像的加权融合输出; P 4 o u t为P4级末端特征图像的加权融合输出; ε用来避免算法训练过程中的数值不稳定,取值为0.001;w 1w2 w 1 ' w 2 ' w 3 '为随机初始化的学习权重值;Resize()表示对括号中的特征图进行尺寸调整。
图2 DeblurGAN⁃V2中不同的特征金字塔结构

Fig.2 Different feature pyramid structures in DeblurGAN⁃V2

2.2 MobileNetV3⁃level network connection(LNC) Bottleneck模块

MobileNetV3网络主要由不同参数的Bottleneck构成网络层,其轻量化采取了将网络连接中的部分Bottleneck的卷积步长设置为2的方法,以减小输入图像在网络中的尺寸来提升计算效率。为了进一步轻量化MobileNetV3网络,使算法的效率和准确度达到最佳平衡,本文引入空洞卷积来重新设计MobileNetV3的Bottleneck。空洞卷积模块通过间隔插值的方式来降低网络计算复杂度,同时能够在不改变图像尺寸的情况下增大感受视野,即使较小尺寸的输入图像的全局上下文信息也能够贯穿整个网络,保证算法的准确度16。本文在MobileNetV3的基础上对卷积步长为2的Bottleneck加入不同空洞率的空洞卷积,并逐级联入MobileNetV3网络中,将这种新的MobileNetV3网络命名为MobileNetV3⁃LNC。MobileNetV3⁃LNC中的级联式Bottleneck如图3所示,其中dil为空洞率,k为空洞卷积核的大小。
图3 MobileNetV3⁃LNC中的级联式Bottleneck

Fig. 3 Cascading Bottleneck in MobileNetV3⁃LNC

2.3 评价指标

本文采用图像质量评价中常用的峰值信噪比PSNR和结构相似性SSIM来评估运动模糊复原模型的去模糊性能;采用二分类中的F分数值、精准率P和召回率R来评估分类模型的识别性能。具体计算公式如式(3)~(7)所示。
P S N R = 10 × l g M A X 2 M S E
S S I M ( x , y ) = ( 2 u x u y + C 1 ) ( 2 σ x y + C 2 ) ( u x 2 + u y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 )
P = T P T P + F P
R = T P T P + F N
F = 2 × P × R P + R
式中,MAX表示图像中像素最大值,MSE表示原始图像与复原图像像素之间的均方误差;ui 表示图像平均亮度,σxy 表示协方差,σ i 2表示方差;TP表示正确预测的正例数量,FP表示错误预测为正例的负例数量,FN表示错误预测为负例的正例数量。

3 实验与结果分析

3.1 数据集

本文使用数据集包括公用GOPRO运动模糊数据集17、Concrete Crack Images for Classification(CCIC)数据集18、Structural Defects Network(SDNET)2018数据集19、CrackForest 数据集和CrackTree200数据集。利用CCIC数据集和SDNET2018数据集制作出非雨天气下的混凝土图像运动模糊数据集,它包含96 092张混凝土图像,其中裂缝图像28 484张,无裂缝图像67 608张;利用CrackForest数据集和CrackTree200数据集制作出雨水天气下的混凝土图像运动模糊数据集,它包含500张混凝土图像,其中裂缝图像318张,无裂缝图像182张。最后将数据集按照8∶1∶1的比例随机划分为训练集、验证集和测试集。
混凝土图像运动模糊数据集的制作步骤如下:首先生成初始运动模糊核,模拟匀速过程中的运动模糊,设置对角线元素个数范围为10~15,随机生成一个对角线为1、其余为0的矩阵,表示沿一个方向的运动模糊程度;然后设置旋转角度范围为0°~5°,使用OpenCV的getRotationMatrix2D和warpAffine函数将初始模糊核旋转到随机指定的角度;最后将模糊核矩阵归一化,使其所有元素的和为1,生成运动模糊核矩阵,再使用OpenCV的filter2D函数将其应用到原始高清图像上,生成对应模糊核大小的运动模糊图像。5张随机生成的混凝土运动模糊图像如图4所示。而后,将CrackForest和CrackTree200对应生成的运动模糊图像数据集进一步处理。使用 OpenCV 的 line 函数进行图像处理,通过在图像上添加雨滴形状的线条模拟降雨的效果,将细长、透明的线条随机分布在图像上,生成真实的雨滴效果,最终生成雨水天气下的混凝土图像数据集。图5展示了4张模拟雨水天气下的混凝土运动模糊图像。
图4 随机生成的混凝土运动模糊图像

Fig. 4 Randomly generated concrete motion blur images

图5 模拟雨水天气的混凝土运动模糊图像

Fig. 5 Concrete motion blur images simulating rainy weather

3.2 实验环境与配置

本文实验所用计算机配置如下:处理器为Intel(R) Core(TM) i7⁃14700KF,内存46G,显卡版本为NVIDIA GeForce RTX 4090 D,每张GPU分配14核CPU。在计算机上基于Linux操作系统搭建软件开发环境,编译语言使用python3.1.2,安装Anaconda23.3.1管理python环境,使用pytorch2.0.1深度学习框架和VS Code 1.90集成开发环境。在网络模型的训练过程中,将epoch数设置为100,batch_size数设置为64,并选用Adam作为优化器,学习率设置为0.000 1;设置训练的前3个epoch进行学习率的“热身(warmup)”调整,使模型可以在训练初期更稳定地收敛,同时为了防止训练过程中的过拟合现象,使用线性学习率调度器linear,从第50个epoch开始学习率呈线性下降趋势。

3.3 结果与讨论

本文以CCIC数据集和SDNET2018数据集分别作为有无裂缝的二分类数据集,以Resnet18为基础网络,分别将空间注意力机制(包含自注意力(self⁃attention)机制和非局部(non⁃local)注意力机制)、通道注意力机制(包含SE注意力机制和选择性内核(selective kernel,SK)注意力机制)和混合注意力机制(包含CBAM注意力机制和双重注意力网络(dual attention network,DANet)机制)这3类6种注意力机制模块加入到用于二分类任务的Resnet18网络中,由此得到不同注意力机制在分类任务中对二分类综合评价指标F的影响,对比实验结果见表1
表1 不同注意力机制模块在二分类任务中的表现

Table 1 Performance of different attentional mechanism modules in the dichotomous categorization task

类别 网络模块 F
基础网络 Resnet18 78.70
空间注意力机制 +self⁃attention 79.01
+non⁃local 79.22
通道注意力机制 +SE 80.42
+SK 82.34
混合注意力机制 +CBAM 81.79
+DANet 82.05
因为注意力机制的主要作用是帮助网络模型更有效地聚焦在最相关的信息上,从而提高特征提取的性能和模型表达能力,所以本文选取二分类任务中表现较好的SK、CBAM、DANet这3种注意力机制模块作为用于BiFPN模块改进的候选注意力机制模块。在后续实验中将SK、DANet注意力机制分别替换到本文设计的BiFPN⁃XC模块中的CBAM对应位置,进行对比实验。
然后在GOPRO数据集和有无雨水两种天气的混凝土图像运动模糊数据集上评估不同运动模糊复原网络的去模糊性能,其中包括带有FPN、BiFPN和3种不同注意力机制SK、CBAM、DANet的“X”型BiFPN(分别记作BiFPN⁃XS、BiFPN⁃XC、BiFPN⁃XD)模块的DeblurGAN⁃V2网络,以及经典的DeepDeblur网络和Scale Recurrent Network(SRN)网络。将不同网络在不同数据集的同一张图像上运动模糊复原前后与高清图像进行对比,结果如图6所示,实验结果见表2~4
图6 不同网络在不同数据集的同一张图像上运动模糊复原前后与高清图像的对比

Fig.6 Comparison of different networks on the same image on different datasets before and after motion blur recovery with HD images

表2 GOPRO数据集上的运动模糊复原实验结果

Table 2 Motion⁃blur recovery experiment results for the GOPRO dataset

网络 金字塔结构 PSNR SSIM

单张图片

处理时间/s

SRN20 - 25.10 0.890 2.10
DeepDeblur [7] - 24.42 0.812 4.03
DeblurGAN⁃V2 FPN 23.34 0.678 0.06
DeblurGAN⁃V2 BiFPN 23.45 0.682 0.10
DeblurGAN⁃V2 BiFPN⁃XS 23.54 0.693 1.58
DeblurGAN⁃V2 BiFPN⁃XC 23.51 0.691 0.12
DeblurGAN⁃V2 BiFPN⁃XD 23.47 0.687 1.02
表3 无雨天气混凝土图像运动模糊数据集上的运动模糊复原实验结果

Table 3 Motion⁃blur recovery experiment results on a motion blur dataset of concrete images with no raindrop

网络 金字塔结构 PSNR SSIM

单张图片

处理时间/s

SRN20 - 22.87 0.675 1.90
DeepDeblur [7] - 21.24 0.640 4.01
DeblurGAN⁃V2 FPN 19.94 0.569 0.05
DeblurGAN⁃V2 BiFPN 20.71 0.580 0.08
DeblurGAN⁃V2 BiFPN⁃XS 21.03 0.631 1.46
DeblurGAN⁃V2 BiFPN⁃XC 20.87 0.628 0.11
DeblurGAN⁃V2 BiFPN⁃XD 20.79 0.624 0.97
表4 模拟雨水天气混凝土图像运动模糊数据集上的运动模糊复原实验结果

Table 4 Motion⁃blur recovery experiment results on a motion blur dataset of concrete images with simulated raindrop

网络 金字塔结构 PSNR SSIM

单张图片

处理时间/s

SRN20 - 23.21 0.693 2.31
DeepDeblur [7] - 22.81 0.672 3.97
DeblurGAN⁃V2 FPN 20.94 0.571 0.07
DeblurGAN⁃V2 BiFPN 21.71 0.581 0.10
DeblurGAN⁃V2 BiFPN⁃XS 22.02 0.629 1.59
DeblurGAN⁃V2 BiFPN⁃XC 21.95 0.633 0.11
DeblurGAN⁃V2 BiFPN⁃XD 21.91 0.630 1.21
不同去运动模糊网络在3个数据集上的实验结果表明,虽然两个经典网络在运动模糊复原后图像上的PSNR值和SSIM值均比DeblurGAN⁃V2网络高,但其单张图片处理时间相比DeblurGAN⁃V2网络至少多用了0.44 s。同时,带有BiFPN⁃XC模块的DeblurGAN⁃V2网络的PSNR值和SSIM值与带有BiFPN⁃XS和BiFPN⁃XD模块的DeblurGAN⁃V2网络接近,但在三者中,带有BiFPN⁃XC模块的DeblurGAN⁃V2网络的处理速度最高。此外,与原始带有FPN模块的DeblurGAN⁃V2网络相比,带有BiFPN-XC模块的DeblurGAN⁃V2网络在3个数据集上的PSNR值分别提升了0.17、0.93和1.01,SSIM值分别提升了0.013、0.059和0.062,且将单张图片处理时间控制在了0.12 s以内。综合以上分析,带有BiFPN⁃XC模块的DeblurGAN⁃V2网络在提升图像运动模糊复原效果的同时很好地兼顾了图像处理速率,相较于其他网络更符合轻量化模型网络的需求。
随后,将去运动模糊实验中表现较好的带有BiFPN⁃XC模块的DeblurGAN⁃V2分别与MobileNetV3、MobileNetV3⁃LNC、ShuffleNetV2和EfficientNetV2这4个单模型网络组合,并结合经典的维纳滤波⁃SVM裂缝运动识别网络在有无雨水两种混合天气的混凝土图像运动模糊数据集上对双模型网络的识别效果进行评估,实验结果见表5
表5 不同网络在混合天气的混凝土图像运动模糊数据集上的裂缝图像识别实验结果

Table 5 Experiment crack image recognition by different networks for the mixed weather concrete image motion blur dataset

网络 P R F 单张图片处理时间/s
单模型 MobileNetV3 0.603 0.625 0.614 0.40
MobileNetV3⁃LNC 0.641 0.634 0.637 0.38
ShuffleNetV221 0.468 0.493 0.480 0.32
EfficientNetV222 0.745 0.525 0.616 0.87
双模型 MobileNetV3(DeblurGAN⁃V2) 0.855 0.884 0.850 0.51
MobileNetV3⁃LNC(DeblurGAN⁃V2) 0.889 0.912 0.900 0.47
ShuffleNetV2(DeblurGAN⁃V2) 0.715 0.772 0.742 0.49
EfficientNetV2(DeblurGAN⁃V2) 0.901 0.897 0.899 1.17
- 维纳滤波⁃SVM5 0.763 0.825 0.793 1.97
实验结果表明,4个单模型网络在混凝土图像运动模糊数据集上表现较差,而由DeblurGAN⁃V2和4个单模型网络分别构成的双模型网络模型的PRF值均得到了较大提升。在单模型网络中,MobileNetV3⁃LNC网络的F值最大,相比MobileNetV3网络的F值提升了0.023。在双模型网络中,MobileNetV3⁃LNC(DeblurGAN⁃V2)网络的F值最大,且相比于F值接近的EfficientNetV2(DeblurGAN⁃V2)网络,其单张图片处理时间减少了约50%。MobileNetV3⁃LNC(DeblurGAN⁃V2)双模型网络的PRF值分别比经典的维纳滤波⁃SVM高出0.126、0.087、0.107,且单张图像的识别时间缩短至原来的约20%。综合以上分析可知,基于MobileNetV3⁃LNC(DeblurGAN⁃V2)的双模型网络对带有运动模糊的混凝土图像的裂缝识别精度更高且更有效,其在10张混合天气的混凝土运动模糊图像的裂缝识别结果如图7所示。
图7 MobileNetV3⁃LNC(DeblurGAN⁃V2)网络对10张混合天气的混凝土运动模糊图像的裂缝识别结果

Fig. 7 Crack recognition results of the MobileNetV3⁃LNC (DeblurGAN⁃V2) network for ten mixed weather concrete motion⁃blur images

本文还进行了消融实验,在混凝土图像运动模糊数据集上进一步验证双模型网络中改进模块的有效性。首先通过原始MobileNetV3进行混凝土裂缝识别,验证3种不同特征金字塔结构的DeblurGAN⁃V2的去模糊效果对混凝土裂缝识别的有效性;然后再保持原始DeblurGAN⁃V2结构进行去模糊,验证改进前后Bottleneck模块的MobileNetV3对混凝土裂缝识别的有效性。实验结果见表6
表6 双模型网络在混凝土图像运动模糊数据集上的消融实验结果

Table 6 Dual model network ablation experiment results for the concrete image motion blur dataset

运动模糊复原网络 裂缝识别网络 P R F 单张图片处理时间/s
DeblurGAN⁃V2(FPN) MobileNetV3 0.816 0.824 0.820 0.42
DeblurGANV2(BiFPN) MobileNetV3 0.848 0.869 0.858 0.45
DeblurGANV2(BiFPNXC) MobileNetV3 0.889 0.912 0.900 0.47
DeblurGAN⁃V2(FPN) MobileNetV3LNC 0.838 0.836 0.837 0.39
表6表明,在保持使用原始MobileNetV3网络进行混凝土裂缝识别的情况下,DeblurGAN⁃V2网络中特征金字塔模块的改进对混凝土裂缝识别性能具有显著影响,其中全新的BiFPNXC结构相较于原始的FPN结构,MobileNetV3网络的F值提升了0.08。而保持DeblurGANV2网络中原始的FPN结构进行去模糊时,相比原始的MobileNetV3网络,对其中的Bottleneck模块改进后,得到的MobileNetV3LNC网络在混凝土裂缝识别任务中的F值提升了0.017,同时单张图像的处理时间从0.42 s缩短至0.39 s。综合以上分析,本文所设计的BiFPN⁃XC和MobileNetV3⁃LNC均能够有效提升混凝土裂缝图像识别网络对混凝土裂缝的识别准确率和推理速率。
最后,为了验证本文提出的网络模型在现实世界中的有效性,以文献[23]中的大疆MavicAir2四旋翼无人机,配备相机采集视角为-90°~+24°(视角平视为0°,向下为负,向上为正)的七目视觉系统在野外采集的2 000张混凝土桥梁图像为数据集,对本文训练好的模型进行测试,在包含750张裂缝图像的数据集中,识别到裂缝图像661张,得到裂缝识别评价指标PRF的值分别为0.882、0.893、0.887,充分体现了本文提出的网络模型在实际工程应用中的有效性。

4 结束语

本文基于运动模糊复原网络DeblurGAN⁃V2和图像分类网络MobileNetV3设计了一种轻量化混凝土裂缝图像识别网络,通过改进DeblurGAN⁃V2网络中的FPN得到新的结构BiFPN⁃XC,同时在MobileNetV3网络中级联不同空洞率的Bottleneck,得到新的MobileNetV3⁃LNC网络。产生运动模糊的混凝土图像经过DeblurGAN⁃V2网络去模糊后再由MobileNetV3⁃LNC网络进行处理,以此实现对混凝土裂缝图像高效、准确的识别。实验结果表明,该方法在本文模拟制作的混凝土图像运动模糊数据集上对混凝土裂缝图像的识别性能显著优于传统方法维纳滤波-SVM,F值由0.793提升到了0.900,单张图片处理时间由1.97 s缩短为0.47 s,识别精度和处理速率均得到了有效提升。此外,采用所提方法对现实采集的混凝土桥梁图像进行裂缝识别时,其F值达到了0.887,展现出了良好的鲁棒性,为资源受限的混凝土裂缝图像智能识别与巡检设备提供了可靠且高效的算法支持。
[1]
刘宇飞,樊健生,聂建国,等. 结构表面裂缝数字图像法识别研究综述与前景展望[J]. 土木工程学报202154(6): 79-98.

LIU Y F FAN J S NIE J G, et al. Review and prospect of digital⁃image⁃based crack detection of structure surface[J]. China Civil Engineering Journal202154(6): 79-98. (in Chinese)

[2]
REN R Q LIU F SHI P X, et al. Preprocessing of crack recognition: automatic crack⁃location method based on deep learning[J]. Journal of Materials in Civil Engineering202335(3): 04022452.

[3]
NGUYEN S D TRAN T S TRAN V P, et al. Deep learning⁃based crack detection: a survey[J]. International Journal of Pavement Research and Technology202316: 943-967.

[4]
ZHANG K H REN W Q LUO W H, et al. Deep image deblurring: a survey[J]. International Journal of Computer Vision2022130: 2103-2130.

[5]
CHEN Y MEI T WANG X J, et al. A bridge crack image detection and classification method based on climbing robot[C]∥2016 35th Chinese Control Conference (CCC). Chengdu, 2016: 4037-4042.

[6]
REN G H WANG W WEI H Y, et al. Motion blur fuzzy blind removal algorithm for character images in gradient domain and deep learning[J]. Scientific Programming20222022: 6268430.

[7]
NAH S J KIM T H LEE K M. Deep multi⁃scale convolutional neural network for dynamic scene deblurring[C]∥The 30th IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2017). Honolulu, 2017: 257-265.

[8]
KUPYN O BUDZAN V MYKHAILYCH M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 8183-8192.

[9]
KUPYN O MARTYNIUK T WU J R, et al. DeblurGAN⁃v2: deblurring (orders⁃of⁃magnitude) faster and better[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, 2019: 8877-8886.

[10]
DONG S F WANG R J DU J M, et al. Enhancement⁃fusion feature pyramid network for object detection[J]. Journal of Electronic Imaging202332(1): 13045.

[11]
VASAVI S RAJ G H SAHITHI T, et al. Onboard processing of drone imagery for military vehicles classification using enhanced YOLOv5[J]. Journal of Advances in Information Technology202314(6): 1221-1229.

[12]
HOWARD A G ZHU M L CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[DB/OL]. (2017-04-17)[2024-06-30]. arXiv:1704.04861.

[13]
SANDLER M HOWARD A ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]∥ 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4510-4520.

[14]
HOWARD A SANDLER M CHU G, et al. Searching for MobileNetV3[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, 2019: 1314-1324.

[15]
TAN M X PANG R M LE Q V. EfficientDet: scalable and efficient object detection[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, 2020: 10778-10787.

[16]
FAROOQUE G LIU Q C SARGANO A B, et al. Swin transformer with multiscale 3D atrous convolution for hyperspectral image classification[J]. Engineering Applications of Artificial Intelligence2023126: 107070.

[17]
XUE T F CHEN B A WU J J, et al. Video enhancement with task⁃oriented flow[J]. International Journal of Computer Vision2019127: 1106-1125.

[18]
李清奇.一种基于自编码的混凝土裂纹识别方法[J].北京交通大学学报202044(2): 98-104.

LI Q Q. A concrete crack recognition method based on autoencoder[J]. Journal of Beijing Jiaotong University202044(2):98-104. (in Chinese)

[19]
DORAFSHAN S THOMAS R J MAGUIRE M. SDNET2018: an annotated image dataset for non⁃contact concrete crack detection using deep convolutional neural networks[J]. Data in Brief201821(1): 1664-1668.

[20]
TAO X GAO H Y SHEN X Y, et al. Scale⁃recurrent network for deep image deblurring[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 8174-8182.

[21]
MA N N ZHANG X Y ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[M]∥FERRARI V. ECCV 2018, LNCS 11218. Cham: Springer Nature, 2018:122-138.

[22]
TAN M X LE Q V. EfficientNetV2: smaller models and faster training[C]∥Proceedings of the 38th International Conference on Machine Learning. 2021.

[23]
张铁志,陈萃华,黄华,等. 基于卷积神经网络的无人机成像桥梁裂缝检测方法研究[J]. 世界桥梁202452(3): 111-118.

ZHANG T Z CHEN C H HUANG H, et al. Research on bridge crack detection method of UAV imaging based on convolutional neural network[J]. World Bridges202452(3):111-118. (in Chinese)

文章导航

/