结合物理与几何特性的机载LiDAR数据分类方法
0 引 言
全波形激光雷达(Light Detection and Ranging, LiDAR)可以获取三维点云及全波形,被广泛应用于地形测绘[1-2]、电力线检测[3-4]及海陆分类岸线提取[5-6]等领域。机载激光雷达数据分类是为每个点指定一个类别标签,是激光雷达数据后处理的重要环节。研究表明,全波形形状与目标物理特性密切相关,例如,倾斜表面的光路变长导致回波脉宽展宽[7],目标的粗糙度或颜色不同导致反射率不同进而影响回波功率[8],激光的穿透性为波形带来丰富的垂直结构信息等。而点云描述了目标的三维形状,却无法反映上述全波形的特性。因此,在分类时充分考虑全波形蕴含的目标物理特性和点云几何特征,有助于提升数据分类精度。
目前,典型的分类方法大多专注于点云数据[9-13]。这些方法通过多层感知机和卷积等深度学习算法,提取了点云的几何结构特征,但是却忽略了全波形中丰富的目标物理特性和垂直结构信息,且对邻域内点间的几何和语义相关性的挖掘也不够充分。近年来,一些研究人员也提出了同时考虑到点云与全波形的分类方法,其中Zoriz S等[14]将通过卷积生成的类概率向量与高度信息串联,投影到二维图像进行分类,但是该方法会丢失空间信息,从而会降低数据分辨率。Shinohara T等[15]提出FWNet (Full-waveform Network)和FWNet2[16]直接将点云和全波形串联进行卷积,没有考虑到全波形的时序性和目标的物理特性,无法提取点云与全波形的相关性。并且FWNet2[16]通过复杂的决策融合得到分类结果,无法全面考虑两部分特征。
针对上述问题,文中搭建了一种基于目标物理特性和几何特征的分类算法。首先,文中构建了特征融合(Feature Fusion, FF)模块,通过全波形特征提取(Full-waveform Feature Extraction, FW)模块对相邻和长距时间位置特征进行提取,充分挖掘全波形的时序性,进一步地,根据全波形和点云在目标物理特性上的关联,构建了双低秩矩阵以学习全波形和点云几何特征间的相关性,实现了特征级融合。其次,构建了邻域特征增强(Local Feature Enhancemen, LE)模块,其中邻域相关性挖掘(Local Interrelation mining, LI)模块通过局部全连接结构提取点对间的几何和语义相关性,挖掘了邻域的几何结构信息,并通过注意力池化聚合邻域特征。最后,将构建的FF和LE模块嵌入层次化的编解码结构,以融合多感受野的特征,从而构建了基于特征级融合的端到端分类网络。
1 方法原理
1.1 基于目标物理特性相关性的全波形与点云特征融合
根据激光雷达能量公式,假设入射能量均匀散射成固体角为Ω的圆锥,接收激光能量[17]可表示为:
式中:Pt为传输功率;Dr为接收器孔径;R为目标距离;α为激光光束发散角;σ为后向散射截面;As为目标散射面积;ρ为目标反射率。由上述公式可知,激光散射能量与目标反射率成正比,记
由于发射波形呈高斯函数状,假设目标的后向散射各向同性,即可采用广义高斯函数描述目标回波。又因为机载激光雷达地物目标高度变化比飞行测量高度小得多,为简化问题,记
式中:si为组分波形标准差;ti为回波位置,与目标距离有关,即与
当激光垂直照在平面上,如图1(a)所示,α为激光发散角,H为激光发射点与地面垂直距离,B、E为光斑边缘点,L为光斑中心点。从图中可以看出,AL段光路最短,AB和AE段光路最长,因此可计算出回波间延时Δt1:
图 1. 不同的激光照射情况。 (a) 垂直于激光束的平面;(b) 倾斜平面;(c) 多目标
Fig. 1. Different LiDAR irradiation situations. (a) Plane perpendicular to LiDAR beam; (b) Inclined plane; (c) Multiple targets
当激光照在倾斜表面时,如图1(b)所示,θ为斜面法向量与竖直方向夹角。从图中明显可以看出,AE段长度大于H且大于图1(a)中的AE段,光路最长,假设AB~AL间最短光路为H ′,则可得到回波间延时Δt2:
由此可以看出,当H相同时,倾斜平面上最长光路AE大于水平平面最长光路,最短光路H ′小于等于水平平面最短光路H。因此在倾斜平面上回波间的延时更大,进而造成整体回波脉宽展宽,见图1(b)。
当光斑内存在多个目标时,从图1(c)可以看出,激光照射在相距足够远的目标上,回波会呈现多个波峰,而照射在相距较近的目标上,反射的多个回波叠加会引起脉宽展宽。事实上,当激光照在多目标上,目标的反射率不同会造成回波振幅不同,同时根据公式(3)可知,回波能量与目标距离的四次方成反比,当目标相距较远时,回波的振幅也不同,下文对实验数据集中地面和建筑类别全波形的分析也印证了这点。
相较于全波形,点云更直观地描述了目标几何形状,根据点云邻域可以提取丰富的几何特征,包括高程均值、方差、点云密度、法向量、曲率、线指数、面指数、球指数等。点云几何特征与全波形形状有着密切的相关性。当激光照在斜面上,根据斜面倾角,由公式(6)~(7)可推出光斑内回波延时,进而推测回波展宽情况,而根据点云邻域的最小二乘平面拟合又可估算该点的法向量,根据法向量坐标可计算得到该点所在面元的倾斜度,该倾斜度与全波形的展宽情况密切相关。激光照射在无法穿透的地面、建筑上形成单波峰回波,而该类点云的邻域高程方差较小,且没有复杂的垂直结构,曲率和球指数较小。由于植被具有缝隙,激光照射在植被上通常产生多回波,而植被点云的分布更复杂,曲率和球指数更大。考虑到点云和全波形所描述目标特性的相关性,通过深度学习进行高维特征的融合,有助于挖掘高维的目标特征,提升分类效果。
现有的结合全波形与三维点云的方法主要存在两方面问题:1)现有方法大多不具备单独的全波形特征提取模块,而是将全波形看作点云的附加特征,由于点云坐标不具备时序性,采用多层感知机将所有特征维度无序相加,这种方法忽略了全波形的时序性,因此无法充分提取目标物理特性;2)现有的特征融合方法通常为相加或串联拼接,这两种融合方法无法提取特征间复杂的线性交互关系,从而降低了特征提取效果,并且相加的方法还限制了融合的两组特征的维度。针对上述问题,文中构建了高维特征融合FF模块,如图2所示。首先,构建了全波形长短距特征提取FW模块来提取全波形时序性特征,其次,采用邻域相对位置编码和柱坐标编码,提取点云几何特征,最后,利用双低秩矩阵自适应地学习全波形与点云在高维特征间的相关性,从而提取出更深层的目标物理特性。下文将对模块各部分进行详细说明。
图 2. FW与FF模块结构图。 (a) FW模块结构;(b) FF模块结构
Fig. 2. Structure of FW and FF block. (a) Structure of FW block; (b) Structure of FF block
1.1.1 全波形特征提取模块
全波形作为时间序列,直接在全波形时间维度上进行1D卷积可以提取相邻时间步的时序信息,却无法提取长距时间步的长期依赖关系。文中充分考虑了时间位置差异,先后对相邻的短距时序特征和全局的长距时序特征进行提取,构建了全波形特征提取FW模块。如图2(a)所示,其中D是组成全波形的元素数量,Cw是卷积特征维数。首先,采用卷积核尺寸为3的1D卷积,提取相邻时间位置的短距特征vs,采用归一化和ReLU函数进行非线性处理。进一步地,通过过滤器数量为2的最大池化层,实现对输入微小扰动的近似不变,同时减少参数。接着,为提取长距的全局特征的影响,在时间维度上进行全局平均池化来提取全局特征,采用全连接层自动学习权重sw∈R1,动态调整短距特征vs,从而得到长距特征。为防止随层数堆叠导致拟合效果变差,将得到的长距特征作为残差与短距特征vs相加。最终输出包含目标物理特性的全波形时序特征fw如下:
式中:V表示一个由D个元素组成的全波形向量;
1.1.2 点云几何特征提取及与全波形特征的融合
首先编码点云邻域的几何特征。通过k近邻算法得到每个采样点pi的k邻域点Nk(pi),计算邻域点pi~pi的相对位置和距离。由于邻域对中心点的影响与距离呈负相关,因此用相对距离的负指数来编码,得到邻域相对位置特征:
式中:
将柱坐标编码与笛卡尔坐标编码串联,通过多层感知机进行特征映射,最终得到邻域点pi的几何特征。
其次,对邻域点的全波形vi,采用1.1.1节所述方法得到全波形特征fi。之后提取全波形与点云几何特征在高维特征上的关联。由前面的分析可知,全波形包含了丰富的目标物理特性,其形状与点云几何特征密切相关,而传统相加的融合方法限制了融合的两组特征的维度,串联的融合方法无法提取特征间复杂的线性交互关系。针对该问题,文中采用映射矩阵
式中:
为丰富特征表达,通常会求得多个维度的融合特征,因此需要多个不同的映射矩阵,但这会引入大量的参数,增大计算开销,甚至造成过拟合。为减少参数,将矩阵
式中:
1.2 局部邻域特征增强模块
由于机载激光雷达飞行高度较高,采样点更稀疏,因此加强对邻域内上下文信息的挖掘有助于提升分类精度。以往的研究大多专注于邻域与中心点的相对位置,忽略了对其他点间相关性的挖掘。针对这一问题,文中构建了邻域特征增强LE模块。首先,搭建了邻域相关性挖掘LI模块,通过邻域全连接结构,提取点对间几何和语义相关性。之后根据每个点的特征,采用注意力池化有针对性地聚合邻域。
图 4. 局部邻域特征增强。 (a) 局部邻域全连接结构;(b) LE模块结构
Fig. 4. Local neighborhood feature enhancement. (a) Local neighborhood fully connected structure; (b) Structure of LE block
1.2.1 邻域相关性挖掘
为提取邻域中每个点对其他点的影响,将邻域点两两相连,构成如图4(a)所示的全连接结构,其中每个点对
进一步地,计算邻域点对相关性分数,与对应点特征相乘并聚合,则邻域中的每个点都根据点对差异动态更新了对该点的影响,融合了与其他所有点间的相互关系,从而得到增强的局部上下文特征如下:
1.2.2 注意力池化
为有效聚合邻域,文中根据邻域几何和语义特征进行注意力池化,采用下文所述方式提取邻域几何特征,并实现对z轴的旋转不变。对采样中心及邻域点语义特征
同时计算邻域质心
式中:si表示邻域点
1.3 全局特征增强
为了补充全局上下文,提升分类准确性,文中构建全局特征增强GE模块。对于解码器输出特征F∈R×,其中N是场景中采样点数,C是特征通道数,首先通过平均池化层提取全局特征,其次用带有激活函数的全连接层进一步学习全局场景特征,将其作为全局特征权重
1.4 整体架构
文中搭建了一种基于目标物理特性和几何特征的分类方法。该方法根据全波形与点云反映的目标物理特性,考虑到二者特征间的相关性,构建了高维特征融合FF模块,利用双低秩矩阵提取高维特征间相关性,进一步挖掘目标深层物理特性。同时还构建了邻域特征增强LE模块,构建了邻域全连接结构,充分挖掘邻域点对间几何和语义相关性,增强了局部结构信息。最后将模块嵌入层次化编码-解码器,构建了全波形机载激光雷达数据的端到端分类网络。图5显示了整体架构,网络将N×(3+D)的二维矩阵输入到编解码结构中,其中D是全波形维度,N为输入采样点数。在编码阶段采取最远点采样,以最大限度保留场景空间结构,每层通过LE模块编码,逐层学习空间上下文特征。需要注意的是,在第一层采用LE模块提取特征前先使用特征融合FF模块,融合全波形和点云几何特征,如图5中砖红色矩形所示,之后再对融合后的特征进行近一步提取。在解码阶段采用最近邻插值上采样,为合并低级别信息、增加不同尺度的感受野,将相同维度的下采样与上采样块的特征相连,利用卷积生成密集的特征预测。最后通过GE模块补充全局场景特征,将结果输入到全连接层,进行标签分类。
2 实验与分析
2.1 数据集介绍
文中使用Riegl LMS-Q780全波形ALS获得的数据集[14]进行训练和测试,Riegl LMS-Q780是一款多功能高空激光雷达传感器,它运行在离地面15500 ft (1 ft= 12 in),全视野可达60°,可用于大规模地形测绘。数据集由超过980万个采样点组成,分六类:地面、植被、建筑、电力线、传输塔和街道。每个点由164个数据组成,包含三部分:三维坐标、160个值的全波形和类标签。图6为全波形可视化,其中植被往往有多回波,波峰数量较多且不同点的波峰数量和分布位置不同,横坐标为相对时间,纵坐标为波形相对强度。电力线、传输塔也有多回波,但明显少于植被。地面、建筑和街道回波相似,多为单波峰,波峰位置相近且有拖尾。为近一步寻找三类波形差异,每类随机取1 000个回波,统计三类回波峰值及波峰位置分布的区间,对比发现三类回波峰值位置相近,峰值分布区间有交叉,区间上限相近,区间下限由高到低为建筑、地面和街道。由此可见,建筑、地面和街道在波形形状上大体相似但仍有微小差别,但与其他三类相比差异明显。
图 6. 不同类别采样点的全波形。(a) 地面全波形;(b) 植被全波形;(c) 建筑全波形;(d) 电力线全波形;(e) 传输塔全波形;(f) 街道全波形
Fig. 6. Full-waveform of sampling points of different categories. (a) Ground full-waveform; (b) Vegetation full-waveform; (c) Building full-waveform; (d) Power line full-waveform; (e) Transmission tower full-waveform; (f) Street path full-waveform
2.2 预处理、实验细节和评价指标
原始数据集是对场景的连贯扫描,包含数百万采样点,被划分存储到19个子集。每个子集包含数十万点,其中一个子集作测试集,仅在测试阶段使用,其余子集作训练集。由于GPU内存限制,无法对如此大规模的数据直接进行计算,因此将所有训练子集分割为长宽均为21.88 m的样本块,进一步地,减去中心坐标转换为局部坐标系,使样本更具一般性。测试时以相同尺寸分割测试集,便于数据批处理。由于扫描对象的形状和大小不同,数据集在不同类别上的分布不平衡,因此为降低对模型性能的影响,对分割的样本块进行筛选。从表1可知,地面和植被点数量明显更多,占测试集的89.8%,因此训练时对包含了全部较少四类的样本块全部选取,对其余样本块随机选取。实验中训练集共被分割为934个样本块,选取包含全部较少四类的共539个样本,其余样本随机选取,共选取了600个训练样本。针对较少四类样本间仍存在的类别不平衡问题,在计算损失函数时添加类别权重,公式如下:
表 1. 数据集分布
Table 1. Dataset distribution
|
式中:
网络使用Pytorch框架实现,用Adam优化器在两块NVIDIA GeForce RTX 3090 GPU上进行200轮训练。设置初始学习率为0.001,每30个训练周期后减少10%。使用精度、召回率和F1分数评价分类效果。其中,精度是衡量过度检测的指标,召回率是衡量返回多少真正相关结果的指标,F1分数根据精度和召回率计算得到,在类别不平衡的情况下更适用。计算公式如下:
式中:TP、FP和FN分别表示真正例、假正例和假反例的数量。
2.3 测试结果与分析
为定量评价分类性能,对比现有的融合全波形和点云的深度学习方法,包括CNN[14]、FCN[14]和FWNet2[16],以及典型的基于点云的分类方法,包括PointNet[9]、PointNet ++[10]、RandLA-Net [11] 、GACNN[12]和GFSAE[13],分类结果见表2。需要注意的是,在对比方法中,CNN为仅采用全波形数据进行分类,为对比文中网络的效果,其余网络均同时使用了全波形与点云数据进行分类。其中FCN先通过1D卷积提取全波形特征,之后与z坐标结合投影到二维图像进行分类;而余下方法将全波形作为点云附加特征,与点云串联拼接。实验结果表明,文中的平均精度、召回率和F1分数分别达到0.96、0.90和0.92,6个类的F1分数均大于0.85,可以有效实现分类。相比于当前最优的FWNet2,该方法在平均精度和召回率上均提升0.01,平均F1分数也达到最优效果。同时文中方法在地面和街道类的精度、召回率和F1分数比FWNet2分别提高了0.03、0.01、0.03和0.01、0.04、0.03,植被和传输塔类也达到了最优效果。
表 2. 不同方法之间的定量比较
Table 2. Quantitative comparison of different methods
|
为定性观察分类效果,将结果可视化如图7所示,可以看出模型成功为大部分点生成了正确的标签,并提升了准确度,如图中白色圈中所示。观察可见,大部分街道周围分布着地面和植被。其中地面与街道点云形状相似,其全波形多为单波峰,峰值相近但仍有区别。植被全波形大多为多回波,通常最后一个波峰即为地物回波,因此植被全波形包含了该点的垂直空间结构。文中的特征融合模块提取了植被、地面、街道全波形中蕴含的丰富物理特性,自适应地学习其与点云几何特征的相关性,从而挖掘深层的物理特性关联,同时邻域特征增强模块学习了植被融合特征中包含的丰富垂直结构,提升了对街道的识别效果。
图 7. 分类结果可视化。 (a) 输入数据;(b) FWNet2的分类结果;(c) 文中方法的分类结果;(b) 真实类别标签
Fig. 7. Visualization of classification results. (a) Input data; (b) Classification results of FWNet2; (c) Classification results of proposed method; (d) Real category label
2.4 消融实验
为验证网络各模块的效果,本节在文献[14]的数据集上进行了消融实验研究。
2.4.1 对特征融合模块的消融实验
文中的特征融合模块由两部分组成:全波形特征提取、点云几何特征提取及特征融合。为验证各部分的效果,本节设计并进行了消融实验,如表3所示。设计了模型A作为对照,该模型采用1D卷积提取全波形特征,并以串联方式结合特征。模型B在此基础上采用FW模块提取全波形时序性特征,平均精度、召回率和F1分数提高了0.02、0.02和0.01,说明FW模块通过提取长短距时序信息,得到更丰富的全波形特征,有效地提升了分类性能。模型C在模型A的基础上以双低秩矩阵的融合方式替代串联融合,提取高维特征间的相关性,平均精度、召回率和F1分数提高了0.04、0.03和0.02,表明通过双低秩映射矩阵学习两特征间的关联可提升分类性能。同时,文中方法在模型B基础上以双低秩矩阵融合方式代替串联,在模型C基础上以堆叠的FW模块提取全波形时序特征,分类效果均提高,近一步验证了特征融合模块对分类性能的提升。
表 3. 对特征融合模块的消融实验
Table 3. Ablation experiment on FF block
|
本节还对FW模块的堆叠层数进行了消融实验,以确定最优层数,实验结果如表4所示。可以看出,最初随着模块堆叠层数的增加,网络分类能力逐渐增强,然而当堆叠层数达到四层时,网络分类性能下降,因此文中网络选择堆叠三层FW模块,以达到最优的分类效果。
表 4. 对FW模块堆叠层数的消融实验
Table 4. Ablation experiment on stacking layers of FW block
|
2.4.2 对邻域与全局特征增强模块的消融实验
文中的邻域特征增强LE模块由两部分构成:邻域相关性挖掘LI模块、注意力池化。为验证LE模块各部分以及全局特征增强GE模块的效果,本节进行了消融实验,如表5所示。设计了模型H作为对照,该模型采用多层感知机提取单点特征,以最大池化聚合邻域。模型I在此基础上采用文中的LI模块提取邻域点对间的几何和语义相关性,增强邻域特征,分类平均精度、召回率和F1分数分别提高了0.03、0.02和0.01。模型J在模型H的基础上,采用注意力池化替代最大池化,从而根据邻域几何和语义特征,有针对性地聚合,三个指标分别提高了0.01、0.02和0.01,验证了邻域特征增强模块对分类性能的提升。模型K在文中网络的基础上,去掉GE模块,直接对解码器输出的特征进行分类。文中网络加入GE模块后,三个指标提高了0.02、0.02和0.02,验证了GE模块对分类性能的提升。
表 5. 对邻域与全局特征增强模块的消融实验
Table 5. Ablation experiments on LE and GE block
|
3 结 论
文中搭建了一种结合目标物理特性和几何特征深度学习算法,实现了机载LiDAR数据的端到端分类。针对全波形与点云在目标物理特性上的相关性,构建了特征融合FF模块,提取了全波形时序特征,通过双低秩矩阵学习全波形与点云几何特征间的相关性,实现了对高维物理特性的挖掘。通过构建邻域特征增强LE模块,挖掘了邻域点间几何和语义特征的相关性,加强了对局部结构信息的提取,并根据邻域特征有针对性地聚合。最后将模块嵌入层次化的编解码结构中,形成了基于特征级融合的端到端分类网络。在公开数据集上的分类实验表明,六个类的F1分数均大于0.85,平均精度、平均召回率和平均F1得分分别达到0.96、0.90和0.92,与已有的分类算法相比,文中方法有效提升了分类精度。
[1] Zhang K, Ye L J, Wen X, , et al. A dual attention neural network for airborne LiDAR point cloud semantic segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-17.
[4] Li W, Luo Z, Xiao Z, , et al. A GCN-based method for eextracting power lines and pylons from airborne LiDAR data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-14.
[8] Zhu Shixian. Research on Critical Technology of Intensity Imaging of 905nm Pulsed Li DAR[D]. Tianjin: Tianjin University, 2018.
Zhu Shixian. Research on critical technology of intensity imaging of 905 nm pulsed LiDAR[D]. Tianjin: Tianjin University, 2018. (in Chinese)
[9] les R Q, Hao S, Mo K C, et al. Point: deep learning on point sets f 3D classification segmentation[C]2017 IEEE Conference on Computer Vision Pattern Recognition, 2017: 7785.
[10] Qi C R, Yi L, Su H, et al. Point++: Deep hierarchical feature learning on point sets in a metric space[C]Advances in Neural Infmation Processing Systems, 2017: 5099–5108.
[11] Hu Q, Yang B, Xie L, et al. RLA: Efficient semantic segmentation of largescale point clouds [C]2020 IEEECVF Conference on Computer Vision Pattern Recognition (CVPR), 2020: 1110511114.
[16] Shinohara T, Xiu H, Matsuoka M, et al. Semantic segmentation f fullwavefm LiDAR data using local hierarchical global feature extraction[C]Sigspatial''20: 28th International Conference on Advances in Geographic Infmation Systems, 2020: 640–650.
Article Outline
赵毅强, 张琦, 刘长龙, 武唯康, 李尧. 结合物理与几何特性的机载LiDAR数据分类方法[J]. 红外与激光工程, 2023, 52(11): 20230212. Yiqiang Zhao, Qi Zhang, Changlong Liu, Weikang Wu, Yao Li. Airborne LiDAR data classification method combining physical and geometric characteristics[J]. Infrared and Laser Engineering, 2023, 52(11): 20230212.