面向骨架手势识别的全局时空可变形网络

石东子; 林宏辉; 刘一江; 张鑫

doi:10.12178/1001-0548.2022401

面向骨架手势识别的全局时空可变形网络

doi: 10.12178/1001-0548.2022401

石东子¹,
林宏辉¹,
刘一江¹,
张鑫^{1, 2, ,}

1.
华南理工大学电子与信息学院，广州 510640
2.
人工智能与数字经济广东省实验室，广州 510640

基金项目: 中央高校基本科研业务费交叉学科研究项目（2022ZYGXZR104）；广东省数字孪生人重点实验室项目（2022B1212010004）

详细信息

作者简介:
石东子，主要从事手势识别方面的研究

通讯作者: 张鑫， E-mail：eexinzhang@scut.edu.cn

中图分类号: TP391.41

Global Spatio-Temporal Deformable Network for Skeleton-Based Gesture Recognition

1.
School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China
2.
Guangdong Artificial Intelligence and Digital Economy Laboratory, Guangzhou 510640, China

摘要: 基于骨架序列进行手势识别关键在于如何融合时空信息提取可分辨性强的特征。该文提出关键点聚焦模块，通过全局上下文建模和不受限于固定形式的卷积方式，网络可以跨越多帧和不相关的关键点，在全局范围内自适应地聚合与手势动作密切相关的关键点信息，提取手势的时空特征。实验表明该方法在ChaLearn2013和SHREC数据集上得到的准确率可以达到94.88%和95.23%，优于现有方法。此外，该方法在处理噪声数据和动态手势方面稳定性更好。
- 手势识别 /
- 特征提取 /
- 可变形卷积 /
- 骨架序列 /
- 全局信息
Abstract: The key of gesture recognition based on skeleton sequence is how to fuse spatio-temporal information and extract discriminate features. This paper proposes a key point focusing module. Through the global context modeling and the convolution method not limited to the fixed form, the network can span multiple frames and irrelevant key points, adaptively aggregate key point information closely related to gesture actions in the global scope, and extract the spatio-temporal characteristics of gesture. Experiments on Chalearn2013 and SHREC datasets show that the accuracy of our proposed method can reach 94.88% and 95.23%, and the method outperforms state-of-the-art methods. In addition, the method has better stability in dealing with noisy data and dynamic gestures.
- gesture recognition /
- features extraction /
- deformable convolution /
- skeleton sequence /
- global information

图 1 全局时空可变形网络结构

下载: 全尺寸图片幻灯片

图 2 全局信息特征的获取

下载: 全尺寸图片幻灯片

图 3 噪声对准确率的影响

下载: 全尺寸图片幻灯片

图 4 时间尺度对准确率的影响

下载: 全尺寸图片幻灯片

图 5 骨架序列及全局注意力可视化

下载: 全尺寸图片幻灯片

表 1 ChaLearn2013数据集上不同方法对比

网络架构	方法	准确率/%
基于RNN	PT-Logsig-RNN^[8]	93.27
基于RNN	Two-stream RNN^[9]	91.70
CNN和LSTM	D-Pose ^[5]	92.54
基于GCN	CTR-GCN^[22]	92.82
基于GCN	GCN-Logsig-RNN^[23]	92.86
基于Transformer	STFFormer^[24]	92.08
基于Transformer	ST-TR^[25]	93.50
基于CNN	Multi-path CNN^[3]	93.13
	CNN for Skeleton ^[4]	91.16
	全局时空可变形网络（本文）	94.88

下载: 导出CSV

表 2 SHREC数据集上不同方法对比

方法	准确率/%
STA-Res-TCN^[26]	93.6
TCN-Summ^[27]	93.57
HPEV^[28]	94.88
本文	95.23

下载: 导出CSV

[1]	GE L H, CAI Y J, WENG J W, et al. Hand pointNet: 3D hand pose estimation using point sets[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8417-8426.
[2]	CAO Z, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7291-7299.
[3]	LIAO L F, ZHANG X, LI C Y. Multi-path convolutional neural network based on rectangular kernel with path signature features for gesture recognition[C]//2019 IEEE Visual Communications and Image Processing (VCIP). Sydney: IEEE, 2019: 1-4.
[4]	DU Y, FU Y, WANG L. Skeleton based action recognition with convolutional neural network[C]//2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR). Kuala Lumpur: IEEE, 2015: 579-583.
[5]	WENG J W, LIU M Y, JIANG X D, et al. Deformable pose traversal convolution for 3D action and gesture recognition[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 136-152.
[6]	WANG H S, WANG L. Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 499-508.
[7]	LIAO S J, LYONS T, YANG W X, et al. Learning stochastic differential equations using RNN with log signature features[EB/OL]. (2019-08-22)[2022-11-20]. https://arxiv.org/pdf/1908.08286.pdf.
[8]	YAN S, XIONG Y J, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//The 32nd AAAI Conference on Artificial Intelligence. New Orleans Louisiana: AAAI Press, 2018.
[9]	SHI L, ZHANG Y F, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 12026-12035.
[10]	LI M S, CHEN S H, CHEN X, et al. Actional-structural graph convolutional networks for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3595-3603.
[11]	石跃祥, 朱茂清. 基于骨架动作识别的协作卷积 Transformer 网络[J]. 电子与信息学报, 2022, 44: 1-9. doi: 10.11999/JEIT22010 SHI Y X, ZHU M Q. Collaborative convolutional transformer network based on skeleton action recognition[J]. Journal of Electronic and Information Technology, 2022, 44: 1-9. doi: 10.11999/JEIT22010
[12]	李扬志, 袁家政, 刘宏哲. 基于时空注意力图卷积网络模型的人体骨架动作识别算法[J]. 计算机应用, 2021, 41(7): 1915-1921. doi: 10.11772/j.issn.1001-9081.2020091515 LI Y Z, YUAN J Z, LIU H Z. Human skeleton-based action recognition algorithm based on spatiotemporal attention graph convolutional network model[J]. Journal of Computer Applications, 2021, 41(7): 1915-1921. doi: 10.11772/j.issn.1001-9081.2020091515
[13]	CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. (2017-06-17)[2022-11-20]. https://arxiv.org/pdf/1706.05587.pdf.
[14]	WANG F, WANG G R, HUANG Y W, et al. Sast: Learning semantic action-aware spatial-temporal features for efficient action recognition[J]. IEEE Access, 2019, 7: 164876-164886. doi: 10.1109/ACCESS.2019.2953113
[15]	WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7794-7803.
[16]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
[17]	CAO Y, XU J, LIN S, et al. Gcnet: Non-local networks meet squeeze-excitation networks and beyond[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Seoul: IEEE, 2019.
[18]	CHEN P, GAN C, SHEN G, et al. Relation attention for temporal action localization[J]. IEEE Transactions on Multimedia, 2019, 22(10): 2723-2733.
[19]	DAI J, QI H, XIONG Y W, et al. Deformable convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Honolulu: IEEE, 2017: 764-773.
[20]	ESCALERA S, GONZÀLEZ J, BARÓ X, et al. Multi-modal gesture recognition challenge 2013: Dataset and results[C]//Proceedings of the 15th ACM on International Conference on Multimodal Interaction. New York: Association for Computing Machinery, 2013: 445-452.
[21]	SMEDT Q, WANNOUS H, VANDEBORRE J P, et al. 3D hand gesture recognition using a depth and skeletal dataset[EB/OL]. [2022-10-24]. https://doi.org/10.2312/3dor.20171049.
[22]	CHEN Y X, ZHANG Z Q, YUAN C F, et al. Channel-wise topology refinement graph convolution for skeleton-based action recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 13359-13368.
[23]	LIAO S J, LYONS T, YANG W X, et al, Logsig-RNN: A novel network for robust and efficient skeleton-based action recognition[EB/OL]. [2022-10-25]. https://arxiv.org/pdf/2110.13008.pdf.
[24]	QIU H L, HOU B, REN B, et al. Spatio-temporal tuples transformer for skeleton-based action recognition[EB/OL]. [2022-11-08]. https://arxiv.org/pdf/2201.02849.pdf.
[25]	PLIZZARI C, CANNICI M, MATTEUCCI M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding, 2021, 208: 103219.
[26]	HOU J X, WANG G J, CHEN X H, et al. Spatial-temporal attention Res-TCN for skeleton-based dynamic hand gesture recognition[C]//European Conference on Computer Vision. Munich: Springer, 2018.
[27]	SABATER A, ALONSO I, MONTESANO L, et al. Domain and view-point agnostic hand action recognition[J]. IEEE Robotics and Automation Letters, 2021, 6(4): 7823-7830. doi: 10.1109/LRA.2021.3101822
[28]	LIU J B, LIU Y C, WANG Y, et al. Decoupled representation learning for skeleton-based gesture recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 5751-5760.

[1]	郭磊, 林啸宇, 王勇, 陈正武, 常伟. 基于深度学习的直升机旋翼声信号检测与识别一体化算法 . 电子科技大学学报, 2023, 52(6): 925-931. doi: 10.12178/1001-0548.2023108
[2]	杨旺功, 淮永建, 张福泉. 基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
[3]	董帅, 李文生, 张文强, 邹昆. 基于多视图循环神经网络的三维物体识别 . 电子科技大学学报, 2020, 49(2): 269-275. doi: 10.12178/1001-0548.2019017
[4]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[5]	吴斌, 王利龙, 邵延华. 改进双向二维局部保持投影的人脸识别算法 . 电子科技大学学报, 2019, 48(6): 904-909, 924. doi: 10.3969/j.issn.1001-0548.2019.06.015
[6]	田坤, 李晋. 太赫兹频段微动特征边缘检测及提取方法 . 电子科技大学学报, 2018, 47(1): 19-24, 36. doi: 10.3969/j.issn.1001-0548.2018.01.003
[7]	黄颖, 王文斌, 郑弘晖. 基于代数多重网格的图像传感器物体识别技术 . 电子科技大学学报, 2015, 44(5): 743-748. doi: 10.3969/j.issn.1001-0548.2015.05.018
[8]	闫海, 李国辉, 李建勋. 雷达抗欺骗式干扰信号特征提取方法 . 电子科技大学学报, 2015, 44(1): 50-54. doi: 10.3969/j.issn.1001-0548.2015.01.008
[9]	韩杰思, 沈建京. 采用图像滤波的多特征JPEG盲检测 . 电子科技大学学报, 2011, 40(2): 255-260. doi: 10.3969/j.issn.1001-0548.2011.02.020
[10]	王敏琴, 韩国强, 涂泳秋. 新型的无监督纹理分割方法 . 电子科技大学学报, 2010, 39(1): 11-15. doi: 10.3969/j.issn.1001-0548.2010.01.003
[11]	蒲晓蓉, 樊科, 黄东. 类内子流形局部间隔对齐的人脸图像判别方法 . 电子科技大学学报, 2010, 39(6): 915-919. doi: 10.3969/j.issn.1001-0548.2010.06.023
[12]	龙文, 马坤, 辛阳, 杨义先. 适用于协议特征提取的关联规则改进算法 . 电子科技大学学报, 2010, 39(2): 302-305. doi: 10.3969/j.issn.1001-0548.2010.02.032
[13]	李建勋, 唐斌, 吕强. 双谱特征提取在欺骗式干扰方式识别中的应用 . 电子科技大学学报, 2009, 38(3): 329-332. doi: 10.3969/j.issn.1001-0548.2009.03.003
[14]	刘德平, 刘晓宇, 陈建军. 逆向工程特征参数提取技术研究 . 电子科技大学学报, 2008, 37(3): 474-477.
[15]	于雪莲, 刘本永. 最优的核判别分析用于雷达目标识别 . 电子科技大学学报, 2008, 37(6): 883-885,937.
[16]	张秋余, 孙晶涛, 闫晓文, 黄文汉. LSA和MD5算法在垃圾邮件过滤系统的应用研究 . 电子科技大学学报, 2007, 36(6): 1223-1227.
[17]	孙建成, 张太镒, 刘海员. 基于SVM的多类模拟调制方式识别算法 . 电子科技大学学报, 2006, 35(2): 149-152.
[18]	孟庆宇, 刘本永, 姚宏达. 基于分数本征特征的手写数字识别 . 电子科技大学学报, 2006, 35(3): 289-291.
[19]	许仕海, 张晓玲, 江勇, 吉宗海. 一维运动目标的特征估计 . 电子科技大学学报, 2005, 34(6): 767-770.
[20]	王贵新, 刘建胜, 居琰, 汪同庆, 彭健, 杨波. “有效行”特征对手写体字符的识别 . 电子科技大学学报, 2001, 30(3): 287-291.

点击查看大图

图(5) / 表(2)

计量

文章访问数: 4014
HTML全文浏览量: 1037
PDF下载量: 35
被引次数: 0

全文HTML

手势是一种符合人际交流习惯的表达方式，在智能家居、智能驾驶、体感游戏等领域得到了广泛的应用。一般而言，手势可以由多种模态表示，如彩色（RGB）视频流、深度视频流、光流、人体骨架序列等。其中，人体骨架序列描述的是预定义的人体关键点在手势运动过程的轨迹，为手势识别传递了重要的信息。随着光电技术和人体姿态估计算法的发展，骨架数据可以通过深度传感器直接获取，或者通过RGB图像进行关节估计^[1-2]。

当用人体骨架关键节点的坐标变化进行手势描述时，手势的相对变化关系较为明显，有助于计算机更好地理解一些较为复杂的动作，从而提高手势识别的准确率。与基于RGB图像数据的方法相比，基于骨架数据的手势识别在面对遮挡、嘈杂背景、相机视角变化和照明变化等表现出优异的性能。然而，传统基于骨架数据的方法受限于手工设置的特征提取模式，网络表达受限。因此，本文提出全局时空可变形网络，其中关键点聚焦模块可以在全局范围内自适应地组合与手势动作密切相关的关键点，提取时空特征。

骨架序列可以视为一种关节坐标序列的时空矩阵。以拍手动作为例，与该手势相关的左手腕、左手和右手节点应该关联在一起，并且得到每一帧手部的空间距离作为特征来描述这种手势。传统卷积神经网络（Convolution Neural Network, CNN）^[3-4]可以自然地融合时空信息，但受限于固定的卷积形式。网络往往利用标准3×3卷积直接聚合相邻关键点信息，而与手势相关的关键点有可能在时空矩阵上不相邻，如左手和右手。网络只能通过堆叠局部卷积操作关联这些关键点。文献[5]提出D-Pose组合一维卷积和长短时记忆网络（Long Short Term Memory, LSTM）构造了Conv-LSTM结构来分别构建可学习的空间连接并提取动态信息。但上述过程只能单独在时间或空间上直接联系相关节点，无法交叉时间和空间信息进行交错卷积，网络的表达能力受限。

本文提出的关键点聚焦模块将卷积进行一定程度的空间偏移，聚合手势序列在时空维度上不相邻的关键信息。

由于骨架序列时空矩阵的时间维度往往比空间维度更长，同时，考虑到不同手势的复杂程度不同、手势执行速度不同、开始和结束的时间不一致等，时间维度上的远程建模更有挑战性。采用循环神经网络（Recurrent Neural Network, RNN）^[6-7]可以捕获远程时间动态，但其计算复杂，难以满足实际需求，并且难以同时融合时空信息。因此，关键点聚焦模块会计算捕捉时域远程依赖的全局信息，使卷积在进行空间偏移时考虑到手势具有不同的时长，每个手势的开始、结束和执行时间并不一致。

综上，全局时空可变形网络能够关联关键点并学习手势的时间动态信息，这对于特征提取和手势识别至关重要。

1. 相关工作

1.1. 基于骨架的动作识别

按照网络结构划分，基于骨架的动作识别可以分为基于CNN、基于RNN和基于GCN的方法^[8-11]。CNN聚合骨架时空矩阵信息，RNN结构则适合对骨架时间序列数据进行建模，但由于其缺乏空间建模能力，文献[5]将CNN和RNN结合分别进行骨架的时空建模。另外，由于图结构能自然表示人体的结构和连接，基于GCN的方法也受到广泛关注，但图卷积只能从固定邻接矩阵提取特征，网络的表达能力同样受限。近年来，随着Transformer的兴起，也有文献引入Attention机制进行时空建模^[11]。

对于骨架数据的时空特征提取，之前的工作是在时域和空间域上各自建模之后进行融合，文献[9]分别构建注意力机制空间图和时间维度的固定图，文献[10]则分别在时空维度上计算帧和关键点动作识别的重要性并进行时空交替训练，文献[12]则分别在时空域利用图卷积提取特征。利用CNN处理输入的骨架时空矩阵信息可以自然融合时空信息，本文提出了关键点聚焦模块提取时空特征，希望可以自适应组合不同帧上与手势相关的关键点信息。

1.2. 上下文建模

卷积运算只能处理一个局部的区域，文献[13]提出空洞卷积，在不增加额外计算量的情况下扩大感受野，利用不同尺寸的卷积核提取多尺度特征，但需要重复应用卷积操作才能捕捉远程依赖。为了获得全局感受野，NL Net结合了自注意力机制，通过计算任意两个位置之间的交互直接捕捉远程依赖^[14-15]，但网络计算量较大。SENet则对不同通道进行缩放得到全局特征并学习各个通道的权重系数从而建模通道与全局的依赖关系^[16]，但对于全局上下文建模不够有效。Global Context Net结合了NL Net和SENet的优点，使网络有效进行全局上下文建模的同时不引入过多计算参数^[17]。

全局上下文建模已被证明对于图像识别、对象分割、动作定位^[18]等方面非常有用，本文主要探讨手势动作在全局范围内的特征提取以帮助网络理解不同时间依赖性的手势。

4. 结束语

本文主要基于骨架数据提出了关键点聚焦模块。通过可变形卷积将时空信息交错以使关键帧和关键节点可以得到有效关联，以此提取手势特征。加入全局信息模块，让网络可以根据手势复杂度进行动态调整，学习更有意义的可变形的空间偏移。在ChaLearn2013和SHREC数据集两个数据集上的实验结果表明，本文方法在精确度上优于已有的方法。此外，额外的实验表明，本文提出的模块在处理不同时间尺度的噪声数据和动态手势时更具鲁棒性。

本文在进行时空建模时，主要还是利用CNN逐渐增大感受野，当关键点特别多时，可能没办法很好地关联在一起，但Transformer直接提取丰富的全局信息，有更强的时空建模能力。未来可以探索如何在这些全局信息中进行筛选，从而锁定和动作相关的关键点信息。同时，本文只利用骨架数据的三维空间坐标信息，未来可以探索多种模态融合，通过交换不同模态的知识提高识别的准确率。

参考文献 (28)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

面向骨架手势识别的全局时空可变形网络

doi: 10.12178/1001-0548.2022401

作者简介:
石东子，主要从事手势识别方面的研究

通讯作者: 张鑫， E-mail：eexinzhang@scut.edu.cn

Global Spatio-Temporal Deformable Network for Skeleton-Based Gesture Recognition

计量

面向骨架手势识别的全局时空可变形网络

doi: 10.12178/1001-0548.2022401

1. 华南理工大学电子与信息学院，广州 510640

2. 人工智能与数字经济广东省实验室，广州 510640

作者简介:
石东子，主要从事手势识别方面的研究

通讯作者: 张鑫， E-mail：eexinzhang@scut.edu.cn

English Abstract

Global Spatio-Temporal Deformable Network for Skeleton-Based Gesture Recognition

1. School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China

2. Guangdong Artificial Intelligence and Digital Economy Laboratory, Guangzhou 510640, China

全文HTML

1.1. 基于骨架的动作识别

1.2. 上下文建模

2.1. 可变形卷积

2.2. 关键点聚焦模块

2.3. 全局时空可变形网络结构

3.1. 数据集

3.2. 实验设置

3.3. 消融实验

3.3.1. 噪声

3.3.2. 多尺度

3.4. 关键点聚焦模块可视化

3.5. 与先进方法的比较

目录

期刊在线

编辑办公

友情链接

留言板

面向骨架手势识别的全局时空可变形网络

doi: 10.12178/1001-0548.2022401

作者简介: 石东子，主要从事手势识别方面的研究

通讯作者: 张鑫， E-mail：eexinzhang@scut.edu.cn

Global Spatio-Temporal Deformable Network for Skeleton-Based Gesture Recognition

计量

出版历程

面向骨架手势识别的全局时空可变形网络

doi: 10.12178/1001-0548.2022401

1. 华南理工大学 电子与信息学院，广州 510640 2. 人工智能与数字经济广东省实验室，广州 510640

作者简介: 石东子，主要从事手势识别方面的研究

通讯作者: 张鑫， E-mail：eexinzhang@scut.edu.cn

English Abstract

Global Spatio-Temporal Deformable Network for Skeleton-Based Gesture Recognition

1. School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China 2. Guangdong Artificial Intelligence and Digital Economy Laboratory, Guangzhou 510640, China

全文HTML

1.1. 基于骨架的动作识别

1.2. 上下文建模

2.1. 可变形卷积

2.2. 关键点聚焦模块

2.3. 全局时空可变形网络结构

3.1. 数据集

3.2. 实验设置

3.3. 消融实验

3.3.1. 噪声

3.3.2. 多尺度

3.4. 关键点聚焦模块可视化

3.5. 与先进方法的比较

目录

期刊在线

编辑办公

友情链接

作者简介:
石东子，主要从事手势识别方面的研究

1. 华南理工大学电子与信息学院，广州 510640

2. 人工智能与数字经济广东省实验室，广州 510640

作者简介:
石东子，主要从事手势识别方面的研究

1. School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China

2. Guangdong Artificial Intelligence and Digital Economy Laboratory, Guangzhou 510640, China