专利 一种基于自适应多粒度时空建模的细粒度视频识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210277651.X (22)申请日 2022.03.21 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人胡琪瑶　王旗龙　胡清华　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师韩帅 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/46(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/62(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于自适应多粒度时空建模的细粒度视频识别方法 (57)摘要本发明公开了一种基于自适应多粒度时空建模的细粒度视频识别方法，所述方法基于深度神经网络、细粒度CPTM模块和粗粒度CSTP模块；包括如下步骤：所述细粒度CP TM模块并入深度神经网络提取细粒度的时间线索；所述细粒度CPTM 模块是以渐进时间卷积和竞争式融合机制进行构建；提高视频动作识别的性能，具备捕获视频中复杂尺度变化的时空线索的能力。权利要求书2页说明书9页附图2页 CN 114612842 A 2022.06.10 CN 114612842 A 1.一种基于自适应多粒度时空建模的细粒度视频识别方法，其特征在于：所述方法基于深度神经网络、细粒度CPTM模块和粗粒度CSTP模块；包括如下步骤：所述细粒度CPTM模块并入深度神经网络提取细粒度的时间线索；所述细粒度CPTM模块是以渐进时间卷积和竞争式融合机制进行构建；包括：以计算尺度k的时间特征的一组多尺度特征.表示为： yk＝G(Wk)⊙yk‑1,k＝1,…,K, 其中， y0＝ χ且G(Wk)表示权重为Wk的时间卷积；所述细粒度CPTM模块以竞争式融合机制对多尺度特征融合可表示为：其中，维度为C的向量h通过对时空特征全局平均池化(GAP)，以捕获多时间尺度{y1,…, yK}的全局上下文关系，即是通过两个权重分别为的全连接层计算得到； ⊙表示沿通道维度的点积运算； τ则是决定多尺度特征之间竞争或协作模式的一个平衡参数；所述粗粒度CSTP模块并入深度神经网络提取融合粗粒度的时空特征；包括：所述粗粒度CSTP模块采用两阶段自适应融合机制，表示为：其中， φup、 φdw和φz是三个核大小为1 ×1的2D卷积层，而标识[ ·；·]表示特征间的连接操作；权重和由输入通过函数g1计算得到；输出Zup和Zdw作为函数g2输入，计算出权重ωup和ωdw。 2.根据权利要求1所述的一种基于自适应多粒度时空建模的细粒度视频识别方法，其特征在于：所述细粒度CPTM模块和所述粗粒度CSTP模块并入2D深度神经网络过程：在2D深度神经网络的卷积阶段间有选择性地插入CPTM模块，提取当前连续卷积阶段间的特征的细粒度时间线索：设为第l阶段第i残差块(resl,i)的输出，其中W表示宽度， H表示高度， T 表示时间维度以及C表示通道数； CPTM模块(fCPTM)在该层输入特征所提取细粒度时间线索可以表示为: 其中， Nl为resl的最后一个残差块，该输出y(l)为下一阶段resl+1,1的输入；所述CSTP模块是采用如下公式将不同卷积阶段的时空分辨率特征进行自适应融合输出：权　利　要　求　书 1/2 页 2 CN 114612842 A 2Z＝fCSTP(y(L‑1),y(L)) 其中： L表示深度卷积网络中阶段总数， Z则用于融合特征后的最后预测。 3.根据权利要求1所述的一种基于自适应多粒度时空建模的细粒度视频识别方法，其特征在于：所述细粒度CPTM模块和所述粗粒度CSTP模块并入3D深度神经网络过程：在3D深度神经网络将CPTM模块和2D空间卷积以残差方式结合，构建出3DCPTM层结构，并通过3DCPTM层代替残差网络中原有的3D卷积层，以达到提取细粒度时间线索目的；所述CSTP模块是采用如下公式将不同卷积阶段的时空分辨率特征进行自适应融合输出：其中： Z同样表示自适应融合跨不同时空分辨率的粗粒度特征信息。权　利　要　求　书 2/2 页 3 CN 114612842 A 3

专利 一种基于自适应多粒度时空建模的细粒度视频识别方法

专利一种基于自适应多粒度时空建模的细粒度视频识别方法