专利 一种应用特征金字塔的图片字幕生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210233662.8 (22)申请日 2022.03.10 (71)申请人沈阳雅译网络技术有限公司地址 110004 辽宁省沈阳市和平区三好街 78号东软电脑城C座1 1层 (72)发明人徐萍　毕东　 (74)专利代理机构沈阳新科知识产权代理事务所(特殊普通合伙) 21117 专利代理师李晓光 (51)Int.Cl. G06V 20/20(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称一种应用特征金字塔的图片字幕生成方法 (57)摘要本发明公开一种应用特征金字塔的图片字幕生成方法，步骤为：将预处理后的图片输入特征金字塔模块中，抽取特征图作为图片特征信息，和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征；将原始维度图片特征送入嵌入层转换成向量表示；将三种不同尺度的图片特征送入编码器的第一层，进行维度缩放；将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征，通过拼接得到融合后的图片特征送入模型的解码器进行解码；通过交叉熵损失函数进行梯度更新，优化模型权重，得到图片字幕生成方法。本发明从图片的不同角度和不同的视野距离来增强图片的语义表达能力有效降低了编码器中自注意力机制和前馈神经网络的计算成本。权利要求书2页说明书5页附图2页 CN 114782848 A 2022.07.22 CN 114782848 A 1.一种应用特征金字塔的图片字幕生成方法，其特征包括以下步骤： 1)将预处理后的图片输入的特征金字塔模块中，通过特征金字塔模块中的多层卷积神经网络将图片进行特征提取，分别抽取出低层卷积神经网络和顶层卷积神经网络的特征图，作为低维度和高维度两种尺度的图片特征信息，和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征； 2)将原始维度图片特征送入嵌入层转换成向量表示； 3)将三种不同尺度的图片特征送入编码器的第一层中，进行维度缩放，即经过自注意力机制和前馈神经网络将维度不同的图片特征缩放成同一维度大小的隐层信息； 4)将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征，并通过拼接操作得到融合后的图片特征； 5)将融合后的图片特征送入模型的解码器进行解码，解码器通过堆叠的解码器层将图片特征解码成图片字幕，并通过交叉熵损失函数进行梯度更新，优化模型的权重，得到图片字幕生成方法。 2.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法，其特征在于：步骤1) 中，对图片数据进行预处理，将图片输入特征金字塔模块中，通过多层卷积神经网络进行特征提取，其中，卷积神经网络的计算方式如下： weight(i,j)＝ w[:,:,i:j] input(x,k)＝x[ :,:,k] 公式中x∈RH×W×C为图片在计算机中的表示张量， H表示图片的高度， W表示图片的宽度， C表示图片的通道数，公式中*表示2D互相关操作，公式中表示卷积核, 其中cout表示输出特征的通道数， Cin表示输入特征的通道数， w[:,:,i:j]表示取w的第三维度和第四维度中第i和第j张量， x[:,:,k]表示取x的第三维度中第k张量，公式中b表示偏置常量； weight(i,j)表示卷积神经神经网络中的通道 i的第j个卷积核， inp ut(x,k)表示输入 x的第k通道的张量，取第一层卷积神经网络的输出作为低维度图片特征，取最后一层卷积神经网络的输出作为高维度图片特征；原始图片则作为原始维度图片特征。 3.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法，其特征在于：步骤2) 中将原始维度图片特征送入嵌入层转换成向量表示，是将原始维度图片特征的高度和宽度调整成规定大小后划分成固定大小的子图片，每个子图片称作patch，再将其送入嵌入层，得到对每一个patc h的编码，即图片嵌入向量，具体为： 201)将图片(batch， c， h， w)划分为每个patch分辨率为p1*p2的子图片，首先，将每张原始维度图片特征切分成(h/p1)*(w/p2)个小块，即从(batch， c， p1*(h/p1)， p2*(w/p2))到 (batch， c， (h/p1)*(w/p2)， p1*p2)，再将其转换成(batch， (h/p1)*(w/p2)， p1*p2*c)，相当于分成了(h/p1)*(w/p2)个patch，每个patch的维度是p1*p2*c；这一过程的实现通过以下计算得到：权　利　要　求　书 1/2 页 2 CN 114782848 A 2x＝rearrange(b,c,(h *p1),(w*p2) →b,(h*w),(p1*p2* c)′) 其中， rearrange函数是einops库的算子， p1、 p2是patch大小， c是通道数， b是batch数， h， w分别是图像的高和宽； 202)划分子图片后，得到原始维度图片特征的嵌入向量，并对其维度进行调整，即经过一层全连接层调整维度至所需大小。 4.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法，其特征在于：步骤3) 中，不同维度大小的图片特征送入到编码器的第一层中，而编码器的第一层是由三个不同大小的编码层组成分别对应着三个图片特征，其中编码层是由自注意力机制和前馈神经网络组成，多头自注意力机制的计算方式如下： headi＝Attention(QWiQ,KWIK,VWIV) MultiHead(Q,K,V)＝Co ncat(head1,…,headh)Wo 其中， Q、 K、 V为模型的输入向量， headi为第i个头的向量， W为翻译模型参数， Attention (·)为注意力机制函数， Co ncat(·)为向量连接函数；前馈神经网络层FN N的计算如下： FFN(x)＝max(0,xW1+b1)W2+b2 其中， x为隐藏层向量， W1、 W2、 b1、 b2为模型的参数，由模型自动学习得到； 301)(batch， l0， d0)为原始图片特征， (batch， h1， w1， d1)为低维图片特征， (batch， h2， w2， d2)为高维图片特征，先将低维和高维图片特征进行维度变换，得到(batch， h1*w1， d1)和 (batch， h2*w2， d2)；再将三个图片特征送入多头自注意力机制得(batch， l0， d)和(batch， l1， d)和(batc h， l2， d)维度一致的图片特征； 302)再将三个图片特征送入前馈神经网络中，依然得到第三维度大小一致的隐层信息。权　利　要　求　书 2/2 页 3 CN 114782848 A 3

专利 一种应用特征金字塔的图片字幕生成方法

专利一种应用特征金字塔的图片字幕生成方法