(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210233662.8
(22)申请日 2022.03.10
(71)申请人 沈阳雅译网络技 术有限公司
地址 110004 辽宁省沈阳市和平区三 好街
78号东软电脑城C座1 1层
(72)发明人 徐萍 毕东
(74)专利代理 机构 沈阳新科知识产权代理事务
所(特殊普通 合伙) 21117
专利代理师 李晓光
(51)Int.Cl.
G06V 20/20(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
(54)发明名称
一种应用特 征金字塔的图片字幕生成方法
(57)摘要
本发明公开一种应用特征金字塔的图片字
幕生成方法, 步骤为: 将预处理后的图片输入特
征金字塔模块中, 抽取特征图作为图片特征信
息, 和预处理后的 图片并称为低维度、 高维度、 原
始维度三种不同尺度的 图片特征; 将原始维度图
片特征送入嵌入层转换成向量表 示; 将三种不同
尺度的图片特征送入编码器的第一层, 进行维度
缩放; 将维度大小一致的隐层信息送入编码器中
堆叠的高层得到三种编码器特征, 通过拼接得到
融合后的图片特征送入模型的解码器进行解码;
通过交叉熵损失函数进行梯度更新, 优化模型权
重, 得到图片字幕生成方法。 本发明从图片 的不
同角度和不同的视野距离来增强图片的语义表
达能力有效降低了编码器中自注意力机制和前
馈神经网络的计算成本 。
权利要求书2页 说明书5页 附图2页
CN 114782848 A
2022.07.22
CN 114782848 A
1.一种应用特 征金字塔的图片字幕生成方法, 其特 征包括以下步骤:
1)将预处理后的图片输入的特征金字塔模块中, 通过特征金字塔模块中的多层卷积神
经网络将图片进行特征提取, 分别抽取出低层卷积神经网络和顶层卷积神经网络的特征
图, 作为低维度和高维度两种尺度的图片特征信息, 和预 处理后的图片并称为低维度、 高维
度、 原始维度三种不同尺度的图片特 征;
2)将原始维度图片特 征送入嵌入层转换成向量表示;
3)将三种不同尺度的图片特征送入编码器的第一层中, 进行维度缩放, 即经过自注意
力机制和前馈神经网络将维度不同的图片特 征缩放成同一维度大小的隐层信息;
4)将维度大小一致的隐层信息送入编码器 中堆叠的高层得到三种编码器特征, 并通过
拼接操作得到融合后的图片特 征;
5)将融合后的图片特征送入模型的解码器进行解码, 解码器通过堆叠的解码器层将图
片特征解码成图片 字幕, 并通过交叉熵损失函数进 行梯度更新, 优化模型的权重, 得到图片
字幕生成方法。
2.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤1)
中, 对图片数据进 行预处理, 将图片 输入特征金字塔模块中, 通过多层卷积神经网络进行特
征提取, 其中, 卷积神经网络的计算方式如下:
weight(i,j)= w[:,:,i:j]
input(x,k)=x[ :,:,k]
公式中x∈RH×W×C为图片在计算机中的表示张量, H表示图片的高度, W表示图片的宽度,
C表示图片的通道数, 公式中*表示2D互相关操作, 公式中
表示卷积核,
其中cout表示输出特征的通道数, Cin表示输入特征的通道数, w[:,:,i:j]表示取w的第三维
度和第四维度中第i和第j张量, x[:,:,k]表 示取x的第三维度中第k张量, 公 式中b表示偏置
常量; weight(i,j)表示卷积神经神经网络中的通道 i的第j个卷积核, inp ut(x,k)表示输入
x的第k通道的张量,
取第一层卷积神经网络的输出作为低维度图片特征, 取最后 一层卷积神经网络的输出
作为高维度图片特 征; 原始图片则作为原 始维度图片特 征。
3.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤2)
中将原始维度图片特征送入嵌入层转换成向量表示, 是将原始维度图片特征的高度和宽度
调整成规定大小后划分成固定大小的子图片, 每个子图片称作patch, 再将其送入嵌入层,
得到对每一个patc h的编码, 即图片嵌入向量, 具体为:
201)将图片(batch, c, h, w)划分为每个patch分辨率为p1*p2的子图片, 首先, 将每张原
始维度图片特征切分成(h/p1)*(w/p2)个小块, 即从(batch, c, p1*(h/p1), p2*(w/p2))到
(batch, c, (h/p1)*(w/p2), p1*p2), 再将其转换成(batch, (h/p1)*(w/p2), p1*p2*c), 相当
于分成了(h/p1)*(w/p2)个patch, 每个patch的维度是p1*p2*c; 这一过程的实现通过以下
计算得到:权 利 要 求 书 1/2 页
2
CN 114782848 A
2x=rearrange(b,c,(h *p1),(w*p2) →b,(h*w),(p1*p2* c)′)
其中, rearrange函数是einops库的算子, p1、 p2是patch大小, c是通道数, b是batch数,
h, w分别是图像的高和宽;
202)划分子图片后, 得到原始 维度图片特征的嵌入向量, 并对其维度进行调整, 即经过
一层全连接层调整维度至所需大小。
4.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤3)
中, 不同维度大小的图片特征送入到编码器的第一层中, 而编码器的第一层是 由三个不同
大小的编 码层组成分别对应着三个图片特征, 其中编 码层是由自注意力机制和前馈神经网
络组成, 多头自注意力机制的计算方式如下:
headi=Attention(QWiQ,KWIK,VWIV)
MultiHead(Q,K,V)=Co ncat(head1,…,headh)Wo
其中, Q、 K、 V为模型的输入向量, headi为第i个头的向量, W为翻译模型参数, Attention
(·)为注意力机制函数, Co ncat(·)为向量连接函数;
前馈神经网络层FN N的计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中, x为隐藏层向量, W1、 W2、 b1、 b2为模型的参数, 由模型自动学习得到;
301)(batch, l0, d0)为原始图片特征, (batch, h1, w1, d1)为低维图片特征, (batch, h2, w2,
d2)为高维图片特征, 先将低维和高维图片特征进行维度变换, 得到(batch, h1*w1, d1)和
(batch, h2*w2, d2); 再将三个图片特征送入多头自注意力机制得(batch, l0, d)和(batch, l1,
d)和(batc h, l2, d)维度一 致的图片特 征;
302)再将三个图片特征送入前馈神经网络中, 依然得到第三维度大小一致的隐层信
息。权 利 要 求 书 2/2 页
3
CN 114782848 A
3
专利 一种应用特征金字塔的图片字幕生成方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:18:25上传分享