安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210233662.8 (22)申请日 2022.03.10 (71)申请人 沈阳雅译网络技 术有限公司 地址 110004 辽宁省沈阳市和平区三 好街 78号东软电脑城C座1 1层 (72)发明人 徐萍 毕东  (74)专利代理 机构 沈阳新科知识产权代理事务 所(特殊普通 合伙) 21117 专利代理师 李晓光 (51)Int.Cl. G06V 20/20(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称 一种应用特 征金字塔的图片字幕生成方法 (57)摘要 本发明公开一种应用特征金字塔的图片字 幕生成方法, 步骤为: 将预处理后的图片输入特 征金字塔模块中, 抽取特征图作为图片特征信 息, 和预处理后的 图片并称为低维度、 高维度、 原 始维度三种不同尺度的 图片特征; 将原始维度图 片特征送入嵌入层转换成向量表 示; 将三种不同 尺度的图片特征送入编码器的第一层, 进行维度 缩放; 将维度大小一致的隐层信息送入编码器中 堆叠的高层得到三种编码器特征, 通过拼接得到 融合后的图片特征送入模型的解码器进行解码; 通过交叉熵损失函数进行梯度更新, 优化模型权 重, 得到图片字幕生成方法。 本发明从图片 的不 同角度和不同的视野距离来增强图片的语义表 达能力有效降低了编码器中自注意力机制和前 馈神经网络的计算成本 。 权利要求书2页 说明书5页 附图2页 CN 114782848 A 2022.07.22 CN 114782848 A 1.一种应用特 征金字塔的图片字幕生成方法, 其特 征包括以下步骤: 1)将预处理后的图片输入的特征金字塔模块中, 通过特征金字塔模块中的多层卷积神 经网络将图片进行特征提取, 分别抽取出低层卷积神经网络和顶层卷积神经网络的特征 图, 作为低维度和高维度两种尺度的图片特征信息, 和预 处理后的图片并称为低维度、 高维 度、 原始维度三种不同尺度的图片特 征; 2)将原始维度图片特 征送入嵌入层转换成向量表示; 3)将三种不同尺度的图片特征送入编码器的第一层中, 进行维度缩放, 即经过自注意 力机制和前馈神经网络将维度不同的图片特 征缩放成同一维度大小的隐层信息; 4)将维度大小一致的隐层信息送入编码器 中堆叠的高层得到三种编码器特征, 并通过 拼接操作得到融合后的图片特 征; 5)将融合后的图片特征送入模型的解码器进行解码, 解码器通过堆叠的解码器层将图 片特征解码成图片 字幕, 并通过交叉熵损失函数进 行梯度更新, 优化模型的权重, 得到图片 字幕生成方法。 2.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤1) 中, 对图片数据进 行预处理, 将图片 输入特征金字塔模块中, 通过多层卷积神经网络进行特 征提取, 其中, 卷积神经网络的计算方式如下: weight(i,j)= w[:,:,i:j] input(x,k)=x[ :,:,k] 公式中x∈RH×W×C为图片在计算机中的表示张量, H表示图片的高度, W表示图片的宽度, C表示图片的通道数, 公式中*表示2D互相关操作, 公式中 表示卷积核, 其中cout表示输出特征的通道数, Cin表示输入特征的通道数, w[:,:,i:j]表示取w的第三维 度和第四维度中第i和第j张量, x[:,:,k]表 示取x的第三维度中第k张量, 公 式中b表示偏置 常量; weight(i,j)表示卷积神经神经网络中的通道 i的第j个卷积核, inp ut(x,k)表示输入 x的第k通道的张量, 取第一层卷积神经网络的输出作为低维度图片特征, 取最后 一层卷积神经网络的输出 作为高维度图片特 征; 原始图片则作为原 始维度图片特 征。 3.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤2) 中将原始维度图片特征送入嵌入层转换成向量表示, 是将原始维度图片特征的高度和宽度 调整成规定大小后划分成固定大小的子图片, 每个子图片称作patch, 再将其送入嵌入层, 得到对每一个patc h的编码, 即图片嵌入向量, 具体为: 201)将图片(batch, c, h, w)划分为每个patch分辨率为p1*p2的子图片, 首先, 将每张原 始维度图片特征切分成(h/p1)*(w/p2)个小块, 即从(batch, c, p1*(h/p1), p2*(w/p2))到 (batch, c, (h/p1)*(w/p2), p1*p2), 再将其转换成(batch, (h/p1)*(w/p2), p1*p2*c), 相当 于分成了(h/p1)*(w/p2)个patch, 每个patch的维度是p1*p2*c; 这一过程的实现通过以下 计算得到:权 利 要 求 书 1/2 页 2 CN 114782848 A 2x=rearrange(b,c,(h *p1),(w*p2) →b,(h*w),(p1*p2* c)′) 其中, rearrange函数是einops库的算子, p1、 p2是patch大小, c是通道数, b是batch数, h, w分别是图像的高和宽; 202)划分子图片后, 得到原始 维度图片特征的嵌入向量, 并对其维度进行调整, 即经过 一层全连接层调整维度至所需大小。 4.按权利要求1所述的一种应用特征金字塔的图片字幕生成方法, 其特征在于: 步骤3) 中, 不同维度大小的图片特征送入到编码器的第一层中, 而编码器的第一层是 由三个不同 大小的编 码层组成分别对应着三个图片特征, 其中编 码层是由自注意力机制和前馈神经网 络组成, 多头自注意力机制的计算方式如下: headi=Attention(QWiQ,KWIK,VWIV) MultiHead(Q,K,V)=Co ncat(head1,…,headh)Wo 其中, Q、 K、 V为模型的输入向量, headi为第i个头的向量, W为翻译模型参数, Attention (·)为注意力机制函数, Co ncat(·)为向量连接函数; 前馈神经网络层FN N的计算如下: FFN(x)=max(0,xW1+b1)W2+b2 其中, x为隐藏层向量, W1、 W2、 b1、 b2为模型的参数, 由模型自动学习得到; 301)(batch, l0, d0)为原始图片特征, (batch, h1, w1, d1)为低维图片特征, (batch, h2, w2, d2)为高维图片特征, 先将低维和高维图片特征进行维度变换, 得到(batch, h1*w1, d1)和 (batch, h2*w2, d2); 再将三个图片特征送入多头自注意力机制得(batch, l0, d)和(batch, l1, d)和(batc h, l2, d)维度一 致的图片特 征; 302)再将三个图片特征送入前馈神经网络中, 依然得到第三维度大小一致的隐层信 息。权 利 要 求 书 2/2 页 3 CN 114782848 A 3

.PDF文档 专利 一种应用特征金字塔的图片字幕生成方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种应用特征金字塔的图片字幕生成方法 第 1 页 专利 一种应用特征金字塔的图片字幕生成方法 第 2 页 专利 一种应用特征金字塔的图片字幕生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:18:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。