安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210067620.1 (22)申请日 2022.01.20 (65)同一申请的已公布的文献号 申请公布号 CN 114090590 A (43)申请公布日 2022.02.25 (73)专利权人 北京华品博睿网络技 术有限公司 地址 100028 北京市朝阳区太阳宫中路16 号院1号楼18层1801内09 (72)发明人 黄景景 徐文朝 朱辉 张涛  薛延波 赵鹏  (74)专利代理 机构 北京君泊知识产权代理有限 公司 11496 代理人 周倩 (51)Int.Cl. G06F 16/22(2019.01)G06F 16/23(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) 审查员 刘芳 (54)发明名称 一种多对象标签数据的抽取方法及系统 (57)摘要 本发明实施例公开了一种多对象标签数据 的抽取方法, 包括: 基于抽取规则对多个对象的 标签数据进行元数据抽取, 每个抽取规则抽取出 的数据产生一张临时表; 对多个所述临时表进行 格式转换, 并将格式转换后的多个所述临时表的 结果合并至一个大宽表中; 基于预先构建的标签 树结构将所述大宽表中的各个标签的值路由至 不同的分表中, 所述分表存储于时间戳分区中, 所述时间戳分区为 以标签的值更新时间为值的 分区。 本发 明实施例还公开了一种多对象标签数 据的抽取系统。 本发明能够实现多个对象的大量 标签数据的高效存储问题, 并能实现标签数据的 低延迟动态更新。 权利要求书2页 说明书8页 附图4页 CN 114090590 B 2022.04.05 CN 114090590 B 1.一种多对象标签数据的抽取 方法, 其特 征在于, 所述方法包括: 基于抽取规则对用户画像系统中的多个对象的标签数据进行元数据抽取, 每个抽取规 则抽取出的数据产生一张临时表, 所述临时表包括各个uid和每个uid对应的所有标签的 值, 其中, 每个对象 的所有标签的值对应一个uid, 所述每个uid对应的所有 标签的值是基于 当前抽取规则从所述多个对象的标签数据中计算得到的数据, 每个临 时表中, uid作为对象 的唯一标识, 每个对象对应一个uid, 一个对象的标签划分为不同的分类, 每个分类对应一 张分表, uid用于关联 各个分表的数据以及根据当前抽取规则计算出来的对象的标签的值; 对多个所述临时表进行格式转换, 并将格式转换后的多个所述临时表的结果合并至一 个大宽表中; 基于预先构建的标签树结构中的分类将所述大宽表中的各个标签的值路由至不同的 分表中, 其中, 所述分表包括当前分类所属对象的uid和当前分类对应的所有标签的值, 所 述分表存储于时间戳分区中, 所述时间戳分区为以标签的值更新时间为值的分区, 用于标 识不同版本的标签的值; 根据对象的uid, 从所述 时间戳分区中获取最新的分表, 以基于所述最新的分表获取对 象最新的所有标签的值。 2.如权利要求1所述的方法, 其中, 所述临时表为横向的临时宽表, 所述临时宽表中第 一列表示各个uid, 从第二列起表示各个uid对应的标签的值, 或, 所述临时表为纵向的临时窄表, 所述临时窄表中第 一列表示各个uid, 第二列表示各个 uid对应的标签的键, 第三列表示各个uid对应的标签的值。 3.如权利要求1所述的方法, 其中, 所述标签树结构中, 一级节点表示业务, 二级节点表 示业务下的对象, 每个二级节 点下有多个 分类节点, 每个分类节点下有多个叶子节点, 每个 叶子节点表示 一个标签的值, 所述基于预先构建的标签树结构将所述大宽表中的各个标签的值路由至不同的分表 中, 包括: 将每个分类节点划分为一张分表, 所述分表中第一列表示分类的uid, 从第二列开始表 示该分类的所有叶子节点对应的标签的值。 4.如权利要求1所述的方法, 其中, 所述方法还 包括: 比对每个分表中的列和关系数据库中对应的标签数据, 在比对出有差异数据时, 根据 所述差异数据构建新分表或对已有分表进 行数据更新, 新分表和更新后的分表导入至所述 时间戳分区。 5.一种多对象标签数据的抽取系统, 其特 征在于, 所述系统包括: 元数据抽取模块, 用于基于抽取规则对用户画像系统中的多个对象的标签数据进行元 数据抽取, 每个抽取规则抽取出的数据产生一张临时表, 所述临时表包括各个uid和每个 uid对应的所有标签的值, 其中, 每个对象的所有标签的值对应一个uid, 所述每个uid对应 的所有标签的值是基于 当前抽取规则从所述多个对象的标签数据中计算得到的数据, 每个 临时表中, uid作为对象 的唯一标识, 每个对象对应一个uid, 一个对象的标签划分为不同的 分类, 每个分类对应一张分表, uid用于 关联各个 分表的数据以及根据当前抽取规则计算出 来的对象的标签的值; 数据合并模块, 用于对多个所述临时表进行格式转换, 并将格式转换后的多个所述临权 利 要 求 书 1/2 页 2 CN 114090590 B 2时表的结果 合并至一个大宽表中; 分表存储模块, 用于基于预先构建的标签树结构中的分类将所述大宽表中的各个标签 的值路由至不同的分表中, 其中, 所述分表包括当前分类所属对象 的uid和当前分类对应的 所有标签的值, 所述分表存储于时间戳分区中, 所述时间戳分区为以标签的值更新时间为 值的分区, 用于标识不同版本的标签的值; 分析查询模块, 用于根据对象的uid, 从所述时间戳分区中获取最新的分表, 以基于所 述最新的分表获取对象最 新的所有标签的值。 6.如权利要求5所述的系统, 其中, 所述临时表为横向的临时宽表, 所述临时宽表中第 一列表示各个uid, 从第二列起表示各个uid对应的标签的值, 或, 所述临时表为纵向的临时窄表, 所述临时窄表中第 一列表示各个uid, 第二列表示各个 uid对应的标签的键, 第三列表示各个uid对应的标签的值。 7.如权利要求5所述的系统, 其中, 所述标签树结构中, 一级节点表示业务, 二级节点表 示业务下的对象, 每个二级节 点下有多个 分类节点, 每个分类节点下有多个叶子节点, 每个 叶子节点表示 一个标签的值, 所述数据合并模块包括: 将每个分类节点划分为一张分表, 所述分表中第一列表示分类的uid, 从第二列开始表 示该分类的所有叶子节点对应的标签的值。 8.如权利要求5所述的系统, 其中, 所述分表存 储模块还包括: 比对每个分表中的列和关系数据库中对应的标签数据, 在比对出有差异数据时, 根据 所述差异数据构建新分表或对已有分表进 行数据更新, 新分表和更新后的分表导入至所述 时间戳分区。 9.一种电子设备, 包括存储器和处理器, 其特征在于, 所述存储器用于存储一条或多条 计算机指 令, 其中, 所述一条或多 条计算机指 令被处理器执行以实现如权利要求 1‑4中任一 项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行以实现如权利要求1 ‑4中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114090590 B 3

.PDF文档 专利 一种多对象标签数据的抽取方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多对象标签数据的抽取方法及系统 第 1 页 专利 一种多对象标签数据的抽取方法及系统 第 2 页 专利 一种多对象标签数据的抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:14:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。