(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210204367.X
(22)申请日 2022.03.03
(65)同一申请的已公布的文献号
申请公布号 CN 114265875 A
(43)申请公布日 2022.04.01
(73)专利权人 深圳钛铂数据有限公司
地址 518000 广东省深圳市前海深港合作
区南山街道兴海 大道3046号香江金融
大厦2413
(72)发明人 唐建法 肖贝贝 黄佳钦
欧阳世雄
(74)专利代理 机构 深圳汉林汇融知识产权代理
事务所(普通 合伙) 44850
专利代理师 刘临利(51)Int.Cl.
G06F 16/2455(2019.01)
G06F 16/21(2019.01)
G06F 16/23(2019.01)
G06F 16/25(2019.01)
G06F 16/27(2019.01)
G06F 16/2458(2019.01)
G06F 16/28(2019.01)
审查员 黄端
(54)发明名称
一种基于流数据的实时建宽表的方法
(57)摘要
本申请公开了一种基于流数据的实时建宽
表方法,至少包括以下步骤: 数据引擎采集数据,
保存至数据库中; 将采集到的所述数据转化为结
构化数据; 将所述结构化数据保存到数据缓存
库; 模型计算引擎接收数据更新事件, 根据所述
结构化数据与目标模型是否存在映射关系, 提取
与目标主表相关联的所述结构化数据, 更新到所
述目标主表中。 该方法具有实时性高、 灵活性高、
快速响应、 全局模型关联、 支持跨库乱序的特性。
权利要求书1页 说明书5页 附图3页
CN 114265875 B
2022.07.22
CN 114265875 B
1.一种基于流数据的实时建宽表的方法, 其特 征在于, 所述方法至少包括以下步骤:
数据引擎采集数据, 保存至数据库中;
将采集到的所述数据转 化为结构化数据;
将所述结构化数据保存到数据缓存库;
模型计算引擎接收数据更新事件, 根据所述结构化数据与目标模型是否存在映射关
系, 提取与目标主表相关联的所述结构化数据, 更新到所述目标主表中;
所述数据引擎采集数据的同时, 日志采集器形成数据日志, 并将所述数据日志保存到
所述数据缓存库的日志存 储中心;
所述日志存储中心将所述数据日志与任务采集器同步, 从而实现数据日志与用户目标
数据库的共享;
所述模型计算引擎接收数据更新事 件, 包括:
所述模型计算引擎接收到的数据更新日志;
发送数据库共享关联指令;
若数据日志与用户目标数据库的共享成功, 逐步判断所述数据 更新日志是否包含日志
采集任务, 所述日志采集任务是否包含所需要的表, 所述日志采集任务的起始采集时间是
否早于上一次同步任务的起始时间, 如是, 则通过所述日志存储中心读取数据日志, 作为增
量数据日志;
若数据日志与用户目标数据库的共享不成功, 或所述数据 更新日志不包含日志采集任
务, 或所述日志采集任务不包含所需要的表, 或所述日志采集任务的起始采集时间晚于上
一次同步任务的起始 时间, 则所述模型计算引擎直接读取所述数据库中的数据日志, 作为
增量数据日志;
对于与目标模型存在映射关系的所述结构化数据, 从所述数据缓存库中查询含有该结
构化数据的表, 即子表, 将所述子表与目标主表数据合并, 更新目标主表;
对于与目标模型不存在映射关系的所述结构化数据, 将该结构化数据写入数据缓存库
的子表缓存表中, 根据新建立的映射关系, 将子表更新到目标主表中;
所述数据缓存库为Mo ngoDB。
2.根据权利要求1所述的方法, 其特征在于, 所述结构化数据保存在所述数据缓存库的
统一数据缓冲层中。
3.根据权利要求2所述的方法, 其特 征在于, 所述统一数据缓冲层为FDM层。权 利 要 求 书 1/1 页
2
CN 114265875 B
2一种基于流数据的实时建宽表的方 法
技术领域
[0001]本申请涉及一种基于流数据的实时建宽表的方法, 属于数据处 理领域。
背景技术
[0002]无论是传统数仓建设, 还是现代数据驱动的应用业务, 大部分的数据开发工作就
是要构建一些新的数据表, 为各种分析模型或业务模型服务。 特别是互联网公司由于数据
量普遍偏大, 多表关联的方式通常不会被采用。 这种情况下构建宽表用于支持各种业务查
询是非常主流的数据开发工作。
[0003]传统的建模、 建表都是基于SQ L来完成的。 基于SQ L的方式有这些局限性:
[0004]1、 目标模型表和原 始表数据脱节:
[0005]SQL是基于一个固定数据集来进行查询计算并输出到目标表的方式, 适合于定期
批量运算。 如果涉及到的原始表比较大, 那这种操作往往会需要 执行数分钟甚至数小时, 这
样会造成目标的数据无法 反应当前真实的状态。
[0006]2、 并发任务 性能瓶颈:
[0007]由于传统建模的全表计算模式, 在数仓内同时进行的任务基本不能超过2 ‑3个。 这
个严重限制了传统数据平台跑批建模的能力。
发明内容
[0008]根据本申请的一个方面, 提供了一种基于流数据的实时建宽表的方法, 该方法具
有实时性高、 灵活性高、 快速响应、 全局模型关联、 支持跨库乱序的特性。
[0009]基于流数据的实时建宽表的方法, 至少包括以下步骤:
[0010]数据引擎采集数据, 保存至数据库中;
[0011]将采集到的所述数据转 化为结构化数据;
[0012]将所述结构化数据保存到数据缓存库;
[0013]模型计算引擎接收数据更新事件, 根据所述结构化数据与目标模型是否存在映射
关系, 提取与目标主表相关联的所述结构化数据, 更新到所述目标主表中。
[0014]可选地, 所述数据缓存库为Mo ngoDB。
[0015]可选地, 所述结构化数据保存在所述数据缓存库的统一数据缓冲层中。
[0016]可选地, 所述统一数据缓冲层为FDM层。
[0017]可选地, 所述数据引擎采集数据的同时, 日志采集器形成数据日志, 并将所述数据
日志保存到所述数据缓存库的日志存 储中心;
[0018]所述日志存储中心将所述数据日志与 任务采集器同步, 从而实现数据日志与用户
目标数据库的共享。
[0019]可选地, 所述模型计算引擎接收数据更新事 件, 包括:
[0020]所述模型计算引擎接收到的数据更新日志;
[0021]发送数据库共享关联指令;说 明 书 1/5 页
3
CN 114265875 B
3
专利 一种基于流数据的实时建宽表的方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:13:57上传分享