安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210204367.X (22)申请日 2022.03.03 (65)同一申请的已公布的文献号 申请公布号 CN 114265875 A (43)申请公布日 2022.04.01 (73)专利权人 深圳钛铂数据有限公司 地址 518000 广东省深圳市前海深港合作 区南山街道兴海 大道3046号香江金融 大厦2413 (72)发明人 唐建法 肖贝贝 黄佳钦  欧阳世雄   (74)专利代理 机构 深圳汉林汇融知识产权代理 事务所(普通 合伙) 44850 专利代理师 刘临利(51)Int.Cl. G06F 16/2455(2019.01) G06F 16/21(2019.01) G06F 16/23(2019.01) G06F 16/25(2019.01) G06F 16/27(2019.01) G06F 16/2458(2019.01) G06F 16/28(2019.01) 审查员 黄端 (54)发明名称 一种基于流数据的实时建宽表的方法 (57)摘要 本申请公开了一种基于流数据的实时建宽 表方法,至少包括以下步骤: 数据引擎采集数据, 保存至数据库中; 将采集到的所述数据转化为结 构化数据; 将所述结构化数据保存到数据缓存 库; 模型计算引擎接收数据更新事件, 根据所述 结构化数据与目标模型是否存在映射关系, 提取 与目标主表相关联的所述结构化数据, 更新到所 述目标主表中。 该方法具有实时性高、 灵活性高、 快速响应、 全局模型关联、 支持跨库乱序的特性。 权利要求书1页 说明书5页 附图3页 CN 114265875 B 2022.07.22 CN 114265875 B 1.一种基于流数据的实时建宽表的方法, 其特 征在于, 所述方法至少包括以下步骤: 数据引擎采集数据, 保存至数据库中; 将采集到的所述数据转 化为结构化数据; 将所述结构化数据保存到数据缓存库; 模型计算引擎接收数据更新事件, 根据所述结构化数据与目标模型是否存在映射关 系, 提取与目标主表相关联的所述结构化数据, 更新到所述目标主表中; 所述数据引擎采集数据的同时, 日志采集器形成数据日志, 并将所述数据日志保存到 所述数据缓存库的日志存 储中心; 所述日志存储中心将所述数据日志与任务采集器同步, 从而实现数据日志与用户目标 数据库的共享; 所述模型计算引擎接收数据更新事 件, 包括: 所述模型计算引擎接收到的数据更新日志; 发送数据库共享关联指令; 若数据日志与用户目标数据库的共享成功, 逐步判断所述数据 更新日志是否包含日志 采集任务, 所述日志采集任务是否包含所需要的表, 所述日志采集任务的起始采集时间是 否早于上一次同步任务的起始时间, 如是, 则通过所述日志存储中心读取数据日志, 作为增 量数据日志; 若数据日志与用户目标数据库的共享不成功, 或所述数据 更新日志不包含日志采集任 务, 或所述日志采集任务不包含所需要的表, 或所述日志采集任务的起始采集时间晚于上 一次同步任务的起始 时间, 则所述模型计算引擎直接读取所述数据库中的数据日志, 作为 增量数据日志; 对于与目标模型存在映射关系的所述结构化数据, 从所述数据缓存库中查询含有该结 构化数据的表, 即子表, 将所述子表与目标主表数据合并, 更新目标主表; 对于与目标模型不存在映射关系的所述结构化数据, 将该结构化数据写入数据缓存库 的子表缓存表中, 根据新建立的映射关系, 将子表更新到目标主表中; 所述数据缓存库为Mo ngoDB。 2.根据权利要求1所述的方法, 其特征在于, 所述结构化数据保存在所述数据缓存库的 统一数据缓冲层中。 3.根据权利要求2所述的方法, 其特 征在于, 所述统一数据缓冲层为FDM层。权 利 要 求 书 1/1 页 2 CN 114265875 B 2一种基于流数据的实时建宽表的方 法 技术领域 [0001]本申请涉及一种基于流数据的实时建宽表的方法, 属于数据处 理领域。 背景技术 [0002]无论是传统数仓建设, 还是现代数据驱动的应用业务, 大部分的数据开发工作就 是要构建一些新的数据表, 为各种分析模型或业务模型服务。 特别是互联网公司由于数据 量普遍偏大, 多表关联的方式通常不会被采用。 这种情况下构建宽表用于支持各种业务查 询是非常主流的数据开发工作。 [0003]传统的建模、 建表都是基于SQ L来完成的。 基于SQ L的方式有这些局限性: [0004]1、 目标模型表和原 始表数据脱节: [0005]SQL是基于一个固定数据集来进行查询计算并输出到目标表的方式, 适合于定期 批量运算。 如果涉及到的原始表比较大, 那这种操作往往会需要 执行数分钟甚至数小时, 这 样会造成目标的数据无法 反应当前真实的状态。 [0006]2、 并发任务 性能瓶颈: [0007]由于传统建模的全表计算模式, 在数仓内同时进行的任务基本不能超过2 ‑3个。 这 个严重限制了传统数据平台跑批建模的能力。 发明内容 [0008]根据本申请的一个方面, 提供了一种基于流数据的实时建宽表的方法, 该方法具 有实时性高、 灵活性高、 快速响应、 全局模型关联、 支持跨库乱序的特性。 [0009]基于流数据的实时建宽表的方法, 至少包括以下步骤: [0010]数据引擎采集数据, 保存至数据库中; [0011]将采集到的所述数据转 化为结构化数据; [0012]将所述结构化数据保存到数据缓存库; [0013]模型计算引擎接收数据更新事件, 根据所述结构化数据与目标模型是否存在映射 关系, 提取与目标主表相关联的所述结构化数据, 更新到所述目标主表中。 [0014]可选地, 所述数据缓存库为Mo ngoDB。 [0015]可选地, 所述结构化数据保存在所述数据缓存库的统一数据缓冲层中。 [0016]可选地, 所述统一数据缓冲层为FDM层。 [0017]可选地, 所述数据引擎采集数据的同时, 日志采集器形成数据日志, 并将所述数据 日志保存到所述数据缓存库的日志存 储中心; [0018]所述日志存储中心将所述数据日志与 任务采集器同步, 从而实现数据日志与用户 目标数据库的共享。 [0019]可选地, 所述模型计算引擎接收数据更新事 件, 包括: [0020]所述模型计算引擎接收到的数据更新日志; [0021]发送数据库共享关联指令;说 明 书 1/5 页 3 CN 114265875 B 3

.PDF文档 专利 一种基于流数据的实时建宽表的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于流数据的实时建宽表的方法 第 1 页 专利 一种基于流数据的实时建宽表的方法 第 2 页 专利 一种基于流数据的实时建宽表的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:13:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。