安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210162797.X (22)申请日 2022.02.22 (71)申请人 重庆长安汽车股份有限公司 地址 400020 重庆市江北区建新 东路260号 (72)发明人 段朋 (74)专利代理 机构 重庆博凯知识产权代理有限 公司 50212 专利代理师 孙根 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 16/25(2019.01) G06F 16/182(2019.01) (54)发明名称 一种Hbase增量数据迁移系统、 方法及存储 介质 (57)摘要 本发明公开了一种Hbase增量数据迁移系 统、 方法及存储介质, 本发明利用了Hbase的 Export工具完成源 集群增量数据扫描, 采用HDFS DispCp完成增量数据的跨集群传输, 最后使用分 布式计算引擎Spark将增量数据通过ETL过程转 为为Hbase表底层的HFile文件加载到目标集群 在线的Hbase表中。 在增量数据写入目标Hbase集 群的过程中规避了Hbase本身提供的put方法在 大写入场景下的Hbase RegionServer节点大GC 引发的宕机和性能降低问题, 采用Spark ‑ Bulkload方案在保证Hbase集群稳定的情况下加 速增量数据接入。 权利要求书2页 说明书6页 附图2页 CN 114546989 A 2022.05.27 CN 114546989 A 1.一种Hbase增量数据迁移系统, 其特 征在于, 包括源集群和目标集群, 还 包括, 增量导出模块, 用于扫描并导出源集群中的增量数据, 并将该增量数据存放在源集群 指定的目录中; 数据同步模块, 用于将所述增量数据同步到目标集群指定的目录中; 文件生成模块, 用于将同步到目标集群指定目录中的增量数据生成为目标集群能够加 载的目标文件; 数据在线加载模块, 用于将所述目标文件加载到目标集群中。 2.根据权利要求1所述的一种Hbase增量数据迁移系统, 其特征在于, 还包括大数据分 布式调度系统, 用于通过任务节点的形式控制所述增量导出模块、 数据同步模块、 文件生成 模块和数据在线加载模块定期将源集群中的增量数据迁移至目标集群。 3.一种Hbase增量数据迁移方法, 其特 征在于, 包括以下步骤, S1、 通过增量导出模块扫描源集群并获取增量数据, 将增量数据存放在源集群指定的 目录中; S2、 通过数据同步模块将所述增量数据同步传输 至目标集群指定的目录中; S3、 通过文件生成模块读取所述增量数据, 并对该增量数据进行处理, 生成目标集群能 够加载的目标文件; S4、 通过数据在线加载模块将所述目标文件加载到目标集群中, 完成增量数据由源集 群向目标集群的迁移。 4.根据权利 要求3所述的一种Hbase增量数据迁移方法, 其特征在于, 在步骤S1之前, 还 包括将增 量导出模块、 数据同步模块、 文件生成模块和数据在线加载模块以任务节点的方 式在大数据分布式调度系统上构建任务流, 并配置该任务流的调度周期, 所述任务流根据 该调度周期执 行步骤S1 ‑S4完成增强数据的迁移。 5.根据权利要求3所述的一种Hbase增量数据迁移方法, 其特征在于, 所述增量导出模 块采用Hbase提供的Export工具扫描并导出源集群Hbase表的增量数据, 并将该增量数据存 放在源集群中按所述调度周期划分的HDFS目录上。 6.根据权利要求3所述的一种Hbase增量数据迁移方法, 其特征在于, 所述数据同步模 块基于HDFS DistCp实现, 其采用HDFS提供的DistCp组件完成源集群到目标集群的增量数 据传输, 并将增量数据存放在目标集群中按所述调度周期划分的HDFS目录下。 7.根据权利要求6所述的一种Hbase增量数据迁移方法, 其特征在于, 所述目标集群的 增量数据存储目录和源集群保持一致, 并在数据同步的过程中开启Bzip压缩并跳过CRC检 验。 8.根据权利要求6所述的一种Hbase增量数据迁移方法, 其特征在于, 所述文件生成模 块读取目标集群中按调度周期划分的HDFS目录下的增量数据, 执行数据的ETL流程, 生 成目 标集群能够加载的HFi le文件并重新写回该HDFS目录 。 9.根据权利要求8所述的一种Hbase增量数据迁移方法, 其特征在于, 所述文件生成模 块为基于Spark计算引擎的HFi le生成模块, 其 生成HFile文件包括以下步骤, S301、 使用sp ark.read算子读取增量数据并转为增量数据RDD, 读取Hbase增量数据的 schema信息并转 为schema的广播变量; S302、 在增量数据RDD上应用flatMap算子并引入schema广播变量, 生成HFile所需的权 利 要 求 书 1/2 页 2 CN 114546989 A 2RDD类, 对RD D进行全局排序; S303、 将排序的RD D写回到目标集群的HDFS目录中。 10.一种存储介质, 其特征在于, 所述存储介质存储有一个或者多个程序, 所述一个或 者多个程序被处理器运行时, 执行如权利要求3~9中任一所述的Hbase增量数据迁移方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114546989 A 3
专利 一种Hbase增量数据迁移系统、方法及存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 11:12:09
上传分享
举报
下载
原文档
(478.0 KB)
分享
友情链接
GB-T 35580-2017 建设项目水资源论证导则.pdf
GM-T 0097-2020 射频识别电子标签统一名称解析服务安全技术规范.pdf
T-CFA 031103.4—2018 铸造工艺数字化设计通用要求.pdf
艾瑞咨询2024年AIGC教育行业报告55页.pdf
JR-T0060-2021 证券期货业网络安全等级保护基本要求.pdf
信息安全风险评估表格.docx
YD-T 4044-2022 基于人工智能的知识图谱构建技术要求.pdf
GB-T 17444-2013 红外焦平面阵列参数测试方法.pdf
GB-T 7920.11-2006 道路施工与养护设备 沥青混合料搅拌设备 术语和商业规格.pdf
付晓岩 数字银行论坛-以企业架构推动数字化 转型指导文件的落实 .pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
GB-T 6892-2015 一般工业用铝及铝合金挤压型材.pdf
GB-T 41316-2022 分散体系稳定性表征指导原则.pdf
GB-T 20566-2006 钢及合金术语.pdf
GB-T 19831.3-2023 石油天然气工业 套管扶正器 第3部分:刚性和半刚性扶正器.pdf
GB-T 22071.1-2018 互感器试验导则 第1部分:电流互感器.pdf
T-CIECCPA 030—2023 零碳工厂创建与评价通则.pdf
GB-T 37043-2018 智慧城市 术语.pdf
信息安全技术 电信和互联网大数据安全管控分类分级实施指南.pdf
GB-T 28827.8-2022 信息技术服务 运行维护 第8部分:医院信息系统管理要求.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(478.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。