安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210191709.9 (22)申请日 2022.02.28 (71)申请人 武汉祁联生态科技有限公司 地址 430074 湖北省武汉市洪山区珞喻路 33号珞珈创意园一期大学生创业基地 1315 (72)发明人 岳金钊 王永桂  (74)专利代理 机构 深圳泛航知识产权代理事务 所(普通合伙) 44867 专利代理师 邓爱军 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 21/31(2013.01) (54)发明名称 一种基于生态环境大数据框架的主从数据 共享模式 (57)摘要 本发明公开了一种基于生态环境大数据框 架的主从数据共享模式, 首先, 定义了一个生态 环境大数据的存储、 编辑和查询的主从双线框 架。 在主线上, 服务维护方通过定时数据爬取子 系统自动采集生态环境数据, 接着通过数据清 理、 数据集成、 数据变换操作对数据进行规范化 处理, 以提高平台数据质量, 最后将处理好的数 据存储在系统数据库中。 在从线上, 平台用户可 共享自己的生态环境数据集, 经人工权威认证 后, 通过数据集成操作 将共享的数据与系统数据 库中的数据进行规范化合并, 以此来对主线数据 进行补充和扩展, 未通过权威认证的数据集存储 在用户数据库中。 最终通过数据共享子系统按照 主从共享模式完成生态环境领域间的数据共享 与交换。 权利要求书2页 说明书6页 附图2页 CN 114579539 A 2022.06.03 CN 114579539 A 1.一种基于生态 环境大数据框架的主从数据共享模式, 其特 征在于, 包括以下步骤: S1、 在主线上, 根据生态环境领域不同监测站数据的更新策略, 采取不同的模式定时采 集数据。 S2、 按照数据的类型及其特征, 将S1中采集到的数据通过数据清理、 数据集成、 数据变 换操作对数据进行规范化处 理, 最后将处 理好的数据存 储在系统数据库中。 S3、 在从线上, 接收用户共享的生态环境数据集, 系统自动判断数据集的类别。 若该数 据集的类别和S1中数据的类别一致, 并且数据集的质量通过了人工的检验, 则将该数据集 与主线上的数据进行规范化 合并。 否则, 将该 数据集存 储在用户数据库中。 S4、 数据共享子系统接收用户的数据请求, 通过审核后执 行数据共享请求。 2.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S1中不同的模式包括 一天采集 一次、 每隔四个小时采集 一次、 每小时采集 一次。 3.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S1包括: S11、 系统在指定的采集时间点触发对应的采集任务 程序。 S12、 采集任务程序按照接 口的格式模拟浏览器向接 口所在的服务器发送HTTP/HTTPS 请求。 S13、 根据HTTP/HTTPS协议对服务器返回的报文进行解析, 从而获取到响应体中的数据 部分。 4.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S2中数据的类型包括: 字符串、 整型、 浮 点型、 布尔型、 日期。 5.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S2中数据的特征具体为: 采集的数据主要以半结构化数据为主, 以非结构化数据为 辅。 异源同类别数据的一 致性较差, 具体表现为单位、 度量、 数据属性命名不 一致。 6.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S2包括: S21、 根据不同的数据模型遵循不同的方法(对于非结构化数据文本, 则使用正则表达 式解析数据。 而对于半结构化数据(通常为JSON数据), 通过站点提供的文档以及专业经验 推断出具体的属性含义, 从而解析 出对应的数据), 从而抽取 出所需的数据。 S22、 纠正数据中的错 误(包括数据值 错误、 数据类型错 误、 数据编码错 误) S23、 检测数据中是否存在重复记录或重复字段, 对于这些重复项目需要进行去重处 理。 若存在不同来源的重复记录或者在相同时间点存在 多条监测数据, 则按照 “生态环境部 优先于直属单位, 直属单位优先于用户共享的, 用户共享的优 先于进行过缺失值补全的”原 则保留数据。 S24、 对数据按照预设的标准统一数据规格, 包括字段的单位、 类型、 名称、 格式、 计数方 法。 S25、 对数据按照相应的逻辑进行异常值检测。 若发现异常值, 就将该字段值置为空。 S26、 按照一定的逻辑补全缺失值, 同时标记该属性值为补全值。 具体为: 按照缺失值的 不同类别分别 补全, 。 若缺 失值对应的属性属于站 点的详细信息类别, 通过查询站 点字典补 全缺失值, 或者人工进 行补全; 若缺失值对应的属性属于日期时间类别, 则根据采集时间查权 利 要 求 书 1/2 页 2 CN 114579539 A 2找同时同源数据, 进而补 全缺失值; 若缺 失值对应的属性属于业务类别, 则以该属性存在值 的平均值 来插补缺失的值。 S27、 将经 过处理的数据存 储在系统数据库。 7.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S3包括: S31、 用户下 载对应的数据共享模板, 按照模板的格式对要共享的数据进行处 理。 S32、 在用户阅读并接受相应的共享协议之后, 填写数据集的描述信息, 最后上传对应 的数据集。 S33、 系统接收到用户上传的文件之后, 通过指定的逻辑对数据类别进行初步的判断, 再结合用户填写的数据集描述信息, 最终判定出该数据集的数据类别是否和S1中采集的数 据类别一 致。 其中, S33中指定的数据类别判断逻辑为: 挑选数据集中的某一个或某几个文件, 读取 前几行的内容, 通过和采集到的数据属 性集合进行对比, 进而得出数据类别是否和主线的 数据一致。 S34、 若S33中数据判别结果为一致, 则系统自动创建数据审核工单, 由人工介入, 从完 整性和准确性两个方面对数据进行手动审核, 以保证数据的质量。 若审核通过, 则进入S34 执行数据合并。 否则, 放弃与主 线数据的合并, 将该 数据集存 储在用户数据库。 S35、 按照步骤S21、 S22、 S23、 S24和S25所述的数据处理方法, 对满足合 并标准的数据集 进行规范化处 理、 去重、 合并, 以达 到从线数据扩充 主线数据的目的。 另外, 从线数据被合并后将会和主 线数据有标志的存放在系统数据库中。 8.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式, 其特征在 于: 步骤S4包括: 用户在阅读并接受生态环 境数据共享协 议的前提下, 填写并提交相应的申 请表单(表单中包括申请人的基本信息以及申请数据的目的)。 系统接收到用户的数据请求 后, 会自动转 发给管理员审核, 管理员在判定该请求合法后, 由系统自动开放该数据集的下 载地址, 以供用户的下 载。权 利 要 求 书 2/2 页 3 CN 114579539 A 3

.PDF文档 专利 一种基于生态环境大数据框架的主从数据共享模式

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生态环境大数据框架的主从数据共享模式 第 1 页 专利 一种基于生态环境大数据框架的主从数据共享模式 第 2 页 专利 一种基于生态环境大数据框架的主从数据共享模式 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:13:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。