专利 一种基于生态环境大数据框架的主从数据共享模式

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210191709.9 (22)申请日 2022.02.28 (71)申请人武汉祁联生态科技有限公司地址 430074 湖北省武汉市洪山区珞喻路 33号珞珈创意园一期大学生创业基地 1315 (72)发明人岳金钊　王永桂　 (74)专利代理机构深圳泛航知识产权代理事务所(普通合伙) 44867 专利代理师邓爱军 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 21/31(2013.01) (54)发明名称一种基于生态环境大数据框架的主从数据共享模式 (57)摘要本发明公开了一种基于生态环境大数据框架的主从数据共享模式，首先，定义了一个生态环境大数据的存储、编辑和查询的主从双线框架。在主线上，服务维护方通过定时数据爬取子系统自动采集生态环境数据，接着通过数据清理、数据集成、数据变换操作对数据进行规范化处理，以提高平台数据质量，最后将处理好的数据存储在系统数据库中。在从线上，平台用户可共享自己的生态环境数据集，经人工权威认证后，通过数据集成操作将共享的数据与系统数据库中的数据进行规范化合并，以此来对主线数据进行补充和扩展，未通过权威认证的数据集存储在用户数据库中。最终通过数据共享子系统按照主从共享模式完成生态环境领域间的数据共享与交换。权利要求书2页说明书6页附图2页 CN 114579539 A 2022.06.03 CN 114579539 A 1.一种基于生态环境大数据框架的主从数据共享模式，其特征在于，包括以下步骤： S1、在主线上，根据生态环境领域不同监测站数据的更新策略，采取不同的模式定时采集数据。 S2、按照数据的类型及其特征，将S1中采集到的数据通过数据清理、数据集成、数据变换操作对数据进行规范化处理，最后将处理好的数据存储在系统数据库中。 S3、在从线上，接收用户共享的生态环境数据集，系统自动判断数据集的类别。若该数据集的类别和S1中数据的类别一致，并且数据集的质量通过了人工的检验，则将该数据集与主线上的数据进行规范化合并。否则，将该数据集存储在用户数据库中。 S4、数据共享子系统接收用户的数据请求，通过审核后执行数据共享请求。 2.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S1中不同的模式包括一天采集一次、每隔四个小时采集一次、每小时采集一次。 3.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S1包括： S11、系统在指定的采集时间点触发对应的采集任务程序。 S12、采集任务程序按照接口的格式模拟浏览器向接口所在的服务器发送HTTP/HTTPS 请求。 S13、根据HTTP/HTTPS协议对服务器返回的报文进行解析，从而获取到响应体中的数据部分。 4.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S2中数据的类型包括：字符串、整型、浮点型、布尔型、日期。 5.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S2中数据的特征具体为：采集的数据主要以半结构化数据为主，以非结构化数据为辅。异源同类别数据的一致性较差，具体表现为单位、度量、数据属性命名不一致。 6.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S2包括： S21、根据不同的数据模型遵循不同的方法(对于非结构化数据文本，则使用正则表达式解析数据。而对于半结构化数据(通常为JSON数据)，通过站点提供的文档以及专业经验推断出具体的属性含义，从而解析出对应的数据)，从而抽取出所需的数据。 S22、纠正数据中的错误(包括数据值错误、数据类型错误、数据编码错误) S23、检测数据中是否存在重复记录或重复字段，对于这些重复项目需要进行去重处理。若存在不同来源的重复记录或者在相同时间点存在多条监测数据，则按照 “生态环境部优先于直属单位，直属单位优先于用户共享的，用户共享的优先于进行过缺失值补全的”原则保留数据。 S24、对数据按照预设的标准统一数据规格，包括字段的单位、类型、名称、格式、计数方法。 S25、对数据按照相应的逻辑进行异常值检测。若发现异常值，就将该字段值置为空。 S26、按照一定的逻辑补全缺失值，同时标记该属性值为补全值。具体为：按照缺失值的不同类别分别补全，。若缺失值对应的属性属于站点的详细信息类别，通过查询站点字典补全缺失值，或者人工进行补全；若缺失值对应的属性属于日期时间类别，则根据采集时间查权　利　要　求　书 1/2 页 2 CN 114579539 A 2找同时同源数据，进而补全缺失值；若缺失值对应的属性属于业务类别，则以该属性存在值的平均值来插补缺失的值。 S27、将经过处理的数据存储在系统数据库。 7.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S3包括： S31、用户下载对应的数据共享模板，按照模板的格式对要共享的数据进行处理。 S32、在用户阅读并接受相应的共享协议之后，填写数据集的描述信息，最后上传对应的数据集。 S33、系统接收到用户上传的文件之后，通过指定的逻辑对数据类别进行初步的判断，再结合用户填写的数据集描述信息，最终判定出该数据集的数据类别是否和S1中采集的数据类别一致。其中， S33中指定的数据类别判断逻辑为：挑选数据集中的某一个或某几个文件，读取前几行的内容，通过和采集到的数据属性集合进行对比，进而得出数据类别是否和主线的数据一致。 S34、若S33中数据判别结果为一致，则系统自动创建数据审核工单，由人工介入，从完整性和准确性两个方面对数据进行手动审核，以保证数据的质量。若审核通过，则进入S34 执行数据合并。否则，放弃与主线数据的合并，将该数据集存储在用户数据库。 S35、按照步骤S21、 S22、 S23、 S24和S25所述的数据处理方法，对满足合并标准的数据集进行规范化处理、去重、合并，以达到从线数据扩充主线数据的目的。另外，从线数据被合并后将会和主线数据有标志的存放在系统数据库中。 8.如权利要求1所述的一种基于生态环境大数据框架的主从数据共享模式，其特征在于：步骤S4包括：用户在阅读并接受生态环境数据共享协议的前提下，填写并提交相应的申请表单(表单中包括申请人的基本信息以及申请数据的目的)。系统接收到用户的数据请求后，会自动转发给管理员审核，管理员在判定该请求合法后，由系统自动开放该数据集的下载地址，以供用户的下载。权　利　要　求　书 2/2 页 3 CN 114579539 A 3

专利 一种基于生态环境大数据框架的主从数据共享模式

专利一种基于生态环境大数据框架的主从数据共享模式