大数据及数据管控平台计及案例

晋维鸿科技

于 2023-05-16 13:21:10 发布

阅读量914

点赞数

CC 4.0 BY-SA版权

文章标签：信息可视化人工智能数据分析

本文链接：https://blog.csdn.net/weixin_39774675/article/details/130703473

一、总体设计

(一) 数据总体要求

1、煤矿多源数据存储与管理

2、实现煤矿数据融合

3、建设煤矿数据服务

4、完成煤矿数据治理与管控

(二) 平台架构

1、系统架构

2、技术架构

3、数据架构

二、煤矿多源数据存储与管理

1、数据资源规划

2、数据资源池构建

(1) 数据资源池构建

(2) 数据资源池构建设计

3、数据源管理

(1) IOT 数据源

(2) 结构化数据源

(3) 非结构化数据源

4、数据处理服务

(1) 数据处理要求

(2) 数据处理

三、煤矿数据融合

(一) 煤矿数据时序融合

(二) 煤矿数据空间融合

(三) 煤矿数据关系融合

(四) 煤矿数据交叉融合

四、煤矿数据服务

(一) 数据搜索服务

(二) 数据共享与交换服务

(三) 数据分析挖掘支撑服务

(四) 数据可视化服务

1、数据资源可视化

2、数据资产可视化

(五) 煤矿业务支撑服务

1、生产调度协同管控应用中心

2、专业业务应用中心

3、智能分析决策中心

(1) 提供生产指标分析数据支撑，应包括但不限于：

(2) 提供安全风险数据集成分析预警数据支撑，应包括但不限于：

五、煤矿数据治理与管控

(一) 数据标准管理

(二) 元数据管理

(三) 主数据管理

(四) 数据模型管理

(五) 数据质量管理

(六) 数据安全管理

一、总体设计

(一) 数据总体要求

朱盖塔煤矿大数据与数据管控平台应建立企业级的数据治理体系，将分散、多样化的数据规则化、标准化，通过质量探查、清洗、集成及监控等手段进行数据管控，形成数据治理体系，持续运行，提升、挖掘数据的应用价值。达成对业务的支撑、降低数据管理风险和难度、对决策进行支持、满足煤矿监管要求、可持续发展提升等目标。

煤矿大数据与数据管控平台需提供包括煤矿多源数据存储与管理、煤矿数据融合、煤矿数据服务、煤矿数据治理与管控等四个方面，充分利用大数据基础平台完成煤矿的数据底座建设。

1、煤矿多源数据存储与管理

煤矿数据管理要求在完整梳理煤矿数据资源的前提下，面向煤矿数据资源的特性完成数据资源池构建，为煤矿数据提供科学先进、层次合理的数据存储框架，将梳理识别的数据资源逐个接入资源池，并完成处理。

2、实现煤矿数据融合

煤矿数据融合要求实现时序、空间、关系及交叉四种维度下的数据融合，可以根据实际业务需求形成对应的融合数据集。

3、建设煤矿数据服务

煤矿数据服务要求实现包括数据搜索、数据共享与交换、数据分析挖掘支撑、数据可视化以及煤矿业务支撑等数据服务功能，以满足煤矿业务系统数据消费需求或国家部委数据采集需求。

4、完成煤矿数据治理与管控

煤矿数据管控要求从数据标准、元数据、主数据、数据模型、数据质量和数据安全等几个层面在大数据平台内对煤矿数据资源进行管控，以达到理清数据资产、完善数据标准落地、规范数据处理流程、提升数据质量、保障数据安全使用、促进数据流通与价值提炼的目标。

(二) 平台架构

1、系统架构

(1) 基础设施层由计算资源、存储资源、网络资源、系统软件和感知设备组

成，是建设平台的基础。

(2) 数据源层主要涉及矿井已有业务系统数据和其他数据，是系统的核心。

(3) 协议适配与内容解析层主要由八个功能接口来支撑非结构化数据的解析和存储，能够实现任务的配置、管理等。

(4) 数据融合分析主要由数据治理管理、大数据资源池建设和数据服务构成，能够实现数据共享交换、数据报表查询、知识图谱分析等服务，通过服务支撑多个业务应用，实现了数据的资产化和数据资产的服务化，支撑异构系统协同和能力复用。

(5) 在标准化建设层面，通过标准规范体系建设形成 CMIM 数据标准，打通设计、施工、运维多阶段的应用瓶颈，实现数据贯通；通过安全管理体系建设实现数据安全、系统安全，避免数据泄密、系统被篡改等；通过运维管理体系建设确保系统运行高效、稳定，减少故障发生。

2、技术架构

平台支持多源异构数据的同步，结构化数据 (如设备传感器数据、业务系统数据) 、半结构化数据 (XML、JSON 等) 、非结构化数据 (CAD 数据、BIM 数据、图片、文档、视频等) 通过不同的协议适配、内容解析，同步到大数据存储模块，其中结构化和半结构化数据使用协议适配与内容解析模块、DataX、Flume、MQTT、 Kafka 等方式同步，非结构化数据通过协议适配与内容解析模块、OSS 插件等方式同步。数据在大数据存储模块，按照数据类型，结构化数据保存在Hive、Hbase、 ES、TSDB 等中间件中，非结构化数据保存在 OSS 中。通过大数据计算分析模块，提供离线批处理、即席交互查询、机器学习、实时流计算等功能，最终由 BIM 轻量化、BI 多维分析、知识图谱、格式化报表等应用展示。

围绕项目系统架构设计，在技术架构上，对于非结构化和结构化的多源异构数据资源，除了协议适配和内容解析方面是通过开发八大模型接口服务去支撑外，在数据抽取、转换、清洗和加载环节。流式数据通过 Kafka 和Spark 去解决，离线数据通过 DataX 和南大通用数据仓库去解决，而数据的存储、管理和检索主要是通过HDFS、HBase 和 Solr 等技术去解决。对于知识图谱的应用，主要是采用 Java SpringBoot、Neo4j 和国产非结构化数据库等技术解决 BIM 数据模型的关联融合与分析挖掘。

3、数据架构

数据架构图所示分为三层：

(1) 贴源层：

英文缩写 ODS (Operational Data Store) ，贴源层也称操作数据层，是数据体系架构中最接近数据源的一层，是煤矿数据的集中存储处，除了对非结构化数据进行结构化处理以及对相同数据进行整合外，并不对业务数据做过多的清洗加工，尽可能保留数据的原始状态。贴源数据层建设的目标就是把全域原始数据都汇聚到数据平台，从而能在数据平台查询到所有的全域数据，为后面的数仓层、应用层建设做准备。