目录
一、总体设计
(一) 数据总体要求
1、煤矿多源数据存储与管理
2、实现煤矿数据融合
3、建设煤矿数据服务
4、完成煤矿数据治理与管控
(二) 平台架构
1、系统架构
2、技术架构
3、数据架构
二、煤矿多源数据存储与管理
1、数据资源规划
2、数据资源池构建
(1) 数据资源池构建
(2) 数据资源池构建设计
3、数据源管理
(1) IOT 数据源
(2) 结构化数据源
(3) 非结构化数据源
4、数据处理服务
(1) 数据处理要求
(2) 数据处理
三、煤矿数据融合
(一) 煤矿数据时序融合
(二) 煤矿数据空间融合
(三) 煤矿数据关系融合
(四) 煤矿数据交叉融合
四、煤矿数据服务
(一) 数据搜索服务
(二) 数据共享与交换服务
(三) 数据分析挖掘支撑服务
(四) 数据可视化服务
1、数据资源可视化
2、数据资产可视化
(五) 煤矿业务支撑服务
1、生产调度协同管控应用中心
2、专业业务应用中心
3、智能分析决策中心
(1) 提供生产指标分析数据支撑,应包括但不限于:
(2) 提供安全风险数据集成分析预警数据支撑,应包括但不限于:
五、煤矿数据治理与管控
(一) 数据标准管理
(二) 元数据管理
(三) 主数据管理
(四) 数据模型管理
(五) 数据质量管理
(六) 数据安全管理
朱盖塔煤矿大数据与数据管控平台应建立企业级的数据治理体系,将分散、 多样化的数据规则化、标准化,通过质量探查、清洗、集成及监控等手段进行数 据管控,形成数据治理体系,持续运行,提升、挖掘数据的应用价值。达成对业 务的支撑、降低数据管理风险和难度、对决策进行支持、满足煤矿监管要求、可 持续发展提升等目标。
煤矿大数据与数据管控平台需提供包括煤矿多源数据存储与管理、煤矿数据 融合、煤矿数据服务、煤矿数据治理与管控等四个方面,充分利用大数据基础平 台完成煤矿的数据底座建设。
煤矿数据管理要求在完整梳理煤矿数据资源的前提下,面向煤矿数据资源的 特性完成数据资源池构建,为煤矿数据提供科学先进、层次合理的数据存储框架,将梳理识别的数据资源逐个接入资源池,并完成处理。
煤矿数据融合要求实现时序、空间、关系及交叉四种维度下的数据融合,可 以根据实际业务需求形成对应的融合数据集。
煤矿数据服务要求实现包括数据搜索、数据共享与交换、数据分析挖掘支撑、 数据可视化以及煤矿业务支撑等数据服务功能,以满足煤矿业务系统数据消费需 求或国家部委数据采集需求。
煤矿数据管控要求从数据标准、元数据、主数据、数据模型、数据质量和数 据安全等几个层面在大数据平台内对煤矿数据资源进行管控,以达到理清数据资 产、完善数据标准落地、规范数据处理流程、提升数据质量、保障数据安全使用、 促进数据流通与价值提炼的目标。
(1) 基础设施层由计算资源、存储资源、网络资源、系统软件和感知设备组
成,是建设平台的基础。
(2) 数据源层主要涉及矿井已有业务系统数据和其他数据,是系统的核心。
(3) 协议适配与内容解析层主要由八个功能接口来支撑非结构化数据的解 析和存储,能够实现任务的配置、管理等。
(4) 数据融合分析主要由数据治理管理、大数据资源池建设和数据服务构成, 能够实现数据共享交换、数据报表查询、知识图谱分析等服务,通过服务支撑多 个业务应用,实现了数据的资产化和数据资产的服务化,支撑异构系统协同和能 力复用。
(5) 在标准化建设层面,通过标准规范体系建设形成 CMIM 数据标准,打通 设计、施工、运维多阶段的应用瓶颈,实现数据贯通;通过安全管理体系建设实 现数据安全、系统安全,避免数据泄密、系统被篡改等;通过运维管理体系建设确保系统运行高效、稳定,减少故障发生。
平台支持多源异构数据的同步,结构化数据 (如设备传感器数据、业务系统 数据) 、半结构化数据 (XML、JSON 等) 、非结构化数据 (CAD 数据、BIM 数据、 图片、文档、视频等) 通过不同的协议适配、内容解析,同步到大数据存储模块, 其中结构化和半结构化数据使用协议适配与内容解析模块、DataX、Flume、MQTT、 Kafka 等方式同步,非结构化数据通过协议适配与内容解析模块、OSS 插件等方 式同步。数据在大数据存储模块,按照数据类型,结构化数据保存在Hive、Hbase、 ES、TSDB 等中间件中,非结构化数据保存在 OSS 中。通过大数据计算分析模块, 提供离线批处理、即席交互查询、机器学习、实时流计算等功能,最终由 BIM 轻量化、BI 多维分析、知识图谱、格式化报表等应用展示。
围绕项目系统架构设计,在技术架构上,对于非结构化和结构化的多源异构 数据资源,除了协议适配和内容解析方面是通过开发八大模型接口服务去支撑外, 在数据抽取、转换、清洗和加载环节。流式数据通过 Kafka 和Spark 去解决,离 线数据通过 DataX 和南大通用数据仓库去解决,而数据的存储、管理和检索主要 是通过HDFS、HBase 和 Solr 等技术去解决。对于知识图谱的应用,主要是采用 Java SpringBoot、Neo4j 和国产非结构化数据库等技术解决 BIM 数据模型的关 联融合与分析挖掘。
数据架构图所示分为三层:
(1) 贴源层:
英文缩写 ODS (Operational Data Store) ,贴源层也称操作数据层,是数 据体系架构中最接近数据源的一层,是煤矿数据的集中存储处,除了对非结构化 数据进行结构化处理以及对相同数据进行整合外,并不对业务数据做过多的清洗 加工,尽可能保留数据的原始状态。贴源数据层建设的目标就是把全域原始数据 都汇聚到数据平台,从而能在数据平台查询到所有的全域数据,为后面的数仓层、 应用层建设做准备。
ODS 数据按照集成的系统来源可以分为:安全生产监测监控系统、日常安全 生产管理业务等。
按照数据结构类型的不同,贴源数据可以分为三类:
结构化数据:主要是关系型数据库中的数据,直接从业务系统 DB 抽取到贴 源数据层。
半结构化数据:一般是纯文本数据,以各种日志数据为主,如经过 BIM 引擎 解析为 JSON 数据库文件和非结构化文件,半结构化数据保留贴源数据的同时也 做结构化处理,为后续使用做准备。
非结构化数据:主要是图片、音频、视频,一般保留在文件系统中,由于这 类数据量一般比较庞大,而且没有太多挖掘分析价值,所以贴源数据层不保留原 始文件,只保留对原始数据文件的描述,比如地址、名称、类型、分辨率等。
(2) 仓库层:
英文缩写 DW (Data Warehouse) ,统一数仓层又细分为明细层 DWD (Data Warehouse Detail) 和汇总层 DWS (Data Warehouse Summary) 。
明细层以维度建模为理论基础,构建总线矩阵,划分主题域,多源同业务的 ODS 数据将融合到同一个主题域中去。
汇总层基于明细层数据对主数据对象做属性标签化处理,标签又分为基础属 性、统计属性、算法属性三类。比如,基础属性= {成立时间、地址、企业性质等}, 统计属性= {煤质产量、员工职称比例、重大事故发生次数等},算法属性= {销售 预测、成本预测、事故预警等}。
(3) 应用层:
英文缩写 ADS (Application Data Store) 。应用数据层是按照业务使用的 需要,组织已经加工好的数据以及一些面向业务的特定个性化指标加工,以满足 最终业务应用的场景。应用数据层一般也是采用维度建模的方法,但是为了满足 业务的个性需求以