数仓建模—数据生命周期管理

数仓建模—数据生命周期管理

数据生命周期管理 (DLM) 是一种在从数据输入到数据销毁的整个生命周期内管理数据的方法。 数据根据不同的条件分处不同的阶段,随着其完成不同的任务或满足特定要求而逐次经历这些阶段。 一个出色的 DLM 流程提供针对企业数据的结构和组织,帮助实现流程中的关键目标,包括数据安全性和数据可用性。

这些目标对于企业成功非常关键,而且随着时间的推移越来越凸显出其重要性。 DLM 策略和流程帮助企业做好准备应对因数据泄露、数据丢失或系统故障而带来的灾难性后果。 出色的 DLM 战略会划分数据保护和灾难恢复任务的优先顺序,尤其是在越来越多的恶意行为实施者利用快速增长的数据进入市场的形势下。 这样,当发生灾难时,企业可借助业已实施的有效的数据恢复计划从容应对,减轻对企业品牌的利润和总体声誉的灾难性影响

数据生命周期管理与信息生命周期管理之对比

信息生命周期管理 (ILM) 通常可与数据生命周期管理互换使用,虽然它也是数据管理实践的一部分,但与 DLM 并不相同。

数据生命周期管理主要监管文件级数据;也就是说,它根据类型、大小和存在时间长度来管理文件。 而 ILM 负责管理文件中的各种数据,确保数据准确性和及时更新。 这包括用户信息,例如电子邮件地址或账户余额。

数据生命周期管理的各个阶段

数据生命周期由覆盖其有用生命周期的一系列阶段构成。 每个阶段都由一组策略管理,目的是在生命周期的每个阶段最大程度发挥数据的价值。 随着进入企业工作流的数据量不断增长,DLM 也变得越来越重要。

基于⼤数据环境下数据在组织机构业务中的流转情况,定

据治理-据⽣命周期管理-⼤据整合 批量据的整合 传统的据整合⼀般采⽤ETL⽅式,即抽取(Elect)、转换(Transfer)、加载(Load),随着据量的加⼤,以及据平台⾃⾝据处理 技术的发展,⽬前较为通⽤的⽅式为ELT模式,即抽取、加载、转换。 1. 据抽取 业务类系统或流程类系统负责据的采集,但哪些据需要整合到据平台,则需要根据据应⽤的需求进⾏定义。在进⾏据抽取 和加载之前,需要定义据源系统与据平台之间的接⼝,形成据平台的接⼊模型⽂档。 据的抽取会涉及安全与隐私问题,在进⾏抽取据的调研时,也会涉及授权问题,源系统的据结构,以及每张报表每个字段的业 务含义的明确,样本据的采集,都需要得到相应系统的所属部门的授权。在进⾏据抽取之前,需要最后的授权。 源系统的据分析是据整合最为关键和重要的⼀步,需要确认源系统中的据结构、据含义,与⽂档及业务⼈员理解的是否⼀ 致,是否存在偏差。同时,也需要对源系统据的据质量进⾏分析,了解据质量状况,并出具据质量分析报告。通过上述两种分析, 能够识别出据现状与业务期望之间的差别,该差别应反馈给需求提出⽅,需求提出⽅应根据据的状况,调整需求和业务期望 从源系统中抽取据⼀般分为两种模式:抽取模式和供模式。从技术实现⾓度来将,抽取模式是较优的。即由据平台通过⼀定的 ⼯具来抽取源系统的据,但是从项⽬⾓度来讲,建议采⽤源系统供模式,因为抽取据对源系统的影响,如果都有据平台项⽬来负 责,有可能导致以下后果:源系统出现的任何性能问题都可以推诿到据平台戳去⼯作上;源系统发⽣据结构的变更后不通知据平台项 ⽬,导致抽取出错;源系统不对据质量负责,要求据平台项⽬负责。以上的三种情况会对据平台项⽬带来重⼤的风险,最终导致据 平台项⽬失败。 2. 据加载 传统的据平台建设在完成据抽取后,⼀般由ETL⼯具进⾏据转换,即将据结构模型转换为据平台的据结构模型,⼤据 并⾏技术出现后,据库的计算能⼒⼤⼤加强,⼀般都采⽤先加载后转换的⽅式。 据在加载过程中,应该对愿据进⾏据⽐对。以确保抽取加载过程中的据⼀致性,同时设置⼀些基本的据校验规则。对于不 符合据校验规则的据,应该退回源系统,由源系统修正后重新供出。通过这样的⽅式,能够有效地保证加载后的据质量,在完成据 加载后,系统能够⾃动⽣成据加载报告,报告本次加载的情况,并说明加载过程中的源系统的据质量问题。 在据加载过程中,还需要注意据版本管理,传统的数据仓库类平台需要保留不同时间点的历史据,⼀般采⽤据戳⽅式,⼤ 据类应⽤,也建议采⽤这种⽅式,⽬前,⼤据平台在据库结构中⾃带版本管理功能,如果得到有效的利⽤,将⼤⼤地减少开发⼯作量, 并提升系统的效率。 3. 据转换 据转换分为四种类型:简单映射、据转换、计算补齐、规范化。 简单映射:就是在源和⽬标之间⼀致地定义和格式化每个字段,只需在源和⽬标之间进⾏映射,就能把源系统的特定字段复制到⽬标表的特 定字段。 据转换:即将源系统的值转换为⽬标系统中的值。最典型的案例就是代码值转换,源端系统中直接以"F","M"来表⽰性别,在⽬标 系统中采⽤"男"和"⼥"来表⽰,这就需要字段转换 计算补齐:在源据丢失或者缺失的情况下,通过其他据的计算,经过某种业务规则或者据质量规则的公式,推算出缺失的值,进⾏ 据的补齐⼯作。 规范化:当据平台从多个系统中采集据的时候,会涉及多个系统的据,不同系统对于据会有不同的定义,需要将这些据的定义整 合到统⼀的定义下,遵照统⼀的规范。 4. 据整合 在据整合到据平台之后,需要根据应⽤⽬标进⾏据的整合,将据关联起来并提供统⼀的服务。 传统的数据仓库说将据整合为不同的据域。针对不同的据域,建⽴起实体表和维表,基于这些实体表和维表,为不同的应⽤提 供多维分析服务。 为⽀持统⼀的指标运算,⼀些数据仓库也建⽴了统⼀计算层,统⼀对于基于数据仓库上的各类指标进⾏统⼀计算,并提供给各集市进 ⾏展⽰ 为⽀持据分析与挖掘应⽤,⼀些数据仓库⽣成⾯向客户、⾯向产品、⾯向员⼯的宽表,⽤于进⾏据挖掘⼯作。 实时据的整合 ⼤据的⼀个重要的特点就是速度,⼤据时代,据的应⽤者对于据的时效性也提出了新的要求,企业的管理者希望能够实时地 通过据看到企业的经营状况;销售⼈员希望能够实时地了解客户的动态,从⽽发现商机快速跟进;电⼦商务⽹站也需要能够快速地识别客 户在⽹上的⾏为,实时地做出产品的推荐。 1. 实时据的抽取 在实时据抽取的过程中,需要注意⼀点,就是必须实现业务处理和据抽取的松耦合。业务系统的主要职责是进⾏业务的处理, 据采集的过程不能影响业务处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值