
数仓高频问题
文章平均质量分 88
面试经常遇到的问题整理
大数据知识搬运工
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓-概念模型、逻辑模型、物理模型介绍
概念模型:抽象描述现实世界,如ER图。逻辑模型:转化为具体的数据表结构,如MySQL的表定义。物理模型:优化存储和性能,如索引和数据类型的选择。原创 2025-05-22 20:59:18 · 576 阅读 · 0 评论 -
如何评估数仓建设的好坏(开发者/使用者视角)
从用户视角,可从以下方面评估数据建设的合理性:ComletenessRatiofield1−nullfieldcountblankfieldcountlinecounttruthAccuracyRatiofield1−illegalvaluecountwrongvaluecountinconsi。原创 2025-05-21 09:36:37 · 560 阅读 · 0 评论 -
数仓-可累计,半累加,不可累加指标,是什么,举例说明及解决方案
可累计指标指的是可以直接通过加总计算出结果的指标,通常是具有加法性质的数据。这类指标在时间、维度或其他粒度上都可以直接累加。半累加指标指的是在某些维度上可以累加,但在其他维度上无法直接累加的指标。这类指标通常需要额外的计算逻辑来支持累加。不可累加指标指的是无法直接通过加总计算出结果的指标。这类指标通常涉及平均值、比例、排名等复杂计算。指标类型定义举例解决方案可累计指标可直接累加销售额、订单数量、访问次数存储原始数据,直接使用SUM()累加半累加指标某些维度可累加,其他维度不可累加。原创 2025-05-10 21:15:33 · 612 阅读 · 0 评论 -
数仓-缓慢变化维是什么,如何解决
缓慢变化维指的是维度表中的某些属性会随时间发生变化,但这些变化不会频繁发生。客户信息:客户的地址、电话、邮箱等可能会变更。员工信息:员工的职位、部门、薪资等级等可能会调整。产品信息:产品的价格、分类等可能会更新。这些变化需要在数据仓库中进行记录,以便支持历史分析或当前状态查询。缓慢变化维是数据仓库设计中处理维度数据变化的核心问题。常见的解决方法包括SCD Type 1(覆盖更新)、Type 2(新增记录)、Type 3(增加字段)、Type 4(历史表)和Type 6(混合)。原创 2025-05-10 18:22:48 · 727 阅读 · 0 评论 -
数仓-如何保障指标的一致性
业务定义标准化:指标分层设计:公共逻辑下沉:统一数据源:指标开发规范化:数据质量监控:版本管理:指标对齐机制:异常监控与告警:原创 2025-05-10 18:08:14 · 786 阅读 · 0 评论 -
数仓-范式建模、维度建模、雪花模型、星型模型对比及其适用范围
范式建模:维度建模:星型模型:雪花模型:原创 2025-05-10 17:56:42 · 846 阅读 · 0 评论