
数据仓库
文章平均质量分 83
james二次元
分享大数据及AI相关技术,每天进步一点点,和大家一起学习、一起进步!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Informatica介绍
Informatica 是一个领先的数据集成和数据管理平台,提供 ETL(Extract, Transform, Load) 解决方案,同时涵盖 数据治理、主数据管理(MDM)、云数据集成、数据质量 等多个领域。它广泛用于 数据仓库、数据湖、数据分析、主数据管理、数据治理 等企业级应用场景。原创 2025-03-07 05:00:00 · 1418 阅读 · 0 评论 -
大数据查询引擎之Tez
Apache Tez 是一个用于大数据处理的分布式计算框架,旨在提高 Hadoop 的 MapReduce 计算引擎的效率和性能。它是一个面向 DAG(有向无环图)任务执行的框架,主要用于大规模数据处理场景中,特别是在 Apache Hadoop 生态系统中。Tez 的出现大大提高了 Hadoop 的计算效率,尤其是在复杂的批处理和交互式查询场景中,得到了广泛应用。原创 2024-10-17 05:00:00 · 1828 阅读 · 0 评论 -
Hive之任务优化
Hive 是一个基于 Hadoop 的数据仓库工具,提供了 SQL-like 的查询语言来分析存储在 HDFS(Hadoop Distributed File System)上的大规模数据集。为了提高查询性能,Hive 提供了多种优化方法,涵盖不同层次的改进,从 SQL 查询层到执行层。原创 2024-09-23 05:00:00 · 1251 阅读 · 0 评论 -
大数据之OneData
OneData是阿里巴巴内部进行数据整合及管理的方法体系和工具,其核心目标是构建统一、规范且可共享的全域数据体系。通过这一体系,企业可以避免数据的冗余和重复建设,规避数据烟囱和不一致性问题,从而充分发挥在大数据海量、多样性方面的独特优势。OneData体系 是一种企业级数据治理和管理体系,旨在解决企业内数据孤岛、数据标准不一致、数据利用率低等问题。它通过统一的数据模型、标准化的数据管理流程,以及高度自动化的数据处理能力,帮助企业更好地管理和利用数据资源。原创 2024-09-18 05:45:00 · 1585 阅读 · 0 评论 -
元数据工具之Atlas
Apache Atlas 是一个开源的数据治理和元数据管理框架,旨在帮助组织管理和发现其数据资产。Atlas 提供了数据分类、数据血缘追踪、元数据搜索和可视化、数据治理等功能,是大数据生态系统中元数据管理的重要组成部分。以下是对 Apache Atlas 的详细介绍。原创 2024-08-29 05:00:00 · 3955 阅读 · 0 评论 -
Doris之Catalog
Doris Catalog 是 Apache Doris 中用于管理和组织数据的组件。Apache Doris 是一个现代化的MPP(Massively Parallel Processing)数据库,主要用于高效的分析查询。Doris Catalog 在其中起到了至关重要的作用,负责管理数据库、表、视图、分区等元数据。以下是对 Doris Catalog 的详细介绍:原创 2024-08-05 06:00:00 · 2042 阅读 · 0 评论 -
分布式SQL查询引擎之ByConity
ByConity 是字节跳动面向现代数据栈的一款开源数仓系统,应用了大量数据库成熟技术,如列存引擎,MPP 执行,智能查询优化,向量化执行,Codegen,indexing,数据压缩,适合用于 Online Analytical Processing(OLAP) 场景和轻载数仓的场景,包括但不限于交互式分析、实时 APP 监控、流数据处理和分析等。原创 2024-07-31 06:30:00 · 753 阅读 · 0 评论 -
数据同步工具之Canal
Canal 是阿里巴巴开发的一个开源项目,用于实现 MySQL 数据库之间的数据同步和订阅。它主要利用 MySQL 的 binlog 机制,模拟 MySQL Slave 的交互协议,从而达到实时捕获数据库变化的目的。原创 2024-07-25 06:00:00 · 981 阅读 · 0 评论 -
数据集成工具之kettle
Kettle 是一个用于数据集成的开源工具,由 Pentaho 开发,现已由 Hitachi Vantara 维护。Kettle 的全名是 Pentaho Data Integration (PDI),主要用于数据提取、转换和加载(ETL)过程。原创 2024-07-26 07:00:00 · 2049 阅读 · 0 评论 -
hive3 hql脚本传递参数
在数仓的构建过程中,需要配置hive的调度任务,这时就需要对hive hql脚本进行封装,将参数提取出来,作为变量进行配置,比如日期、类型等。hive3版本,hive-f 在执行sql脚本文件的时候是可以传递参数。原创 2024-07-19 14:35:40 · 621 阅读 · 0 评论 -
数据仓库之命名规范
数据仓库命名规范旨在确保数据仓库中的各种对象(如数据库、表、列、索引、视图等)具有一致、清晰且有意义的名称。这些规范有助于提高数据的可读性、可维护性和可理解性。以下是一些常见的数据仓库命名规范,涵盖了数据库对象的各个方面。原创 2024-07-09 08:30:00 · 1423 阅读 · 0 评论 -
Hive on Spark vs. Spark on Hive
Hive on Spark 和 Spark on Hive 是两个不同的大数据处理架构,它们各自有不同的实现方式和应用场景。原创 2024-06-28 09:00:00 · 861 阅读 · 0 评论 -
数据仓库之主数据管理
主数据管理(Master Data Management, MDM)是数据管理的一部分,旨在确保企业的关键业务数据(即主数据)的准确性、一致性和完整性。主数据是指在多个系统、应用和流程中共享的核心数据,例如客户、产品、供应商和员工等信息。通过有效的主数据管理,企业可以提高数据质量,简化数据集成,增强数据治理,从而支持业务运营和决策。原创 2024-06-27 09:00:00 · 1664 阅读 · 0 评论 -
数据仓库之FlinkSQL
Flink SQL 是 Apache Flink 中的一部分,用于处理实时流数据和批数据的 SQL 查询。Flink SQL 结合了 Flink 的流处理和批处理功能,使用户能够通过 SQL 查询实时和历史数据。原创 2024-06-25 08:30:00 · 993 阅读 · 0 评论 -
数据仓库之雪花模型
雪花模型是数据仓库设计中使用的一种规范化模式。它是星型模型的一种扩展,通过进一步规范化维度表来减少冗余和节省存储空间。原创 2024-06-23 16:10:03 · 1016 阅读 · 0 评论 -
大数据之Hive3 ACID特性
Apache Hive 3引入了ACID(Atomicity, Consistency, Isolation, Durability)特性,显著增强了其在处理事务性操作和高并发数据修改时的能力。原创 2024-06-24 09:00:00 · 822 阅读 · 0 评论 -
数据仓库的挑战
为了解决这些痛点,企业可以考虑采用现代数据架构和技术,例如数据湖、云数据仓库、实时数据处理平台等。此外,加强数据治理、优化数据管理流程和培训相关人才也是解决这些问题的有效途径。数据仓库(Data Warehouse,DW)在组织和企业中起着关键作用,但也面临着一些痛点和挑战。原创 2024-06-21 09:00:00 · 951 阅读 · 0 评论 -
Hive Lateral view介绍
Hive Lateral view使用介绍原创 2011-09-30 14:20:29 · 25324 阅读 · 1 评论 -
数据仓库之Hive
Apache Hive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。原创 2024-06-20 08:45:00 · 1806 阅读 · 0 评论 -
数据仓库之主题域
数据仓库的主题域(Subject Area)是按照特定业务领域或主题对数据进行分类和组织的方式。每个主题域集中反映一个特定的业务方面,使得数据分析和查询更加清晰和高效。主题域通常与企业的关键业务过程相关,能够帮助用户在数据仓库中快速找到所需的数据,进行分析和决策。原创 2024-06-18 09:00:00 · 1743 阅读 · 0 评论 -
数据仓库之Kappa架构
Kappa架构是一种简化的数据处理架构,旨在处理实时数据流,解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理,不区分批处理和实时处理,所有数据都是通过流处理系统进行处理。原创 2024-06-18 08:45:00 · 1118 阅读 · 0 评论 -
数据仓库之离线数仓
离线数据仓库(Offline Data Warehouse)是一种以批处理方式为主的数据仓库系统,旨在收集、存储和分析大量历史数据。离线数据仓库通常用于定期(如每日、每周、每月)更新数据,以支持各种业务分析、报表生成和数据挖掘任务。原创 2024-06-15 14:00:00 · 1652 阅读 · 0 评论 -
数据仓库之实时数仓
实时数据仓库(Real-time Data Warehouse, RTDW)是一种能够实时处理和分析数据的系统,旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同,实时数据仓库能够持续地接收、处理和存储数据,使用户能够快速获得最新的信息和洞察力。原创 2024-06-15 10:30:00 · 1196 阅读 · 0 评论 -
离线数仓VS实时数仓
离线数据仓库和实时数据仓库在数据集成、数据建模和数据治理等方面有许多相似之处,但在数据刷新频率、技术架构、性能要求、数据一致性、复杂度和成本等方面存在显著差异。企业需要根据具体的业务需求、技术能力和预算,选择适合的数仓类型或结合使用以满足不同的需求。原创 2024-06-16 10:30:00 · 796 阅读 · 0 评论 -
数据仓库之元数据
元数据在数据仓库中的作用至关重要。元数据是关于数据的数据,它描述了数据的内容、结构、位置和业务含义。元数据管理是数据仓库成功实施和运行的核心部分。原创 2024-06-13 09:00:00 · 1337 阅读 · 0 评论 -
数据仓库之拉链表
数据仓库中的拉链表(也称为历史表或慢速变化维度表)是一种设计模式,用于记录维度表中数据的历史变化。拉链表通过记录每次变化的数据快照,保留了完整的历史信息,可以用于追溯分析和历史数据查询。原创 2024-06-11 09:00:00 · 913 阅读 · 0 评论 -
数据仓库之星型模型
星型模型(Star Schema)是一种常见的数据仓库建模技术,专门用于支持高效的查询和数据分析。它以其简单直观的结构得名,中心是一个事实表(Fact Table),周围是多个维度表(Dimension Tables),整体结构看起来像一颗星。原创 2024-06-07 08:30:00 · 1462 阅读 · 0 评论 -
数据仓库数据集成开源工具
数据集成是数据仓库建设的重要环节,开源工具在这一领域提供了许多强大的解决方案。以下是一些常见的开源数据集成工具,它们各自有独特的功能和特点:原创 2024-06-11 08:45:00 · 3161 阅读 · 0 评论 -
数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询。原创 2024-06-06 14:17:06 · 1379 阅读 · 0 评论 -
数据仓库之缓慢变化维
缓慢变化维(Slowly Changing Dimensions, SCD)是数据仓库设计中的一个重要概念,用于处理维度表中随时间缓慢变化的属性。维度表中的数据通常描述业务实体(如客户、产品、员工等),而这些实体的某些属性(如地址、名称、职位等)会随时间变化。原创 2024-06-07 09:00:00 · 1339 阅读 · 0 评论 -
数据仓库介绍
数据仓库(Data Warehouse, DW)是一种用于存储和管理大量业务数据的系统,旨在支持决策支持系统(DSS)和商业智能(BI)应用。它将来自不同来源的数据整合到一个统一的数据库中,以便于分析和报告。原创 2024-06-05 09:30:00 · 671 阅读 · 0 评论 -
数据仓库中数据质量如何提升
在数据仓库中,确保数据质量是一个复杂而关键的任务。数据质量的保障涉及多个方面和步骤,包括数据采集、清洗、集成、存储和使用原创 2024-06-04 10:47:41 · 1352 阅读 · 0 评论