东风古剑
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【doris】应用篇(六)索引(一)
摘要:本文介绍了Apache Doris数据库中的两种主要索引类型:前缀索引和倒排索引。前缀索引基于建表时指定的排序键进行稀疏索引构建,查询时需按键顺序命中才能有效使用。倒排索引支持更灵活的等值、范围和模糊查询,可通过分词策略实现全文检索,但会带来额外存储开销。文章通过具体SQL示例说明了两种索引的创建和使用方法,并对比了它们的特点和适用场景,建议根据实际查询需求合理设计表结构和索引策略,以提升查询效率。原创 2025-07-21 16:10:54 · 128 阅读 · 0 评论 -
【doris】应用篇(五)Broker Load
摘要: 本文介绍了Doris数据库中Broker Load数据导入方式,适用于从HDFS或S3等远程存储系统导入大数据的异步场景。支持CSV、JSON、Parquet等格式及多种压缩类型。详细展示了四种实现方式:1)无Kerberos认证的HDFS导入;2)带Kerberos认证的HDFS导入;3)同步TFV(Table-Valued Function)方式查询HDFS文件;4)带Kerberos的TFV导入。通过SQL命令可查看或取消任务进度。Broker Load灵活支持字段指定、条件过滤和多表并行导入原创 2025-07-10 17:08:14 · 51 阅读 · 0 评论 -
【doris】应用篇(四)spark-doris-connector
本文介绍了spark-doris-connector框架的使用方法,该框架通过Spark并发能力提升Doris数据吞吐量。主要内容包括:1) 版本匹配问题,建议选择兼容版本;2) 数据读取和写入的代码示例,与Spark写法兼容;3) 优化参数配置,如内存限制、批量大小等;4) 常见问题和注意事项,如版本兼容性、stream load异常等。该框架还支持通过Doris Catalog和Spark SQL进行数据交互,具体可参考官方文档。使用时需注意参数调优和异常处理。原创 2025-07-02 15:57:18 · 85 阅读 · 0 评论 -
【doris】应用篇(三)导入-stream load
本文总结了Doris数据库Stream Load导入方式的使用经验和常见问题。Stream Load通过HTTP协议同步导入数据,适合10GB以下文件,支持原子性导入。文章介绍了基本语法、监控方法和关键参数优化建议(如enable_stream_load_record、max_tablet_version_num等),并分享了实际踩坑经验,包括日志级别对性能的影响和并发控制问题。最后强调生产环境应合理配置参数,平衡性能与资源消耗。(149字)原创 2025-06-26 14:26:27 · 225 阅读 · 0 评论 -
【doris】应用篇(二)- 分区 分桶
Doris合理分区与分桶能提升查询效率、便于管理数据并均衡数据分布。分区支持Range、List类型,可手动或自动创建,动态分区可自动维护时间分区。分桶有Hash和Random两种方式,Hash分桶适合关联查询,Random分桶数据更均匀。建议:1)总Tablet数量控制在1G-10G;2)考虑磁盘并行处理能力;3)关联查询可优化为Colocate join;4)分桶键优先选择高基数字段,数据倾斜可加盐值处理。合理设计分区和分桶对Doris性能至关重要。原创 2025-06-09 10:09:01 · 307 阅读 · 0 评论 -
【doris】分布式安装(四)- 踩坑记录
Doris 常见报错问题总结本文记录了Doris使用过程中遇到的典型问题及解决方案:BE报错部分:LIMIT_REACH报错:官方确认为调试日志,不影响使用brpc发送失败:由BE节点刚启动或CPU资源不足导致BE僵尸进程:高负载时软中断频繁导致服务器高负载:网卡硬件问题引发HDFS块缺失:HDFS集群网卡驱动问题导致FE报错部分:查询被取消:workload group并发数配置不足FE启动失败:版本不一致或启动参数错误建议:生产环境应做好资源隔离,业务SQL使用独立资源组,原创 2025-05-26 11:37:08 · 153 阅读 · 0 评论 -
【doris】应用篇(一)- 建库 建表
本文介绍了Apache Doris数据库的建库建表操作。Doris支持三种表引擎:明细表(存储原始数据)、主键表(支持唯一键去重和更新)和聚合表(内置聚合函数)。建库操作与MySQL类似,支持设置副本分布。建表时需注意排序键设置,它直接影响查询效率。明细表使用DUPLICATE KEY,主键表用UNIQUE KEY实现数据去重,聚合表通过AGGREGATE KEY实现预聚合。文中还介绍了分桶策略、副本设置以及数据更新注意事项,建议事务性操作使用主键表,并提醒注意数据可见性延迟问题。原创 2025-05-26 10:15:29 · 616 阅读 · 0 评论 -
【doris】分布式安装(三)- 数据湖(初配置)
本文介绍了如何利用Doris的数据湖能力实现对Hive、HDFS和JDBC数据源的读取。对于Hive,Doris通过同步Hive元数据实现远程读取,支持无Kerberos和Kerberos认证两种配置方式,并提供了手动刷新元数据的SQL命令。对于HDFS,Doris可以直接通过SQL查询HDFS中的文件。对于JDBC,Doris支持通过JDBC连接多种数据库,如MySQL,并提供了创建JDBC Catalog的示例。本文简要展示了Doris在数据湖场景中的应用,未来将进一步扩展更多数据源的支持。原创 2025-05-22 16:32:31 · 79 阅读 · 0 评论 -
【doris】分布式安装(二)- workload group
本文介绍了Doris数据库中的Workload Group资源分配和权限管理。Workload Group通过细粒度的资源划分(CPU、内存、IO)实现负载隔离,支持软限和硬限两种模式。软限动态调整资源分配,硬限则严格限制资源使用。文章详细讲解了如何配置硬限,包括服务器准备、CGroup设置、BE和FE的配置调整,以及如何通过SQL语句配置Workload Group的硬限参数。此外,还介绍了如何创建新用户、分配权限,并将其加入特定的Workload Group。本文为Doris的资源管理和权限控制提供了基原创 2025-05-20 17:43:24 · 356 阅读 · 0 评论 -
【doris】 分布式安装(一)
Apache Doris 是一款基于 MPP 架构的开源实时分析型数据库,具备高性能、易用性和实时数据处理能力。它支持亚秒级响应、多场景优化、MySQL 协议兼容、流批一体等功能,适用于电商、金融等实时分析场景。安装和配置 Doris 需要准备 Linux 服务器,关闭防火墙、配置 host 文件、时钟同步、关闭透明大页、增加虚拟内存区域,并安装 JDK。软件安装包括 FE(前端)和 BE(后端)的配置与启动,通过分布式部署实现高可用和扩展性。本文简要介绍了 Doris 的基本配置和分布式安装步骤。原创 2025-05-20 16:45:50 · 793 阅读 · 0 评论