
大数据组件
文章平均质量分 87
itachi-uchiha
哇~~哈哈
https://liuyuanlin.blog.csdn.net/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Docker安装Fluentd采集中间件
Fluentd是一款高性能、可扩展的数据收集与聚合工具,旨在统一数据收集和消费,实现从多种数据源到各种数据接收器的高效传输。其核心功能包括统一日志收集、丰富的插件支持、高性能处理和低延迟传输。Fluentd能够从文件、网络、应用程序等不同来源收集日志,并通过500多个插件与Prometheus、Elasticsearch、Kafka等工具集成,便于扩展功能。其多线程架构和优化的数据处理流程使其适用于高并发场景,并能快速传输数据。Fluentd广泛应用于日志收集与分析、数据集成与转换以及事件驱动的架构中。在D原创 2025-05-21 21:37:55 · 771 阅读 · 0 评论 -
Docker部署OpenSearch集群
OpenSearch是一款开源的高性能搜索与分析引擎,最初由亚马逊AWS开发,后移交至Linux基金会,采用社区治理模式。它具备高扩展性和兼容性,广泛应用于日志分析、推荐系统等领域。OpenSearch目前有三个主要版本:1.0、2.0和3.0。1.0版本提供基本的搜索和分析功能,基于Elasticsearch早期版本构建;2.0版本增强了告警、通知和地理地图功能,支持Lucene9;3.0版本在性能上大幅提升,引入向量搜索功能,支持多种向量引擎,适用于高要求的AI和大数据分析场景。搭建OpenSearch原创 2025-05-23 18:38:08 · 1013 阅读 · 0 评论 -
Docker安装MinIO对象存储中间件
MinIO是一个高性能、分布式对象存储系统,兼容Amazon S3 API,适用于企业存储、大数据、机器学习和容器化应用。其核心特点包括:全面兼容S3 API,支持分布式架构以实现高吞吐量和低延迟,提供多种安全机制如S3签名验证、Active Directory和LDAP,以及数据加密和多因素身份验证。MinIO易于使用,提供丰富的客户端工具和管理界面,安装和配置过程简单。搭建MinIO环境通常涉及安装Docker、创建用户和存储目录,并通过Docker容器启动MinIO服务。启动命令可配置端口映射、用户权原创 2025-05-21 21:33:34 · 1387 阅读 · 0 评论 -
Docker部署Spark大数据组件
Apache Spark 是一个快速通用的大数据处理引擎,支持内存计算优化迭代任务(如机器学习)。其核心组件包括Spark Core(基础功能)、Spark SQL(结构化数据)、Spark Streaming(实时处理)、MLlib(机器学习)和GraphX(图计算)。部署时可选择官方或第三方(如bitnami/spark)镜像,官方镜像限于交互式访问,而bitnami支持集群部署。通过docker-compose配置包含1个master和2个worker的集群时,需注意权限设置和ivy路径问题(需在sp原创 2025-05-27 20:35:36 · 1216 阅读 · 0 评论 -
Docker部署Zookeeper集群
ZooKeeper是Apache软件基金会开发的开源分布式协调服务,主要用于解决分布式系统中的配置管理、服务发现、分布式锁等问题,确保数据一致性和服务高可用性。其核心功能包括命名服务、分布式锁、配置管理、服务发现和队列管理。ZooKeeper可以通过Docker进行单实例或集群部署,支持自定义配置文件和docker-compose部署集群。单实例部署可通过简单的Docker命令启动,而集群部署则需要定义docker-compose.yaml文件,并通过环境变量配置集群节点。部署完成后,可以通过命令行工具验证原创 2025-05-23 18:41:24 · 1340 阅读 · 0 评论 -
Docker部署Spark大数据组件:配置log4j日志
本文介绍如何为Docker部署的Spark集群配置日志轮转功能。原方案仅将日志输出至单个文件,存在日志无限增长问题。通过修改log4j2.properties文件,将FileAppender改为RollingFileAppender,并配置基于时间的日志轮转策略(每天生成新日志文件,保留30天历史日志),实现日志文件的自动分割和归档管理。关键配置包括设置fileName/filePattern路径、时间触发策略及最大保留文件数,解决了原始方案中日志无法轮转的问题。原创 2025-05-28 11:42:26 · 957 阅读 · 0 评论 -
Apache Apisix配置ip-restriction插件以限制IP地址访问
ip-restriction插件简介与配置 ip-restriction插件通过白名单或黑名单机制,限制对服务或路由的访问。支持单个IP、多个IP及CIDR范围(如10.10.10.0/24)。主要参数包括whitelist(白名单IP或CIDR)、blacklist(黑名单IP或CIDR)和message(未授权访问时的提示信息)。注意,whitelist和blacklist不能同时使用。 配置步骤: 从config.yaml获取admin_key并存入环境变量。 设置白名单,仅允许特定IP访问,如172原创 2025-05-20 14:45:46 · 1203 阅读 · 0 评论 -
Docker安装Apisix代理网关
本文介绍了如何在Docker环境中搭建和验证Apache APISIX API网关。首先,创建了一个专用的虚拟网络apisix-network,并安装了etcd作为配置中心。接着,初始化了APISIX的配置文件config.yaml,并设置了相应的权限以确保APISIX容器能够正常启动。最后,通过启动APISIX容器并验证其运行状态,确认了APISIX的成功部署。整个过程涉及Docker网络配置、etcd安装、配置文件设置及权限管理,最终通过简单的API请求验证了APISIX的正常运行。原创 2025-05-20 14:46:59 · 795 阅读 · 0 评论 -
Docker部署Hive大数据组件
本文介绍了使用Docker Compose部署Apache Hive 4.0.1的完整方案,包含HiveServer2和独立Metastore服务,并采用PostgreSQL作为外部元数据库。方案详细说明了通过环境变量配置服务参数、端口映射、数据卷挂载以及网络设置的具体方法,同时提供了对宿主机目录的权限管理建议。部署完成后,用户可通过10002端口访问Web UI,并在Beeline中执行基本的SQL操作示例。该方案实现了Hive服务的容器化部署,便于管理和扩展。原创 2025-06-06 19:43:58 · 741 阅读 · 0 评论