大数据组件_itachi-uchiha的博客-CSDN博客

大数据组件

关注

文章平均质量分 87

关注数：文章数：9 文章阅读量：9420 文章收藏量：132

作者: itachi-uchiha

哇～～哈哈 https://liuyuanlin.blog.csdn.net/

展开

专栏收录文章

Docker安装Fluentd采集中间件

Fluentd是一款高性能、可扩展的数据收集与聚合工具，旨在统一数据收集和消费，实现从多种数据源到各种数据接收器的高效传输。其核心功能包括统一日志收集、丰富的插件支持、高性能处理和低延迟传输。Fluentd能够从文件、网络、应用程序等不同来源收集日志，并通过500多个插件与Prometheus、Elasticsearch、Kafka等工具集成，便于扩展功能。其多线程架构和优化的数据处理流程使其适用于高并发场景，并能快速传输数据。Fluentd广泛应用于日志收集与分析、数据集成与转换以及事件驱动的架构中。在D

原创 2025-05-21 21:37:55 · 771 阅读 · 0 评论
Docker部署OpenSearch集群

OpenSearch是一款开源的高性能搜索与分析引擎，最初由亚马逊AWS开发，后移交至Linux基金会，采用社区治理模式。它具备高扩展性和兼容性，广泛应用于日志分析、推荐系统等领域。OpenSearch目前有三个主要版本：1.0、2.0和3.0。1.0版本提供基本的搜索和分析功能，基于Elasticsearch早期版本构建；2.0版本增强了告警、通知和地理地图功能，支持Lucene9；3.0版本在性能上大幅提升，引入向量搜索功能，支持多种向量引擎，适用于高要求的AI和大数据分析场景。搭建OpenSearch

原创 2025-05-23 18:38:08 · 1013 阅读 · 0 评论
Docker安装MinIO对象存储中间件

MinIO是一个高性能、分布式对象存储系统，兼容Amazon S3 API，适用于企业存储、大数据、机器学习和容器化应用。其核心特点包括：全面兼容S3 API，支持分布式架构以实现高吞吐量和低延迟，提供多种安全机制如S3签名验证、Active Directory和LDAP，以及数据加密和多因素身份验证。MinIO易于使用，提供丰富的客户端工具和管理界面，安装和配置过程简单。搭建MinIO环境通常涉及安装Docker、创建用户和存储目录，并通过Docker容器启动MinIO服务。启动命令可配置端口映射、用户权

原创 2025-05-21 21:33:34 · 1387 阅读 · 0 评论
Docker部署Spark大数据组件

Apache Spark 是一个快速通用的大数据处理引擎，支持内存计算优化迭代任务（如机器学习）。其核心组件包括Spark Core（基础功能）、Spark SQL（结构化数据）、Spark Streaming（实时处理）、MLlib（机器学习）和GraphX（图计算）。部署时可选择官方或第三方（如bitnami/spark）镜像，官方镜像限于交互式访问，而bitnami支持集群部署。通过docker-compose配置包含1个master和2个worker的集群时，需注意权限设置和ivy路径问题（需在sp

原创 2025-05-27 20:35:36 · 1216 阅读 · 0 评论
Docker部署Zookeeper集群

ZooKeeper是Apache软件基金会开发的开源分布式协调服务，主要用于解决分布式系统中的配置管理、服务发现、分布式锁等问题，确保数据一致性和服务高可用性。其核心功能包括命名服务、分布式锁、配置管理、服务发现和队列管理。ZooKeeper可以通过Docker进行单实例或集群部署，支持自定义配置文件和docker-compose部署集群。单实例部署可通过简单的Docker命令启动，而集群部署则需要定义docker-compose.yaml文件，并通过环境变量配置集群节点。部署完成后，可以通过命令行工具验证

原创 2025-05-23 18:41:24 · 1340 阅读 · 0 评论
Docker部署Spark大数据组件：配置log4j日志

本文介绍如何为Docker部署的Spark集群配置日志轮转功能。原方案仅将日志输出至单个文件，存在日志无限增长问题。通过修改log4j2.properties文件，将FileAppender改为RollingFileAppender，并配置基于时间的日志轮转策略（每天生成新日志文件，保留30天历史日志），实现日志文件的自动分割和归档管理。关键配置包括设置fileName/filePattern路径、时间触发策略及最大保留文件数，解决了原始方案中日志无法轮转的问题。

原创 2025-05-28 11:42:26 · 957 阅读 · 0 评论
Apache Apisix配置ip-restriction插件以限制IP地址访问

ip-restriction插件简介与配置 ip-restriction插件通过白名单或黑名单机制，限制对服务或路由的访问。支持单个IP、多个IP及CIDR范围（如10.10.10.0/24）。主要参数包括whitelist（白名单IP或CIDR）、blacklist（黑名单IP或CIDR）和message（未授权访问时的提示信息）。注意，whitelist和blacklist不能同时使用。配置步骤：从config.yaml获取admin_key并存入环境变量。设置白名单，仅允许特定IP访问，如172

原创 2025-05-20 14:45:46 · 1203 阅读 · 0 评论
Docker安装Apisix代理网关

本文介绍了如何在Docker环境中搭建和验证Apache APISIX API网关。首先，创建了一个专用的虚拟网络apisix-network，并安装了etcd作为配置中心。接着，初始化了APISIX的配置文件config.yaml，并设置了相应的权限以确保APISIX容器能够正常启动。最后，通过启动APISIX容器并验证其运行状态，确认了APISIX的成功部署。整个过程涉及Docker网络配置、etcd安装、配置文件设置及权限管理，最终通过简单的API请求验证了APISIX的正常运行。

原创 2025-05-20 14:46:59 · 795 阅读 · 0 评论
Docker部署Hive大数据组件

本文介绍了使用Docker Compose部署Apache Hive 4.0.1的完整方案，包含HiveServer2和独立Metastore服务，并采用PostgreSQL作为外部元数据库。方案详细说明了通过环境变量配置服务参数、端口映射、数据卷挂载以及网络设置的具体方法，同时提供了对宿主机目录的权限管理建议。部署完成后，用户可通过10002端口访问Web UI，并在Beeline中执行基本的SQL操作示例。该方案实现了Hive服务的容器化部署，便于管理和扩展。

原创 2025-06-06 19:43:58 · 741 阅读 · 0 评论

大数据组件

作者: itachi-uchiha

Docker安装Fluentd采集中间件

Docker部署OpenSearch集群

Docker安装MinIO对象存储中间件

Docker部署Spark大数据组件

Docker部署Zookeeper集群

Docker部署Spark大数据组件：配置log4j日志

Apache Apisix配置ip-restriction插件以限制IP地址访问

Docker安装Apisix代理网关

Docker部署Hive大数据组件