日志采集框架Flume

Flume是一个分布式、高可用的日志采集系统,用于从各种数据源收集、聚合和传输大量日志数据。本文详细介绍了Flume的运行机制、安装部署步骤以及不同采集案例,包括采集目录到HDFS、监控文件内容更新、多级agent级联、高可用配置和负载均衡配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 Flume介绍

1.1 什么是Flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中

1.2 Flume运行机制

        Flume分布式系统中最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件:

  1. Source:采集组件,用于跟数据源对接,以获取数据
  2. Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据
  3. Channel:传输通道组件,用于从source将数据传递到sink

        Source 到 Channel 到 Sink之间传递数据的形式是Event事件;Event事件是一个数据流单元元。

        多级agent之间串联: 

 2 Flume的安装部署

        前提是已有hadoop环境

  • 第一步:下载解压修改配置文件

        复制flume-env.sh,并指定JAVA_HOME路径

tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt/module/
cd  /opt/module/apache-flume-1.6.0-cdh5.14.0-bin/conf
cp  flume-env.sh.template flume-env.sh
vim flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_141
  • 第二步:开发配置文件

        根据数据采集的需求配置采集方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值