【数据平台】之Kafka+Minio数据埋点大数据利器

本文链接：https://blog.csdn.net/software444/article/details/112742957

商城埋点数据，即客户在商城的购买行为的各种浏览数据，是对客户购买行为分析的重要资产。在大数据领域，可以通过收集客户行为数据，分析客户行为规律，进而指导商城各种营销活动制定。例如淘宝和京东展示的各种维度分析报表，可展现客户购买偏好，浏览商品偏好，地域性偏好等；另一个重要应用便是商城“商品推荐”，商城商品推荐便时对客户浏览和购买行为综合分析的结果，在亚马逊“商品推荐”能为企业商城来带40%左右的营收。基于此，对客户行为数据保存就显得至关重要。

流程图

kafka+minio+connector s3
1、通过kafka实时接收商城端行为(埋点)数据；
2、通过kafka插件connect-s3将数据转换为文本格式数据；
3、数据存储到文件存储Minio集群；
以上是通过3个步骤，便可将商城的客户行为数据，最终转换落地存储到文件系统MINIO集群。

1、Kafka部署

以kafka_2.12-2.4.x版本为例，先解压到/appuser/kafka_2.12-2.4.x目录，并说明kafka部署，部署集群节点为：

192.168.0.1
192.168.0.2
192.168.0.3

1、系统参数修改

vi /etc/sysctl.conf增加如下配置项

 vm.swappiness=5
 net.core.wmem_default=256960
 net.core.rmem_default=256960
 vm.max_map_count=262144

 sysctl -p 重启使其生效；

vi /proc/sys/vm/dirty_background_ratio
设置值为5
vi /etc/security/limits.conf

 *soft nofile 204800
 *hard nofile 204800
 *soft nproc 204800
 *hard nproc 204800

2、找到config目录下的server.properties文件

broker.id=1                     #三台机器分别为1、2、3
zookeeper.connect=192.168.0.1,192.168.0.2,192.168.0.3
listeners=PLAINTEXT://host:9092  #host为当前服务的实际IP地址
num.partitions=2                 #默认分区数为1，可根据实际调整
log.dirs=/appuser/data
num.network.threads=3
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
log.flush.interval.messages=15000
log.flush.interval.ms=3000
replica_lag_max_messages=7000

3、配置启动jvm参数
修改vi kafka-server-start.sh