商城埋点数据,即客户在商城的购买行为的各种浏览数据,是对客户购买行为分析的重要资产。在大数据领域,可以通过收集客户行为数据,分析客户行为规律,进而指导商城各种营销活动制定。例如淘宝和京东展示的各种维度分析报表,可展现客户购买偏好,浏览商品偏好,地域性偏好等;另一个重要应用便是商城“商品推荐”,商城商品推荐便时对客户浏览和购买行为综合分析的结果,在亚马逊“商品推荐”能为企业商城来带40%左右的营收。基于此,对客户行为数据保存就显得至关重要。
流程图
1、通过kafka实时接收商城端行为(埋点)数据;
2、通过kafka插件connect-s3将数据转换为文本格式数据;
3、数据存储到文件存储Minio集群;
以上是通过3个步骤,便可将商城的客户行为数据,最终转换落地存储到文件系统MINIO集群。
1、Kafka部署
以kafka_2.12-2.4.x版本为例,先解压到/appuser/kafka_2.12-2.4.x目录,并说明kafka部署,部署集群节点为:
192.168.0.1
192.168.0.2
192.168.0.3
1、系统参数修改
- vi /etc/sysctl.conf增加如下配置项
vm.swappiness=5
net.core.wmem_default=256960
net.core.rmem_default=256960
vm.max_map_count=262144
sysctl -p 重启使其生效;
- vi /proc/sys/vm/dirty_background_ratio
设置值为5 - vi /etc/security/limits.conf
*soft nofile 204800
*hard nofile 204800
*soft nproc 204800
*hard nproc 204800
2、找到config目录下的server.properties文件
broker.id=1 #三台机器分别为1、2、3
zookeeper.connect=192.168.0.1,192.168.0.2,192.168.0.3
listeners=PLAINTEXT://host:9092 #host为当前服务的实际IP地址
num.partitions=2 #默认分区数为1,可根据实际调整
log.dirs=/appuser/data
num.network.threads=3
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
log.flush.interval.messages=15000
log.flush.interval.ms=3000
replica_lag_max_messages=7000
3、配置启动jvm参数
修改vi kafka-server-start.sh