- 博客(14)
- 收藏
- 关注
原创 简单理解Flume之Channel和Sink
1,Memory Channel将数据临时存储的到内存队列2,属性属性队列容量,默认情况队列中最多临时存储100条数据,实际过程这个值一般被调节成30W~50W。
2024-05-28 14:57:58
782
原创 简单理解Flume之Source
1,AVRO Source监听指定端口,接收被AVRO序列化之后的数据2,结合AVRO Sink可以实现多级扇入扇出流动。
2024-05-28 10:45:35
557
原创 简单理解Zookeeper之数据同步机制
client向Zookeeper集群的Leader节点发送写请求Leader节点接收到写请求后,会对请求进行预处理,并为这次写操作分配一个全局唯一的递增ID(ZXID)。Leader将这个写请求(提案)广播给所有的Follower节点。这个提案包含了请求的具体内容和分配的ZXID。每个Follower节点在接收到提案后,会将其写入到本地的事务日志中,并向Leader回应一个投票(acknowledgment),表示它已经准备好这次更改。
2024-05-25 10:04:10
973
原创 简单理解Zookeeper之选举机制
负责处理客户端发送的读、写事务请求。这里的事务请求可以理解这个请求具有事务的 ACID 特性。同步写事务请求给其他节点,且需要保证事务的顺序性。负责处理客户端发送的读请求转发写事务请求给 Leader。参与 Leader 的选举。和 Follower 一样,唯一不同的是,不参与 Leader 的选举,且状态为 OBSERING。如果需要将哪一个节点设置为observer,那么只需要修改这个节点对应的zoo.cfg即可。
2024-05-24 19:39:48
1575
1
原创 简单理解zookeeper之底层原理
ZAB协议是ZooKeeper的核心组件,它通过确保ZooKeeper集群中所有服务器之间的事务广播顺序,实现了ZooKeeper数据的一致性.
2024-05-24 19:20:12
652
1
原创 简单理解zookeeper
分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调ZooKeeper是一个开源的分布式协调服务,由Apache软件基金会开发和维护。它旨在帮助构建分布式应用程序,提供高可用性和可靠性。ZooKeeper 允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。
2024-05-22 17:04:42
745
1
原创 简单理解Linux之shell编程
1,Shell是一个用c语言写的程序,通过Shell用户可以访问操作系统的内核2,Shell既是一种命令语言,又是一种程序设计语言3,Shell编程就是指shell脚本编程4,Shell编程和Java,php编程一样,只要有一个能编写代码的文本编辑器和一个能解释执行的脚本解释器就可以了。
2024-05-22 10:52:49
504
原创 简单理解Linux
1,内核:运行程序,管理像磁盘打印机等硬件设备的核心程序2,Shell:系统用户界面,提供用户和内核的交互接口。它接受用户输入的命令,并送到内核执行,是一个命令解释器。同时它还是高级编程语言。3,FIEL SYSTEMS(文件系统):文件存储在磁盘的组织方式,Linux支持多种文件系统,如NFS,SMB,ext2,ext34,应用程序。
2024-05-20 13:09:07
745
原创 简单理解Hive之函数
1,窗口函数又称开窗函数,用于限制数据处理范围2,基本语法结构分析函数 over(partition by 字段 order by 字段 [desc/asc] rows between 起始范围 and 结束范围)over表示使用窗口来进行限制对数据进行分类order by对数据进行排序rows between 起始范围 and 结束范围:指定数据的处理范围关键字解释preceding往前following往后unbounded无边界当前行。
2024-05-18 11:06:53
647
原创 简单理解Hive
1,Hive中提供了丰富的数据类型,分为基本数据类型和复杂数据类型2,基本类型Hive类型MySQL类型Java类型tinyinttinyintbytesmalintsmalintshortintintintbigintbigintlongfloatfloatfloatdoubledoubledoublebooleanbooleanbooleanstringvarcharstringbinarybyte[]timestampTimestamp。
2024-05-16 18:34:51
663
原创 简单理解HBase
HBase由Yahoo!开发后来贡献给Apache的一个基于HDFS的,开源的,分布式,可扩展,能存储大量数据的非关系型数据库。
2024-05-11 13:57:37
296
1
原创 简单理解YARN
YARN(Yet Another Resource Negotiator 迄今另一个资源调度器),负责集群的任务管理和资源调度。YARN是Hadoop2.x开始出现的。
2024-05-04 19:18:06
382
原创 简单理解MapReduce
Map Reduce是Hadoop提供的一套用于分布式计算的模型。Map Reduce由两阶段组成,Map(映射)阶段和Reduce(规约)阶段。
2024-05-04 16:03:11
1863
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人