
大数据
文章平均质量分 86
记录大数据的工具及一些用法原理
sun cat
只有让自己变得更优秀,才无所畏惧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据篇(2-3)--Hive(3)Hive调优
hvie调优可以分为几个模块进行考虑,数据的压缩与存储,hive参数的优化,sql的优化,解决数据的倾斜等。一,数据的压缩与存储格式1)压缩方式 压缩可以节约磁盘的空间,基于文本的压缩率可达40%+; 压缩可增加吞吐量和性能量(减小载入内存的数据量),但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。 几种压缩算法: 压缩方式 压缩后大小 压缩速度 ...原创 2021-10-08 20:30:03 · 1445 阅读 · 0 评论 -
MQ篇(3-6)--kafka特点
一、高可用性1.Kafka 本身是一个分布式系统,同时采用了 Zookeeper 存储元数据信息,提高了系统的高可用性。2.Kafka 使用多副本机制:当状态为 Leader 的 Partition 对应的 Broker 宕机或者网络异常时,Kafka 会通过选举机制从对应的 Replica 列表中重新选举出一个 Replica 当做 Leader,从而继续对外提供读写服务(当然,需要注意的一点是,在新版本的 Kafka 中,Replica 也可以对外提供读请求了),利用多副本机制在一定程度上提高了原创 2021-10-08 16:16:35 · 548 阅读 · 0 评论 -
大数据篇(1-3)--Hadoop(3)-YARN
一、YARN 简介Apache YARN(Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。二、YARN架构(1)ResourceManagerResourceManager通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。ResourceManager负责给用户提交...原创 2021-07-03 11:35:18 · 257 阅读 · 5 评论 -
大数据篇(1-2)--Hadoop(2)-MapReduce
一、MapReduce概述Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由map以并行的方式处理,框架对map的输出进行排序,然后输入到reduce中。MapReduce 框架专门用于<key,value>键值对处理,它将作业的输入视为一组<key,value>...原创 2021-07-03 11:27:53 · 356 阅读 · 1 评论 -
大数据篇(1-1)--Hadoop(1)-HDFS
一、HDFSHDFS(Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。二、HDFS设计原理HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:NameNode: 负责执行有关文件系统命名空间的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。N...原创 2021-07-03 11:21:13 · 255 阅读 · 0 评论 -
大数据篇(2-2)--Hive(2)Hive分区表和分桶表
分区提供了一个隔离数据和优化查询的可行方案,但是并非所有的数据集都可以形成合理的分区,分区的数量也不是越多越好,过多的分区条件可能会导致很多分区上没有数据。分区表和分桶表的本质都是将数据按照不同粒度进行拆分,从而使得在查询时候不必扫描全表,只需要扫描对应的分区或分桶,从而提升查询效率。Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。原创 2021-07-03 11:13:48 · 640 阅读 · 1 评论 -
大数据篇(2-1)--Hive(1)简介
Hive 进行的是统一的元数据管理,就是说你在 Hive 上创建了一张表,然后在 presto/impala/sparksql 中都是可以直接使用的,它们会从 Metastore 中获取统一的元数据信息,同样的你在 presto/impala/sparksql 中创建一张表,在 Hive 中也可以直接使用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;Hive 会在 HDFS 为每个数据库上创建一个目录,数据库中的表是该目录的子目录,表中的数据会以文件的形式存储在对应的表目录下。原创 2021-07-03 11:08:41 · 511 阅读 · 0 评论 -
MQ篇(3-5)--kafka核心组件之四-日志管理器
一、日志的存储Kafka的消息以日志文件的形式进行存储。不同主题下不同分区的消息是分开存储的。同一个分区的不同副本也是以日志的形式,分布在不同的broker上存储。日志的存储是以副本为单位的,每个副本对应一个log对象,一个log又划分为多个logSegment进行存储。kafka会在指定的目录下创建对应的文件夹,命名规则为“topic名称-分区编号”。logSegment代表逻辑上的一组文件,这组文件就是.log、.index、.timeindex这三个不同文件扩展名,但是同文件名的文原创 2021-04-10 00:06:32 · 355 阅读 · 0 评论 -
MQ篇(3-4)--kafka核心组件之三-控制器
一、控制器是什么其实控制器也是一个broker,控制器也叫leader broker。Kafka的集群由n个的broker所组成,每个broker就是一个kafka的实例或者称之为kafka的服务。二、控制器选举kafka每个broker启动的时候,都会实例化一个KafkaController,并将broker的id注册到zookeeper。集群在启动过程中,通过选举机制选举出其中一个broker作为leader,也就是前面所说的控制器。有三种情况触发控制器选举:1、集群启动.原创 2021-04-10 00:03:40 · 365 阅读 · 0 评论 -
MQ篇(3-3)--kafka核心组件之二-副本管理器
一、副本管理器是什么副本管理器负责对副本管理。由于副本是分区的副本,所以对副本的管理体现在对分区的管理。副本机制使得kafka整个集群中,只要有一个代理存活,就可以保证集群正常运行。这大大提高了Kafka的可靠性和稳定性。备注:1、LEO:LEO是Log End Offset缩写。表示每个分区副本的最后一条消息的位置,也就是说每个副本都有LEO。2、HW:HW是Hight Watermark缩写,他是一个分区所有副本中,最小的那个LEO。二、副本管理器所承担的职责如下..原创 2021-04-09 23:58:07 · 313 阅读 · 0 评论 -
MQ篇(3-2)--kafka核心组件之一-协调器
一、协调器是什么:协调器负责协调工作。简单点说,就是消费者启动后,到可以正常消费前,这个阶段的初始化工作。消费者能够正常运转起来,全有赖于协调器。主要的协调器有如下两个:1、消费者协调器(ConsumerCoordinator):可以看作是消费者做操作的代理类(其实并不是),消费者很多操作通过消费者协调器进行处理。每个consumer实例化时,同时实例化一个ConsumerCoordinator对象,负责同一个消费组下各个消费者和服务端组协调器之前的通信。2、组协调器(GroupC.原创 2021-04-09 23:55:03 · 1178 阅读 · 0 评论 -
MQ篇(3-1)--kafka基本原理
一、Kafka结构Broker:一个Borker就是Kafka集群中的一个实例,或者说是一个服务单元。连接到同一个zookeeper的多个broker实例组成kafka的集群,一般只有一个leader,其余为follwer。Consumer Group:同一个group的consumer可以并行消费同一个topic的消息,但是同group的consumer,不会重复消费。Topic:kafka中消息订阅和发送都是基于某个topic。Topic就像一个特定主题的收件箱,produc原创 2021-04-09 23:31:51 · 643 阅读 · 0 评论 -
zookeeper概要
一、Zookeeper是什么它是一个分布式服务框架,它主要用来解决分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 简单点来说zookeeper = 文件系统 + 监听通知机制二、Zookeeper原理特性1.文件系统:Zookeeper维护一个类似文件系统的数据结构:每个子目录项如NameService都被称作为znode(目录节点),和文件系统一样,我们能够自由的增加、删除znode,在一个znode下增加、删除znode,.原创 2021-02-11 22:57:13 · 155 阅读 · 0 评论