
Hadoop
文章平均质量分 81
blwinner
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ZooKeeper小结(一)原理解析
zk是一个基础服务,主要功能是提供一个保证分布式部署中数据一致性的框架。基于这个框架可以实现很多功能,比如Hadoop的namenode/datanode结构,hbase的hmaster结构。1、怎么理解这个框架的含义呢?分布式:zk可以运行在一个集群中的若干个服务器中(一般是奇数个服务器,便于选举leader)。数据一致性:zk保证集群中一半以上的服务器保持和leader的数据更新同原创 2016-12-01 12:53:35 · 1277 阅读 · 0 评论 -
Hadoop辅助排序一例小结
前言:看的本来是《Hadoop权威指南(第三版)》中译本,结果各种翻译错误、语法错误、概念混淆,不胜枚举,只好对比着英文版第四版一起看。举个例子,key group被翻译成了码组。。你是要拜神?明明后面还有一个value group啊,竟然翻译成值,连组都没了。。。话说看书看到了辅助排序这一段,对于其中分组以后输出第一个值百思不得其解,没说为什么,让我以为分组只能输出一个值,而且是通过分组比较原创 2016-11-24 15:55:01 · 1944 阅读 · 1 评论 -
Kafka官方文档翻译(一)产品概述
流平台的三要素:1、提供发布/订阅记录流的能力,类似于消息队列;2、对记录流的存储有容错能力;3、可以即时处理记录流。kafka可用于两大类应用:1、建立实时流数据管道,在系统或应用之间进行可靠传输;2、建立基于实时流的应用,可以传输或处理数据流。先知概念:*kafka运行在单个或多服务器的集群中;*kafka集群存储的记录(records)流被称为主题(top翻译 2016-12-07 13:48:54 · 1463 阅读 · 0 评论 -
Hadoop初学小结
经过两天的实验,各种参考网文和官方文档,终于把第一个WordCount在Hadoop中跑起来了。主要过程其实在官方指南中就有,但是各个分步中,会遇到很多问题,所以在这里做个小结,把过程中遇到的所有问题回顾一遍,以免将来再犯。Hadoop版本:2.7.3 32位Ubuntu:14.04 LTS 64位java:1.8.0_98IDE:eclipse + 插件hadoop-eclips原创 2016-11-10 16:41:03 · 738 阅读 · 0 评论 -
Kafka官方文档翻译(二)快速入门
本文假定你是尝鲜而且系统里没有任何kafka或者zookeeper的数据。kafka控制台脚本在基于Unix的系统和windows平台中是不同的,在windows平台中使用“bin\windows\”来代替“bin/”,还要把脚本扩展名改为“.bat”。第一步:下载代码下载0.10.1.0release版并解压:> tar -xzf kafka_2.11-0.10.1.0.tgz>翻译 2016-12-09 17:52:37 · 1240 阅读 · 0 评论 -
Kafka官方文档翻译(三)Kafka Streams的使用
这部分文档介绍了如何用Kafka的接口实现流式数据处理。kafka流模式开发1 概述kafka Streams是一个客户端库(client library),用于处理和分析储存在Kafka中的数据,并把处理结果写回Kafka或发送到外部系统的最终输出点。它建立在一些很重要的概念上,比如事件时间和消息时间的准确区分,开窗支持,简单高效的应用状态管理。Kafka Streams的门槛很低:翻译 2016-12-14 13:27:39 · 8807 阅读 · 1 评论