
hadoop
郑家小组
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
面向ad-hoc查询的实时SQL分析系统
Impala/Hive现状分析与前景展望Impala和Hive野史提到Impala就不得不提Google的Dremel,处理PB级数据规模的基于SQL的交互式、实时数据分析系统。Dremel是Google推出的PaaS数据分析服务BigQuery的后台。Google已经有了MapReduce,为什么还要开发Dremel呢?Dremel/Impala类系统和MapReduce有什转载 2013-01-05 11:08:42 · 14338 阅读 · 1 评论 -
Mapreduce之间的参数传递
对于复杂的数据可以考虑把数据保存的公共的结点,然后在map'的setup方法中去读取这个文件,从而获得共享的数据,而对于简单的数据可以用conf进行传递。在驱动函数里面Configuration conf2=getConf();conf2.set("temp", String.valueOf(123));Job job2 = new Job(conf2, "Idf"原创 2013-01-21 16:45:20 · 6653 阅读 · 3 评论 -
Hadoop中文件读写(Java)
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间转载 2013-01-22 10:49:12 · 6852 阅读 · 0 评论 -
Mapreduce的输入输出
1 读取reduce的输出在reduce输出中,key和value之间的间隔符是"\t"而不是空格,这个要注意。也就是如果是多个job,第二个要读取第一个job的输出,则采用下面的语句: String[] tokens = value.toString().split("\t");从而区分出,上一个reduce的key和value部分原创 2013-01-21 15:18:37 · 829 阅读 · 0 评论 -
Mapreduce中Combiner的使用及误区
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这样做原创 2013-01-22 11:18:50 · 31682 阅读 · 5 评论 -
Hadoop程序调试简易办法
基于Eclipse环境下进行mapreduce编程时最大的问题是调试问题,网上有很多的办法,但是都比较复杂,如果对于要测试数据是否准确,一条最简单的办法是采用System.exit(n)而n是你要测试的数据。只需要在使用了n语句后面写一条System.exit(n)如果,系统运行报错的话,则可以看到n是否你想要值。欢迎大家提供更多更简洁的方法来调试候程序。原创 2013-01-21 15:44:34 · 921 阅读 · 0 评论 -
运用hadoop计算TF-IDF续-支持中文读取-支持文件输出控制
jackydai987在文章《运用hadoop计算TF-IDF》(http://blog.csdn.net/jackydai987/article/details/6303459)提到了TF-IDF的计算,但是留下几个问题:1、 输出的文件控制2、 对中文字符的处理为此本文做如下改进:请参见《Hadoop的MapReduce中多文件输出》http://blo原创 2013-01-31 17:23:56 · 1938 阅读 · 1 评论 -
介绍一个Mapreduce资料的blog
MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没 法扩展到大规模集群上去了(数百或数千个节点),用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。-------------------------------------------------转载 2013-01-30 11:24:36 · 3400 阅读 · 0 评论 -
Mapreduce中文处理策略
hadoop源代码中涉及编码问题时都是写死的utf-8,但是不少情况下,也会遇到输入文件和输出文件需要GBK编码的情况。GBK编码文件的输入:(1)输入文件为GBK,则只需在mapper或reducer程序中读取Text时,进行一下转码,以确保都是以UTF-8的编码方式在运行。// 转码 Text newText = transformTextToUTF8(valu原创 2013-01-30 17:22:24 · 1520 阅读 · 0 评论 -
流式计算系统
文/杨栋本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。背景非实时计算几乎都基于MapReduce计算框架,但MapReduce并不是万能的。对于搜索应用环境中的某些现实问题,MapReduce并不能很好地解决问题。商用搜索引擎,像转载 2013-01-15 09:51:53 · 5780 阅读 · 1 评论 -
HaLoop——适用于迭代计算的Hadoop
文章连接(VLDB‘2010)该文章提出了对Hadoop的修改,使之能够适用于迭代计算,将原生的Hadoop中每一个job中一个map-reduce对改成多个map-reduce对,这样job就可以复用(如果不复用,每一个job完成之后都会把reduce的结果写进Hdfs文件,同时启动新的job时会从Hdfs中读文件,造成I/O压力),实现了在job内就可以控制迭代,同时由于迭代计算本身的转载 2013-01-07 13:22:48 · 1448 阅读 · 0 评论 -
Twister
MapReduce programming model has simplified the implementations of many data parallel applications. The simplicity of the programming model and the quality of services provided by many implementations转载 2013-01-07 13:19:54 · 1402 阅读 · 0 评论 -
Mapreduce常见数据挖掘算法集收集
1. Map/Reduce方式实现矩阵相乘http://www.norstad.org/matrix-multiply/index.html2. Map/Reduce方式实现PageRank算法http://blog.ring.idv.tw/comment.ser?i=369http://code.google.com/p/map-reduce-assign原创 2013-01-07 10:54:51 · 5940 阅读 · 0 评论 -
hadoop碎片
MapReduce调度性能的三个主要因素:本地化、同步开销及公平性约束。原创 2013-01-06 16:15:12 · 682 阅读 · 0 评论 -
三种流式计算系统--MapReduce Hold不住?
本文系统地介绍和分析比较了业界主流的Yahoo! S4、StreamBase和Borealis三种流式计算系统,希望读者能从这些系统的设计中领悟到不同场景下流式计算所要解决的关键问题。背景杨栋百度分布式高级研发工程师,从事Hypertable、Hadoop及流式计算的研究和开发。非实时计算几乎都基于MapReduce计算框架,但M转载 2013-01-06 16:12:53 · 2211 阅读 · 0 评论 -
数据密集、计算密集、IO密集,hadoop如何应对?
I/O bound(I/O密集型)I/O bound 指的是系统的CPU效能相对硬盘/内存的效能要好很多,此时,系统运作,大部分的状况是 CPU 在等 I/O (硬盘/内存) 的读/写,此时 CPU Loading 不高。计算密集型 (CPU-bound) 也有人认为是Compute-IntensiveCPU bound 指的是系统的 硬盘/内存 效能 相对 CPU 的原创 2013-01-06 16:08:15 · 13060 阅读 · 0 评论 -
MapReduce和并行数据库,朋友还是敌人?
在2010年1月的ACM上,有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》,另一篇文章是Michael Stonebraker、Daniel Abadi、David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexander转载 2013-01-05 08:53:16 · 1163 阅读 · 0 评论 -
配置hbase出错
13/03/18 17:43:30 FATAL conf.Configuration: error parsing conf file: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: 2 ▒ֽڵ▒ UTF-8 ▒▒▒е▒▒ֽ▒ 2 ▒▒Ч▒▒Exception in thread "main原创 2013-03-18 21:08:47 · 9167 阅读 · 0 评论