
Hadoop & Cloud Computing
文章平均质量分 87
XifengHZ
ZJU CS MASTER
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume日志收集
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数转载 2013-12-10 12:18:15 · 680 阅读 · 0 评论 -
纯真IP数据库格式详解
摘要 网络上的IP数据库以纯真版的最为流行,LumaQQ也采用了纯真版IP数据库做为IP查询功能的基础。不过关于其格式的文档却非常之少,后来终于在网上找到了一份文档,得以了解其内幕,不过那份文档寥寥数语,也是颇为耐心才读明白。在这里我重写一份,以此做为LumaQQ开发者文档的一部分,我想还是必要的。本文详细介绍了纯真IP数据库的格式,并且给出了一些Demo以供参考。Luma, 清华大学转载 2013-12-10 17:12:02 · 1234 阅读 · 0 评论 -
开放数据集合分享
巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。给大家推荐几个数据集合1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图挖掘等16个大类,138个小类,总大小达45.9G。下载地址:http://t.cn/zjdJhPf2.【Sogou原创 2013-12-22 15:03:52 · 771 阅读 · 0 评论 -
hadoop单元测试方法--使用和增强MRUnit
1前言 hadoop的mapreduce提交到集群环境中出问题的定位是比较麻烦的,有时需要一遍遍的修改代码和打出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug(当然仅有单元测试是不够的,毕竟跟集群的运行环境还是不一样的)。 然而做mapreduce的单元测试会有一些障碍,比如Map和Redu转载 2013-12-21 20:34:03 · 1673 阅读 · 1 评论 -
Hadoop Mapreduce分区、分组、连接以及辅助排序(也叫二次排序)过程详解
1、MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地reduce) - partition -reduce2、Mapred原创 2013-09-28 12:07:05 · 3344 阅读 · 1 评论 -
hadoop1.0.4+zookeeper-3.4.5+hbase-0.94.1集群安装
介绍的很详细的一个帖子,本人按照步骤一步一步最后安装成功,记录下。。。。一,环境:1,主机规划:集群中包括3个节点:hadoop01为Master,其余为Salve,节点之间局域网连接,可以相互ping通。机器名称IP地址hadoop01192.168.1.31转载 2014-01-13 22:41:01 · 2282 阅读 · 0 评论 -
Linux Shell 通配符、元字符、转义符使用实例介绍
mark一下,近两天要写。。。原创 2013-12-11 13:25:35 · 979 阅读 · 0 评论 -
牛人教你如何秒杀99%的海量数据处理面试题
摘要: 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 ... ...作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如转载 2013-09-23 10:39:15 · 1001 阅读 · 0 评论 -
Hadoop运行错误记录
org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/hadoop/maven/test.pig could only be replicated to 0 nodes, instead of 1今天运行hadoop集群出现上面的错误,这个错误的意思是datanode不可用,有可能是datanode没启动。原创 2013-11-13 20:44:07 · 726 阅读 · 0 评论 -
Reactor模式
Reactor模式是处理并发I/O比较常见的一种模式,用于同步I/O,中心思想是将所有要处理的I/O事件注册到一个中心I/O多路复用器上,同时主线程阻塞在多路复用器上;一旦有I/O事件到来或是准备就绪(区别在于多路复用器是边沿触发还是水平触发),多路复用器返回并将相应I/O事件分发到对应的处理器中。 Reactor是一种事件驱动机制,和普通函数调用的不同之处在于:应用程序不是主动的调用某转载 2013-09-05 14:32:00 · 5294 阅读 · 0 评论 -
Nuth | Hadoop完全分布式运行 学习笔记
原始URL:hdfs://10.66.27.18.:9000/user/hadoop/urldir url.txt -->http://blog.tianya.cnhdfs://10.66.27.18.:9000/user/hadoop/urldir url2.txt -->http://bbs.tianya.cn直接生成:bin/nutch crawl urldir -dir c原创 2013-09-16 11:02:42 · 4053 阅读 · 0 评论 -
不懂这显然您不专业!云计算术语大全
云计算实用之路漫漫其修远兮,当今,各厂商对云计算的定义不一,云计算的标准更是各行其道。在这云计算的混战时代,产生的有关云计算的术语更是目不暇接,整个IT界似乎正在迎来一个云计算术语爆炸的时代,其中有关于云计算概念本身,也有关于厂商的云策略和云产品的。本文通过对现有的云计算资料进行梳理,列出了60多条云计算相关的术语及其解释,以供参考。 1. 云计算 关于云计算的定义,目前为止至转载 2013-10-12 16:15:16 · 1488 阅读 · 1 评论 -
MapReduce程序调试工具--MRUnit简介与使用
MRUnit简介: 当hadoop的MapReduce作业提交到集群环境中运行,对于出问题的定位比较是比较麻烦的,有时需要一遍遍的修改代码和打印出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug。然而做MapReduce的单元测试会有一个障碍,比如Map和Reduce一些参数对象是在运行时由hadoop框架传入原创 2013-09-26 16:12:39 · 4583 阅读 · 0 评论 -
Hadoop HDFS支持的所有命令
hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下 h原创 2013-10-27 08:25:50 · 786 阅读 · 0 评论 -
Pig学习总结
Pig是一种探索大规模数据集的脚本语言。pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理翻译成多个map和reduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来。Pig包括两部分:用于描述数据流的语言,称为Pig Latin;和用于运行Pig Latin程序的执行环境。Pig Latin程序有一系列的operation和原创 2013-10-27 11:54:45 · 1525 阅读 · 0 评论 -
备忘贴:Ubuntu下Hadoop单结点部署
Ubuntu下Hadoop单结点部署1.准备[1] 操作系统:Ubuntu 10.10[2] Java开发环境:JDK 6.0以上,这里选择Java SE 6 Update 29,下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html[3] Hadoop安装原创 2013-10-30 12:52:26 · 686 阅读 · 0 评论 -
Hadoop | SequenceFile doesn't work with GzipCodec without native-hadoop code 异常解决
http://guoyunsky.diandian.com/post/2012-04-12/18498037转载 2013-11-18 17:36:30 · 2330 阅读 · 0 评论