
Hadoop
游侠509
在知识的海洋面前,我只是一个在沙滩上玩耍的小孩子。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop家族 路线图(转)
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云转载 2017-02-06 09:19:52 · 322 阅读 · 0 评论 -
MapReduce类型与格式(输入与输出)
一、输入格式 (1)输入分片记录 ①JobClient通过指定的输入文件的格式来生成数据分片InputSplit; ②一个分片不是数据本身,而是可分片数据的引用; ③InputFormat接口负责生成分片; 源码位置:org.apache.hadoop.mapreduce.lib.input包(新) org.apache.hadoop.mapred.lib 包(旧)转载 2017-02-06 11:30:42 · 4732 阅读 · 0 评论 -
理解Hadoop
HDFS是Hadoop的核心模块之一,围绕HDFS是什么、HDFS的设计思想和HDFS的体系结构三方面来介绍。 Hadoop的设计思想受到Google公司的GFS设计思想的启示,基于一种开源的理念实现的分布式分布式文件系统。HDFS的设计基础与目标如下。 1)硬件错误(Hardware Failure)是常态,因而需要数据冗余技术。 2)流失数据访问(Streaming Data Acces原创 2017-02-06 11:49:55 · 297 阅读 · 0 评论 -
开源大数据利器汇总
开源大数据利器汇总 类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io eBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减少Hadoop在1原创 2017-01-16 13:04:12 · 1883 阅读 · 0 评论 -
Apache Lucene初探
首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等。这里就贡献一个讲解很到位的ppt。已经被我转成了PDF,便于搜藏。 其次,关于第一次编程初探,建议还是查看官方资料。百度到的资料,目前Lucene已经更新到4.9版本,这个版本需要1.7以上的JDK,所以如果还用1.6甚至是1.5的小盆友,请参考低版本,由于我用的1.6,因此在使用Luc转载 2017-02-27 19:18:37 · 211 阅读 · 0 评论 -
windows启动MongoDB
windows下mongo的启动 必须在cmd命令下,输入以下命令: mongod --dbpath "D:\MongoDB\Server\3.4\bin" 然后,另外开启个cmd,在相应的bin目录下输入: mongo, 才可以正常登录mongo。原创 2017-03-10 10:27:45 · 625 阅读 · 0 评论 -
MapReduce编程
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3-转载 2017-03-07 20:45:44 · 607 阅读 · 0 评论