
云计算
文章平均质量分 79
onlyloveonce
我是学生。其实我还是程序猿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出现的转载 2018-01-06 10:41:35 · 264 阅读 · 0 评论 -
MapReduce二次排序
**答:**先了解下二次排序吧,在MapReduce操作时,我们知道传递的<key,value>会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为新的<key,valu...转载 2018-07-26 23:14:46 · 202 阅读 · 0 评论 -
Hive中Sqoop的基本用法和常见问题
一、通过Sqoop将Hive表数据导入到Mysql1、第一种是将hive上某张表的全部数据导入到mysql对应的表中。2、第二种是将hive上某张表中的部分数据导入到mysql对应的表中。两种方式的区别在于第二种情况需要指定要导入数据的列名称。两种情况的导入方式分别如下:1.全部导入Sqoop export --connect jdbc:mysql://127.0.0.1:33...转载 2018-07-24 20:14:34 · 2439 阅读 · 0 评论 -
Java 读写 hdfs文件或者目录
1.读取单个文件[java] view plain copyDate date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_log_click" + ye...转载 2018-04-12 19:42:36 · 8812 阅读 · 0 评论 -
Ubuntu系统ntp时间同步参考centOs
一、下载ntp:apt-get install ntp二、1. 修改选定的服务器的本地时间#date -s '2014-11-21 12:48:30' +'%F %T'#2014-11-21 12:48:30为将要设定的时间 2. 将修改后的时间写入硬件时钟,确保重启有效#hwclock -w 3. 安装并开启ntp服务在Centos7下,使用systemctl is-enabled ntpd查看...原创 2018-04-18 15:07:42 · 1093 阅读 · 0 评论 -
Hbase之遍历获取数据
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.had...原创 2018-04-11 21:08:02 · 1997 阅读 · 0 评论 -
hbase+java(Scan查询所有、get根据rowkey查询一行或一列数据)
import java.io.IOException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache...转载 2018-04-11 21:05:57 · 22912 阅读 · 3 评论 -
Hadoop集群动态添加datanode节点步骤和hbase节点
hadoop2.5.2一、在Hadoop集群动态添加datanode节点相关步骤。保证zk最好是奇数个,节点个数/2+11. 在新节点安装好hadoop,并把namenode的有关配置文件复制到该节点2. 修改namenode节点的masters和slaves文件(slaves文件),增加该节点3. 设置各节点ssh免密码进出该节点,设置IP映射4. 单独启动该节点...原创 2018-04-16 21:34:05 · 2122 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputFormat...原创 2018-02-27 11:08:46 · 625 阅读 · 0 评论 -
HDP 2.2 ( Hadoop 2.6 ) 集群的内存参数配置和参数调优 (Yarn/MapReduce2)
近期在根据集群上的各节点的物理机配置对集群的内存参数进行调整。 因此较系统的学习了一下hadoop里对资源调配的各组件的相关参数的含义。 作为示例的配置集群版本是2.6, hortonworks 2.2. 首先要理解, hadoop 中 yarn 作为资源管理器, 起到一个底层的控制调配运算资源的作用。 yarn中资源的最小单位是container。 一个container 可以近似认为转载 2018-01-06 15:34:16 · 939 阅读 · 0 评论 -
Spark为什么比Hadoop快?
最近在招聘面试的时候,往往听到应聘者在介绍Spark的时候,通常拿Spark官网案例Spark和Hadoop做比较。当我问到为什么Spark比Hadoop快时候,得到的答案往往是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的...转载 2018-08-22 15:45:34 · 2557 阅读 · 2 评论