
hadoop
文章平均质量分 55
程序员面试笔记
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python脚本批量生成datax json
【代码】python脚本批量生成datax json。原创 2024-06-08 09:29:15 · 307 阅读 · 0 评论 -
大数据面试常问问题
12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率最高的50个词。你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?原创 2024-05-15 22:19:09 · 906 阅读 · 0 评论 -
大数据安全
hadoop中没有中央服务器来认证用户,也没有安全网关或者认证机制。被授权可以访问NameNode的用户理论上能够删除数据或者假冒其他用户访问他们不应该访问的数据。hadoop中也没有任何用于角色分配或对象层级访问的机制。客户端使用它们的凭据解密TGT,并使用TGT从票证授予服务器(TGS)获取服务票证。Kerberos是一个开源的网络身份验证协议,它假设主机是可信任的(但网络不是)认证服务器授予客户端要求访问Hadoop集群的授权票据(TGT)客户端使用TGS授予的服务票据来访问Hadoop集群。原创 2024-05-15 22:16:11 · 272 阅读 · 0 评论 -
大数据 值班机制
埋点表产出时间较晚,归因:热点事件导致数据上涨,链路上每个节点时长均有所增加。上游截止时间未成功(等待资源获取)剔除重复的底表数据,重跑成功。nua队列被误用,任务被阻塞。出现重复数据,强校验不通过。指标平台实例超时未运行成功。拉oncall切换队列重跑。业务下线,任务置为空跑。原创 2024-05-15 22:12:18 · 371 阅读 · 0 评论 -
Hadoop运维经验
情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive 面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。(a)yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。如果MR造成系统宕机。原创 2024-05-15 22:09:34 · 1029 阅读 · 0 评论 -
hadoop 集群 环境搭建后的测试样例
# 1.使用RandomWriter来产生随机数,每个节点运行10个map任务,每个map产生大约1G大小的二进制随机数。# 集群写性能:向HDFS集群写10个128M的文件。# 集群读性能:读取HDFS集群10个128M的文件。# 使用Sort程序评测MapReduce。## 3. 验证数据是否排好序。## 2. 执行Sort程序。# 执行wordcount。测试spark:计算pi。原创 2024-05-15 22:07:33 · 414 阅读 · 0 评论 -
hadoop 高级话题
如果你的节点CPU核数不够8个,则需要调减小这个值,而YARN不会智能的探测节点的物理CPU总数。表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,则该对应的值改为这个数。单个任务可申请的最小虚拟CPU个数,默认是1,如果一个任务申请的CPU个数少于该数,则该对应的值改为这个数。原创 2024-05-15 22:01:54 · 307 阅读 · 0 评论 -
Hadoop企业优化
Task超时时间,经常需要设置的一个参数,该参数表达的意思为:如果一个Task在一定时间内没有任何进入,即不会读取新的数据,也没有输出数据,则认为该Task处于Block状态,可能是卡住了,也许永远会卡住,为了防止因为用户程序永远Block住不退出,则强制设置了一个该超时时间(单位毫秒),默认是600000。一个ReduceTask可使用的资源上限(单位:MB),默认为1024。每个Reduce Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4。规避使用reduce。原创 2024-05-15 21:49:24 · 811 阅读 · 0 评论