
学习记录
文章平均质量分 81
以尚大数仓为参照,对大数据架构进行分步完成
一马什么梅一
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
zabbix安装使用
Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。原创 2022-12-28 16:57:47 · 1078 阅读 · 2 评论 -
Superset安装与使用
Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。原创 2022-12-24 22:10:23 · 979 阅读 · 0 评论 -
Azkaban的使用安装
1)将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.tar.gz上传到hadoop102的/opt/software路径。3)解压azkaban-db-3.84.4.tar.gz、 azkaban-exec-server-3.84.4.tar.gz和azkaban-web-server-3.84.4.tar.gz到/opt/module/azkaban目录下。原创 2022-12-24 21:44:08 · 950 阅读 · 0 评论 -
数仓搭建-DWD层
(1)页面埋点日志(2)启动日志1)数据2)取出第一个json对象结果是:{“name”:“大郎”,“sex”:“男”,“age”:“25”}3)取出第一个json的age字段的值6.1.3 启动日志表启动日志解析思路:启动日志表中每行数据对应一个启动记录,一个启动记录应该包含日志中的公共信息和启动信息。先将所有包含start字段的日志过滤出来,然后使用get_json_object函数解析每个字段。2)数据导入判断启动日志的依据,json串中有start字段3)查看数据hive原创 2022-12-01 11:29:47 · 594 阅读 · 0 评论 -
数仓搭建-DIM层
2.分区规划(1)两种方式,分别查询数据有多少行(2)两次查询结果不一致。原因是select * from ods_log不执行MR操作,直接采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat,能够识别lzo.index为索引文件。select count(*) from ods_log执行MR操作,会先经过hive.input.format,其默认值为CombineHiveInputFormat,其会先将索引文件当成小文件合并,将其当做普通文件处理。更严重的原创 2022-11-27 19:16:48 · 247 阅读 · 0 评论 -
数仓搭建-ODS层
(1)在/home/atguigu/bin目录下创建脚本hdfs_to_ods_db_init.sh。注意:[ -n 变量值 ]不会解析数据,使用[ -n 变量值 ]时,需要对变量加上双引号(" ")在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。(1)在/home/atguigu/bin目录下创建脚本hdfs_to_ods_db.sh。首日脚本与每日脚本最大的区别就是地区省份表只需要首日加载,每日脚本无需加载。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。原创 2022-11-27 11:43:44 · 1236 阅读 · 0 评论 -
Hive安装部署
(1)把apache-hive-3.1.2-bin.tar.gz上传到Linux的/opt/software目录下。(2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。(3)修改apache-hive-3.1.2-bin.tar.gz的名称为hive。(5)解决日志Jar包冲突,进入/opt/module/hive/lib目录。(4)修改/etc/profile.d/my_env.sh,添加环境变量。(2)新建Hive元数据库。(1)启动Hive客户端。原创 2022-11-25 14:31:00 · 150 阅读 · 0 评论 -
MySQL安装
注意:如果报如下错误,这是由于yum安装了旧版本的GPG keys所造成,从rpm版本4.1后,在安装或升级软件包时会自动检查软件包的签名。说明:由于阿里云服务器安装的是Linux最小系统版,没有如下工具,所以需要安装。(1)卸载自带的Mysql-libs(如果之前安装过MySQL,要全都卸载掉)(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步不可少。1)用刚刚查到的密码进入MySQL(如果报错,给密码加单引号)2)设置复杂密码(由于MySQL密码策略,此密码必须足够复杂)原创 2022-11-25 14:08:38 · 210 阅读 · 0 评论 -
NameNode页面不能显示完整信息解决
在http://hadoop104:9868/status.html 页面强制刷新。访问2NN页面http://hadoop104:9868,看不到详细信息。将61行数据替换为以下。原创 2022-11-24 16:56:00 · 1112 阅读 · 1 评论 -
Kafka集群安装压测
同时设置batch.size和 linger.ms,就是哪个条件先满足就都会将消息发送出去Kafka需要考虑高吞吐量与延时的平衡。吞吐量受网络带宽和fetch-size的影响。原创 2022-11-24 16:43:08 · 254 阅读 · 0 评论 -
Zookeeper安装配置
集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。(1)重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg。(2)在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件。(3)拷贝配置好的zookeeper到其他机器上。原创 2022-11-24 16:19:45 · 146 阅读 · 0 评论 -
多目录及数据均衡配置
HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。注意:于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。(1)生成均衡计划(我们只有一块磁盘,不会生成计划)(3)查看当前均衡任务的执行情况。原创 2022-11-24 16:05:57 · 181 阅读 · 0 评论 -
LZO压缩配置
hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。解决办法:在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加。将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/(1)将bigtable.lzo(200M)上传到集群的根目录。原创 2022-11-24 16:05:03 · 529 阅读 · 0 评论 -
hdfs读写性能测试
由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。注意:nrFiles n为生成mapTask的数量,生产环境一般可通过hadoop103:8088查看CPU核数,设置为(CPU核数 - 1)(1)使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数。10M/s单位是byte;(2)测试内容:向HDFS集群写10个128M的文件。(1)测试内容:读取HDFS集群10个128M的文件。原创 2022-11-24 16:04:05 · 1390 阅读 · 0 评论 -
Hadoop集群基础配置
(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)(3)在配置了ResourceManager的节点(hadoop103)启动YARN。(4)Web端查看HDFS的Web页面:http://hadoop102:9870/(2)打开/etc/profile.d/my_env.sh文件。(5)source一下,使之生效(3台节点)1)配置yarn-site.xml。原创 2022-11-24 15:28:29 · 493 阅读 · 0 评论 -
JDK免密准备
因此不管是login shell还是non-login shell,启动时都会加载/etc/profile.d/*.sh中的环境变量。这两种shell的主要区别在于,它们启动时会加载不同的配置文件,login shell启动时会加载/etc/profile,Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,/.bashrc中加载的/etc/bashrc)或/etc/profile时,都会执行如下代码片段,原创 2022-11-24 15:08:06 · 294 阅读 · 0 评论 -
阿里云服务器的购买
阿里云服务器使用说明。原创 2022-11-23 20:10:39 · 152 阅读 · 0 评论 -
项目需求及架构设计
可以以图形的方式显示任务间的依赖关系,如果某一job的运行过程出现异常,可以通过血缘关系图查看受影响的job,从而挑选出优先级最高的job顺序解决。任务量多有成百上千的任务,atlas的意义便会很大、图形化界面通过肉眼查看血缘关系图找到受影响的job,从而挑选出优先级最高的job顺序解决。Ranger(主流): 通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段。通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段。原创 2022-11-23 19:49:29 · 1552 阅读 · 0 评论 -
flume的安装配置笔记
flume安装与配置原创 2022-11-10 17:17:21 · 1105 阅读 · 0 评论 -
Xshell连接不上虚拟机
注:Xshell连接不上虚拟机还会出现一种情形虚拟机可以ping通主机,主机也可以ping通虚拟机,但是就是连接不上,此时我们可以打开C:\Windows\System32\drivers\etc,打开host这个文件,查看之前写的映射关系是否是打开状态。2.打开本机的虚拟机->打开虚拟机的终端,尝试ping一下百度,看是否可以ping通。8.启动完成后,重新回到虚拟机的终端中,在此尝试ping百度,此时就可以ping通。1.启动本机虚拟机,尝试Xshell连接虚拟机会出现如下界面,显示连接不上虚拟机。转载 2022-11-21 08:51:08 · 3153 阅读 · 2 评论 -
Hive on spark环境搭建
Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。原创 2022-11-19 20:07:05 · 1867 阅读 · 2 评论 -
sqoop安装与使用
3)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中。2)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2)进入到/opt/software/路径,拷贝jdbc驱动到sqoop的lib目录下。1)进入到/opt/module/sqoop/conf目录,重命名配置文件。(1)在/home/atguigu/bin目录下创建。(2)增加脚本执行权限。原创 2022-02-24 09:55:00 · 2102 阅读 · 0 评论 -
数仓系统的创建
数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。原创 2022-11-19 18:23:53 · 129 阅读 · 0 评论