
大数据
文章平均质量分 75
世昌愿世昌盛
脱离业务讲代码全是耍流氓
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一篇文章带你搞懂mysql的全局索引和doris的倒排索引
倒排索引主要用于全文搜索,而MySQL的**全文索引(Full-Text Index)**在某种程度上可以实现类似倒排索引的功能。虽然MySQL没有直接的“倒排索引”概念,但它的全文索引在功能上非常接近倒排索引。全文索引的限制:MySQL的全文索引有一些限制,比如默认会忽略一些短词(如“的”、“和”等),并且对分词方式有默认规则(对于英文是按空格分词,中文可能需要额外配置分词器)。MySQL的全文索引会利用倒排索引的原理,快速定位到包含关键词的记录,而不需要扫描整个表。这里的+表示“必须包含”的意思。原创 2025-01-21 14:02:05 · 628 阅读 · 0 评论 -
15分钟让你从0-1搭建hbase2.5.10--基于hadoop3。(保姆级教程,复制粘贴即用)
从0-1搭建hbase-基于hadoop2.5.10原创 2025-01-07 11:43:42 · 484 阅读 · 0 评论 -
从0搭建DataSphereStudio保姆级教程--复制粘贴即用(hadoop2.7.2、hive2.3.3、spark2.4.5)
登陆时默认管理员的用户名和密码均为部署用户为hadoop(用户若想修改密码,可以通过修改 xx/dss_linkis/linkis/conf/linkis-mg-gateway.properties 文件中的 wds.linkis.admin.password 参数)(2)全部启动 sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh、sbin/mr-jobhistory-daemon.sh start historyserver。原创 2025-01-06 14:13:14 · 1551 阅读 · 0 评论 -
Docker安装Oracle_11g
docker创建oracleoracle在docker中的基本使用Navicat 连接oracle注意事项原创 2022-06-22 15:52:49 · 6102 阅读 · 4 评论 -
Oozie常用命令
启动命令:bin/oozied.sh start关闭命令:bin/oozied.sh stop页面访问:http://node01:11000/oozie/查看信息:bin/oozie job -oozie http://node01:11000/oozie -info 0000029-191027171933033-oozie-root-C查看日志:bin/oozie job -oozie http://node01:11000/oozie -log 0000064-1909232258原创 2022-04-14 17:49:43 · 2231 阅读 · 2 评论 -
hive调优
1 Fetch抓取(Hive可以避免进行MapReduce)Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不原创 2022-03-09 09:54:19 · 245 阅读 · 0 评论 -
linux系统中 crontab任务调度
原理:基本语法:crontab [选项]常用选项:选项 : 含义-e : 编辑crontab定时任务 -l : 显示crontab任务-r : 删除当前用户所有的crontab任务7.8.3 案例: 每隔1分钟将时间打印到 /export/文件中方案一: 直接式第一步: date >> /export/mydate1.txt 测试命令第二步: 通过 crontab -e 进入 定时任务第三步: 编辑原创 2022-03-04 11:48:42 · 225 阅读 · 0 评论 -
distinct数据倾斜
DISTINCT on different columns not supported with skew in data数据中的倾斜不支持不同列上的DISTINCT解决办法: -- 解决group倾斜set hive.groupby.skewindata=false;原创 2021-01-12 15:54:07 · 505 阅读 · 0 评论 -
数据倾斜优化
数据倾斜优化数据倾斜:在分布式程序分配任务的时候,任务分配的不平均。数据倾斜,在企业开发中是经常遇到的,以及是非常影响性能的一种场景。数据倾斜一旦发生,横向拓展只能缓解这个情况,而不能解决这个情况。如果遇到数据倾斜,一定要从根本上去解决这个问题。而不是想着加机器来解决。JOIN的时候的倾斜方案一用前面讲过的map join SMB join 这些优化去解决。效果不太好,本身这些提高执行性能的方案,顺带着将倾斜的性能也提升一点,本质上不是解决倾斜的方案。方案二Sekw Join原创 2021-01-12 14:36:45 · 502 阅读 · 0 评论 -
拉链表
业务数据到ODS的拉链表解决方案拉链表:本质就是保存对历史数据的维护记录,通过数据有效窗口的开闭,来确定哪个版本的数据是最新数据。本质上拉链表就是:SCD2的模式按列的解决方案(按列来维护历史记录)前提:不可以用UPDATE语句解决步骤(重要)创建UPDATE表和TMP表查询业务数据库的数据,获取昨日的增量和更新,判断条件是:create_time 为昨日 (满足表示是昨日新增的数据)update_time 为昨日 (满足表示是昨日更新的数据)将第二步抽取到的数原创 2021-01-04 17:55:33 · 350 阅读 · 0 评论 -
大数据项目--知行教育(5)
看板1:访问咨询主题-增量采集注意点:业务系统中,数据表的后缀是年_月,这就表明随着时间推移,被采集的表的后缀是动态变化的。我们的脚本也要做到这一点这个功能要做成自动化的脚本,脚本能够每天定时执行增量采集,一天执行一次当天采集昨日数据数据模拟器在Linux系统中要求运行好数据模拟器,方便以后验证自己的增量脚本工作是否正常模拟器地址:[email protected]:javacaoyu/edu-data-gen.git在Linux安装Python3yum install zli原创 2020-12-29 15:12:05 · 1119 阅读 · 0 评论 -
大数据项目--知行教育(4)
执行代码(全量)– 这个文件主要用来保存关于数仓中各个层级的库和表的创建语句– 业务数据库 -> ODS -> DWD -> DWS -> MySQL– 1.2 修改一下HIVE的元数据,确保注释不会乱码– 修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_V原创 2020-12-29 15:10:20 · 1376 阅读 · 0 评论 -
大数据项目--知行教育(3)
数仓建模分析数据要从业务数据库采集到数仓中(ODS)ODS分析表数量:2个表(业务2个表,ODS原始存储,ODS也是2个表)表类型:外部表,分区表(采集数据的日期)数据存储类型:TEXTFILE(行存储格式)SequenceFile(行存储格式)ORC(选择这个)(列存储格式)Parquet(列存储格式)表压缩选择:SnappyLzoGZIPBZIPLZ4Zlib(选择)(ODS冷数据)Snappy、Lzo、Zlib区别Zlib特点:压缩率贼高,性能不好Snap原创 2020-12-29 14:57:16 · 1060 阅读 · 1 评论 -
git使用方法
1.Git历史 同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。Linux 内核开源项目有着为数众广的参与者。绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。到 2002 年,整个项目组开始启用分布式版本控制系统 BitKeeper 来管理和维护代码。 到 2005 年的时候,开发 BitKeeper 的商业公司同 Linux 内核开源社区的合作关系结束,他们收回了免费使用 BitKeeper 的权力。这就迫使 Linux.原创 2020-12-29 14:54:42 · 339 阅读 · 0 评论 -
大数据项目--知行教育(2)
数仓分层设计迭代计算的概念表1订单id时间用户价格1232020-12-22 11:38:161113212020-12-22 11:38:08211表2订单id时间季度是否节假日用户价格1232020-12-22 11:38:16q4n1113212020-12-27 11:38:08q4y211表3类型销售额节假日11111非节假日999上面3个表可以原创 2020-12-29 14:50:20 · 913 阅读 · 4 评论 -
大数据之数仓建模
两种常见的数仓设计三范式建模尽量减少数据冗余,以关联的形式去关联数据优点:空间占用小,数据冗余少缺点:查询要用很多的JOIN维度建模不在意数据冗余,尽量为了维度而服务优点:查询的时候不需要多数的JOIN缺点:数据占用空间大对于现代的企业来说,空间换性能,是划算的。因为硬盘便宜(相对)。维度建模的概念维度建模是围绕着事实表和维度表两个核心点来进行的事实表事实:就是事件的意思。表示的是系统中一个真实产生的事件信息。举例:JD用户下单,就是一个事件会产生一个下单的原创 2020-12-22 15:09:00 · 541 阅读 · 0 评论 -
数仓分层的概念
数仓分层的概念由于我们做数据分析,大体上在数仓中都是迭代的计算,这种计算就会分层次来进行。这种迭代,通用可以分为3个层级:ODSDWADSODS层Original data service原始数据层记录的是输入数据仓库数据的原始的样子或者经过少量的修改的样子基本上是和来源的地方一致作用:一种数据备份,数据溯源(迭代计算的起点)DW层Data Warehouse数据仓库层在这个层级内就开始进行数据的迭代计算了,在这里会经过一步步的迭代最终得到我们想要的中间数据DW层的内原创 2020-12-22 15:07:06 · 667 阅读 · 0 评论 -
数据仓库理论
学习目标理解OLTP(在线业务处理)和OLAP(在线数据分析)的区别理解数据仓库的特点理解数据仓库系统架构理解指标与维度理解下钻与上卷理解事实表与维度表理解星型模型和雪花模型理解缓慢渐变维掌握数据仓库的分层方法数据仓库介绍数据分析的问题做分析的时候,很多业务数据都会分散的存储到很多业务后台中。数据孤岛数据量巨大,需要一种能够存储海量数据,同时也能分析海量数据的工具工具还需要能够支持常用的SQL解决问题做数据的集中存储分布式存储+分布式计算满足条件的组件Hiv原创 2020-12-21 21:22:11 · 215 阅读 · 0 评论 -
大数据项目——知行教育(1)
项目需求的技术HadoopHiveHueSqoopOozie项目简介项目名:知行教育大数据分析平台(数仓开发项目)目的:对海量的业务数据进行指标分析。结果:对分析的结果做可视化的展示项目痛点数据量比较大,传统的业务数据库比如MySQL难以支撑,我们需要:分布式的支持SQL的一种数据库(Hive)数据分散,需要将数据集中存储数据设计是针对业务设计的,分析比较困难,我们需要将它转换为分析比较好用的格式项目的数据流转在线教育的业务名词解释意向用户:对公司业务抱有兴趣的原创 2020-12-21 21:09:02 · 1938 阅读 · 1 评论 -
大数据辅助组件
Azkaban 介绍Azkaban 是由 linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。Flume 介绍Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(s原创 2020-12-14 08:14:44 · 232 阅读 · 0 评论 -
hive优化:cluster by = distribute by + sort by
sort by不是全局排序是输入做全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个reducer的输出有序,不保证全局有序。distribute by(字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列。Cluster by(字段) 除了具有Distribute by的功能外,还会对该字段进行排序。因此,如果分桶和sort字段是同一个时,此时,c原创 2020-11-20 09:41:21 · 331 阅读 · 0 评论 -
HIVE的安装部署
我们在此处选择第三台机器作为我们hive的安装机器1.6.1 安装derby版hive直接使用:1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/1、 直接启动 bin/hivecd …/servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点:多个地方安装hive后,每一个hive原创 2020-11-12 11:07:31 · 174 阅读 · 0 评论 -
ZooKeeper特性
全局数据一致:集群中每个服务器保存一份相同的数据副本,client无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征;可靠性:如果消息被其中一台服务器接受,那么将被所有的服务器接受。顺序性:全局有序是指如果在一台服务器上消息a在消息b前发布,则在所有Server上消息a都将在消息b前被发布。数据更新原子性:一次数据更新要么成功(半数以上节点成功),要么失败,不存在中间状态;实时性:Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息,或者服务器失效的信息。...原创 2020-10-19 17:03:31 · 1037 阅读 · 0 评论 -
Hadoop的模块组成
Hadoop的模块组成1、HDFS:一个高可靠、高吞吐量的分布式文件系统。2、MapReduce:一个分布式的离线并行计算框架。3、YARN:作业调度与集群资源管理的框架。4、Common:支持其他模块的工具模块。...原创 2020-10-05 16:00:30 · 2820 阅读 · 0 评论 -
大数据的特点
数据集主要特点Volume(大量): 数据量巨大,从TB到PB级别。Velocity(高速): 数据量在持续增加(两位数的年增长率)。Variety(多样): 数据类型复杂,超过80%的数据是非结构化的。Value(低密度高价值): 低成本创造高价值。其他特征数据来自大量源,需要做相关性分析。需要实时或者准实时的流式采集,有些应用90%写vs.10%读。数据需要长时间存储,非热点数据也会被随机访问。...原创 2020-10-05 15:12:36 · 14913 阅读 · 1 评论 -
传统数据与大数据的对比
传统数据与大数据的对比原创 2020-10-05 15:09:15 · 1968 阅读 · 0 评论 -
什么是大数据?
什么是大数据?1,是指 无法 在一定时间范围内用 常规软件工具 进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2, 是指一种 规模大 到在获取、存储、管理、分析方面大大 超出了传统数据库软件工具能力范围 的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...原创 2020-10-05 15:05:23 · 13661 阅读 · 3 评论 -
大数据初长成
大数据能做些什么大数据就业岗位大数据技术数据处理流程原创 2020-10-04 20:39:34 · 2681 阅读 · 0 评论