
大数据
文章平均质量分 95
大数据相关技术使用
ha_lydms
不要在同一个坑里摔倒两次。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DataWorks函数
MaxCompute SQL提供了如下数学函数供您在开发过程中使用,您可以根据实际需要选择合适的数学函数,进行数据计算、数据转换相关操作。MaxCompute SQL提供了如下日期函数,您可以根据实际需要选择合适的日期函数,完成日期计算、日期转换。MaxCompute SQL提供了如下窗口函数,使用窗口函数对指定开窗列的数据灵活地进行分析处理工作。MaxCompute SQL支持的复杂类型函数如下。MaxCompute SQL支持的字符串函数如下。MaxCompute SQL支持的其他类型函数如下。原创 2024-08-21 22:39:11 · 2479 阅读 · 24 评论 -
HBase整合Phoenix
1)官网地址:http://phoenix.apache.org/Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。优点:使用简单,直接能写sql。缺点:效率没有自己设计rowKey再使用API高,性能较差。原创 2023-12-03 19:58:19 · 11852 阅读 · 42 评论 -
一篇文章完成Hbase入门
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。原创 2023-11-25 15:32:17 · 12277 阅读 · 22 评论 -
Hive函数
窗口函数不同于我们熟悉的常规函数及聚合函数,它输入多行数据(一个窗口),为每行数据进行一次计算,返回一个值。灵活运用窗口函数可以解决很多复杂的问题,如去重、排名、同比及和环比、连续登录等。**内置函数:**Hive自带的函数。**自定义函数:**当Hive提供的内置函数无法满足你的业务处理需要时。可以自己定义一些函数。: 一进一出。:聚合函数,多进一出,类似:count/max/min:炸裂函数,一进多出,如:explode()Hive不会强制要求将数据转换成特定的格式才能使用。原创 2023-11-18 20:38:09 · 9471 阅读 · 19 评论 -
SparkSQL
一、概述二、Spark SQL编程三、SparkSQL数据加载和保存原创 2023-11-03 19:41:38 · 11367 阅读 · 9 评论 -
Spark-Core
一、RDD 编程二、累加器三、广播变量原创 2023-10-24 16:56:09 · 10614 阅读 · 12 评论 -
Spark简介
部署Spark集群大体上分为两种模式:单机模式与集群模式大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。原创 2023-10-22 16:46:32 · 11739 阅读 · 31 评论 -
Yarn基础入门
那么在YARN中,我们用DRF来决定如何调度:假设集群一共有100 CPU和10T 内存,而应用A需要(2 CPU, 300GB),应用B需要(6 CPU,100GB)。则两个应用分别需要A(2%CPU, 3%内存)和B(6%CPU, 1%内存)的资源,这就意味着A是内存主导的, B是CPU主导的,针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比例的限制。但是很多时候我们资源有很多种,例如内存,CPU,网络带宽等,这样我们很难衡量两个应用应该分配的资源比例。原创 2023-10-13 20:53:34 · 11679 阅读 · 20 评论 -
HDFS最基础使用
Hadoop中核心的数据存储管理,HDFS的内容基础讲解入门。原创 2023-10-03 16:17:27 · 10565 阅读 · 14 评论 -
Scala最基础入门教程
Scala的最基础教程,学完以后,能胜任80%的开发场景,基本控制在2~3个小时阅读时间。原创 2023-09-29 00:00:00 · 16070 阅读 · 5 评论 -
Flume最简单使用
Flume最简单使用教程原创 2023-09-23 22:16:31 · 11753 阅读 · 6 评论 -
zookeeper最基础教程
官方地址:https://zookeeper.apache.org/Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。原创 2023-09-16 17:24:34 · 12272 阅读 · 9 评论 -
Yarn资源调度器
文章目录一、Yarn资源调度器1、架构2、Yarn工作机制3、HDFS、YARN、MR关系4、作业提交之HDFS&MapReduce二、Yarn调度器和调度算法1、先进先出调度器(FIFO)2、容量调度器(Capacity Scheduler)3、公平调度器(Fair Scheduler)3.1 调度器原理3.22 资源分配方式三、修改Yarn集群1、Yarn配置2、多队列提交3、向集群中提交任务一、Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布原创 2023-09-06 18:01:57 · 10588 阅读 · 7 评论 -
Spark-Core核心算子
Spark-Core中1、数据源获取。2、转换算子。3、行动算子原创 2023-09-03 18:55:35 · 10578 阅读 · 32 评论 -
大数据技术栈列表
Flink是一个开源的流式数据处理和批处理框架,旨在处理大规模的实时数据和离线数据。它提供了一个统一的系统,能够高效地处理连续的数据流,并具备容错性和低延迟的特点。Flink的设计目标是在一个系统中同时支持流式数据处理和批处理,以满足不同类型的数据处理需求。它的核心概念是有向无环图(DAG),通过将数据处理作业表示为一系列操作符和数据流的有向图,实现了灵活的数据处理流程。Flink支持各种数据源和数据接收器,包括消息队列(如Apache Kafka)、文件系统(如HDFS)、数据库和套接字等。原创 2023-06-30 23:20:42 · 2534 阅读 · 0 评论 -
Python最基础语法
3.7.3。原创 2023-06-30 00:20:58 · 10382 阅读 · 4 评论 -
Kafka最基础使用
这样可以明显减少系统资源的浪费,例如:之前consumer0、consumer1之前正在消费某几个分区,但由于rebalance发生,导致consumer0、consumer1需要重新消费之前正在处理的分区,导致不必要的系统开销。但是低级API,比较复杂,需要执行控制offset,连接到哪个分区,并找到分区的leader。按key分配策略,有可能会出现「数据倾斜」,例如:某个key包含了大量的数据,因为key值一样,所有所有的数据将都分配到一个分区中,造成该分区的消息数量远大于其他的分区。原创 2023-06-26 10:38:02 · 5503 阅读 · 4 评论 -
原生Jdbc获取库、表、字段
JDBC(Java Database Connectivity)是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口(一组API),定义了用来访问数据库的标准Java类库,()使用这些类库可以以一种标准的方法、方便地访问数据库资源。JDBC为访问不同的数据库提供了一种统一的途径,为开发者屏蔽了一些细节问题。JDBC的目标是使Java程序员使用JDBC可以连接任何提供了JDBC驱动程序。原创 2023-06-21 22:58:26 · 11643 阅读 · 12 评论 -
TiDB安装简介
官网地址TiDB可以理解为是MySQL的加强版/分布式MySQL/MySQLPlusTiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。原创 2023-05-25 23:00:49 · 11620 阅读 · 6 评论