
大数据
文章平均质量分 86
大数据
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用flinksql读取parquent文件
使用flinksql读取parquent文件一、导入maven依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-parquet_2.12</artifactId> <version>1.11</version> </dependency>二、创建flink动态表关联文件p原创 2021-06-08 20:47:06 · 1782 阅读 · 2 评论 -
大数据基础面试题七:Flink
大数据基础面试题七:Flink目录大数据基础面试题七:Flink十四、Flink14.1 简单介绍一下 Flink14.2 Flink跟Spark Streaming的区别14.3 Flink集群有哪些角色?各自有什么作用?14.4 公司怎么提交的实时任务,有多少Job Manager?14.5 Flink的并行度了解吗?Flink的并行度设置是怎样的?14.6 Flink的Checkpoint 存在哪里14.7 Flink的三种时间语义14.8 说说Flink中的窗口14.9 Exactly-Once原创 2021-03-07 23:25:15 · 495 阅读 · 1 评论 -
大数据基础面试题六: 数据倾斜
大数据基础面试题六: 数据倾斜这里写目录标题大数据基础面试题六: 数据倾斜十三、数据倾斜13.1 数据倾斜表现13.2 数据倾斜产生原因13.3 解决数据倾斜思路13.4 定位导致数据倾斜代码13.4.1 某个task执行特别慢的情况13.4.2 某个task莫名其妙内存溢出的情况13.5 查看导致数据倾斜的key分布情况13.6 Spark 数据倾斜的解决方案13.6.1 使用Hive ETL预处理数据13.6.2 过滤少数导致倾斜的key13.6.3 提高shuffle操作的并行度13.6.4 两阶段原创 2021-03-07 23:00:23 · 633 阅读 · 0 评论 -
大数据基础面试题五:Spark Core & SQL & Streaming
大数据基础面试题五:Spark Core & SQL & Streaming目录大数据基础面试题五:Spark Core & SQL & Streaming十一、 Spark Core & SQL11.1 Spark解决什么问题11.2 Spark为什么会有自己的资源调度器11.3 Spark运行模式11.4 Spark常用端口号11.5 简述Spark的架构与作业提交流程(画图讲解,注明各个部分的作用)(重点)11.6 Spark任务使用什么进行提交,JavaEE原创 2021-03-06 00:01:42 · 1605 阅读 · 0 评论 -
大数据基础面试题四:Sqoop& Azkaban& HBase & Phoenix & Scala
大数据基础面试题三:Sqoop& Azkaban& HBase & phoenix目录大数据基础面试题三:Sqoop& Azkaban& HBase & phoenix七、Sqoop7.1 Sqoop参数7.2 Sqoop导入导出Null存储一致性问题7.3 Sqoop数据导出一致性问题7.4 Sqoop底层运行的任务是什么7.5 Sqoop一天导入多少数据7.6 Sqoop数据导出的时候一次执行多长时间7.7 Sqoop在导入数据的时候数据倾斜7.8 Sq原创 2021-03-05 22:21:18 · 545 阅读 · 0 评论 -
大数据基础面试题三:Hive
大数据基础面试题三:Hive目录大数据基础面试题三:Hive六、Hive6.1 Hive的架构6.2 Hive和数据库比较6.3 内部表和外部表6.4 4个By区别6.5 系统函数6.6 自定义UDF、UDTF函数6.7 窗口函数6.8 Hive优化6.9 Hive解决数据倾斜方法6.10 Hive里边字段的分隔符用的什么?为什么用\t?有遇到过字段里边有\t的情况吗,怎么处理的?6.11 Tez引擎优点?6.12 MySQL元数据备份6.13 Union与Union all区别六、Hive6.1 H原创 2021-03-04 23:54:30 · 356 阅读 · 1 评论 -
大数据基础面试题二:Zookeeper&Flume&Kafka
大数据基础面试题二:Zookeeper&Flume&Kafka目录大数据基础面试题二:Zookeeper&Flume&Kafka三、Zookeeper3.1 选举机制3.2 常用命令3.3 Paxos算法(扩展)3.4 讲一讲什么是CAP法则?Zookeeper符合了这个法则的哪两个?(扩展)四、Flume4.1 Flume组成,Put事务,Take事务4.2 Flume拦截器4.3 Flume Channel选择器4.4 Flume监控器4.5 Flume采集数据会丢失吗原创 2021-03-04 23:28:10 · 904 阅读 · 1 评论 -
大数据基础面试题一:Linux&Shell&Hadoop
大数据基础面试题一:Linux&Shell&Hadoop目录大数据基础面试题一:Linux&Shell&Hadoop一、Linux&Shell1.1 Linux常用高级命令1.2 Shell常用工具及写过的脚本1.3 Shell中提交了一个脚本,进程号已经不知道了,但是需要kill掉这个进程,怎么操作?1.4 Shell中单引号和双引号区别二、Hadoop2.1 Hadoop常用端口号2.2 Hadoop配置文件以及简单的Hadoop集群搭建2.3 HDFS读流程原创 2021-03-04 20:07:14 · 776 阅读 · 4 评论