蚂蚁金服-大数据开发-20250514
项目介绍一下
干的数据开发技术组件和模型以及数据治理说一下
离线数仓怎么确保任务及时性,任务产生了dqc告警怎么解决
干财务工作模型该怎么设计
数据治理该怎么治理,比如模型治理,运行效率,和任务合理性以及跨层很多问题
实时任务一旦延迟该怎么快速解决延迟,如何确保数据不重复,不丢数据,如何知道延迟
flink任务优化可以从哪些方面入手,对于效率问题该怎么操作
kafka分区和写入该怎么设计,怎么能确保下游消费数据不延迟,不丢数据
实时数仓如何做到指标实时,并且数据不会算错,
对于olap引擎知道哪一些,哪个更好,后续推荐用哪一款来批流一体
美的
- 自我介绍
- flink cdc怎么实现同步增量数据和全量数据,底层区别是什么?我说同步原理是binlog主从复制balabala,他问同步增量数据和全量数据底层有什么不同,
我说我们用flink cdc只同步了一张配置表,底层原理不太了解 - kafka一般比较大的表有10+亿数据我们希望写到不同分区,flink消费的时候怎么实现有序,有什么方法?
- kafka如果分区增加,flink怎么在程序不停的情况下增加到同等的分区,底层怎么做?
flink的kafkasource有动态发现kafka分区的功能,但是flink能在不停止运行的情况下增加新分区的功能不太了解 - rockDB底层内存刷写磁盘原理?
- 实时项目开发中有遇到什么问题?jar包找不到、反压、数据倾斜讲一遍
- 你们flink实时运行的有多少条流?我说10+个job,他问所有job加起来里面有多少条流你做开发应该很清楚,我说30+条
- 你们离线最大的表有多大?dwt用户主题,最宽,但是只存今天和昨天数据不大
- 你们每天数据量?1亿左右,确定吗?确定!
其它大保健问题忘了
蚂蚁金服-银行科技中心
- 自我介绍
- 项目经历讲一下,做过哪些项目。
- 项目规模多大,有多少张表。
- 项目过程详细讲一下。
- hive调优方法
- 实际工作中遇到什么印象深刻的问题,怎么解决的?我说的是join的字段数据类型不同导致的数据倾斜
- 数仓有多少张表,每层都做什么?
- dwt有哪些主题宽表?
- 目有什么指标,分析这些指标什么用?
- 有一张表,字段是设备ID,故障开始时间,故障结束时间。求设备在工作日内的宕机时长开始时间和结束时间,可能中间隔了好几天(比如开始时间是2021-09-28 12:12:00,结束时间是2021-10-08 12:12:00在工作日内的宕机时长)。
- 有一张特别大的表怎么处理,我回答可以用SQL做成分区表,他又问不用分区怎么做?
- 你的职业规划是怎样的:两年架构师,三年项目leader