大数据面试真题

蚂蚁金服-大数据开发-20250514

项目介绍一下

干的数据开发技术组件和模型以及数据治理说一下

离线数仓怎么确保任务及时性，任务产生了dqc告警怎么解决

干财务工作模型该怎么设计

数据治理该怎么治理，比如模型治理，运行效率，和任务合理性以及跨层很多问题

实时任务一旦延迟该怎么快速解决延迟，如何确保数据不重复，不丢数据，如何知道延迟

flink任务优化可以从哪些方面入手，对于效率问题该怎么操作

kafka分区和写入该怎么设计，怎么能确保下游消费数据不延迟，不丢数据

实时数仓如何做到指标实时，并且数据不会算错，

对于olap引擎知道哪一些，哪个更好，后续推荐用哪一款来批流一体

自我介绍
flink cdc怎么实现同步增量数据和全量数据，底层区别是什么？我说同步原理是binlog主从复制balabala，他问同步增量数据和全量数据底层有什么不同，
我说我们用flink cdc只同步了一张配置表，底层原理不太了解
kafka一般比较大的表有10+亿数据我们希望写到不同分区，flink消费的时候怎么实现有序，有什么方法？
kafka如果分区增加，flink怎么在程序不停的情况下增加到同等的分区，底层怎么做？
flink的kafkasource有动态发现kafka分区的功能，但是flink能在不停止运行的情况下增加新分区的功能不太了解
rockDB底层内存刷写磁盘原理?
实时项目开发中有遇到什么问题？jar包找不到、反压、数据倾斜讲一遍
你们flink实时运行的有多少条流？我说10+个job，他问所有job加起来里面有多少条流你做开发应该很清楚，我说30+条
你们离线最大的表有多大？dwt用户主题，最宽，但是只存今天和昨天数据不大
你们每天数据量？1亿左右，确定吗？确定！
其它大保健问题忘了

自我介绍
项目经历讲一下，做过哪些项目。
项目规模多大，有多少张表。
项目过程详细讲一下。
hive调优方法
实际工作中遇到什么印象深刻的问题，怎么解决的？我说的是join的字段数据类型不同导致的数据倾斜
数仓有多少张表，每层都做什么？
dwt有哪些主题宽表?
目有什么指标，分析这些指标什么用?
有一张表，字段是设备ID，故障开始时间，故障结束时间。求设备在工作日内的宕机时长开始时间和结束时间，可能中间隔了好几天（比如开始时间是2021-09-28 12:12:00，结束时间是2021-10-08 12:12:00在工作日内的宕机时长）。
有一张特别大的表怎么处理，我回答可以用SQL做成分区表，他又问不用分区怎么做?
你的职业规划是怎样的：两年架构师，三年项目leader