大数据面试真题_M

蚂蚁金服-大数据开发-20250514

项目介绍一下

干的数据开发技术组件和模型以及数据治理说一下

离线数仓怎么确保任务及时性,任务产生了dqc告警怎么解决

干财务工作模型该怎么设计

数据治理该怎么治理,比如模型治理,运行效率,和任务合理性以及跨层很多问题

实时任务一旦延迟该怎么快速解决延迟,如何确保数据不重复,不丢数据,如何知道延迟

flink任务优化可以从哪些方面入手,对于效率问题该怎么操作

kafka分区和写入该怎么设计,怎么能确保下游消费数据不延迟,不丢数据

实时数仓如何做到指标实时,并且数据不会算错,

对于olap引擎知道哪一些,哪个更好,后续推荐用哪一款来批流一体


美的

  1. 自我介绍
  2. flink cdc怎么实现同步增量数据和全量数据,底层区别是什么?我说同步原理是binlog主从复制balabala,他问同步增量数据和全量数据底层有什么不同,
    我说我们用flink cdc只同步了一张配置表,底层原理不太了解
  3. kafka一般比较大的表有10+亿数据我们希望写到不同分区,flink消费的时候怎么实现有序,有什么方法?
  4. kafka如果分区增加,flink怎么在程序不停的情况下增加到同等的分区,底层怎么做?
    flink的kafkasource有动态发现kafka分区的功能,但是flink能在不停止运行的情况下增加新分区的功能不太了解
  5. rockDB底层内存刷写磁盘原理?
  6. 实时项目开发中有遇到什么问题?jar包找不到、反压、数据倾斜讲一遍
  7. 你们flink实时运行的有多少条流?我说10+个job,他问所有job加起来里面有多少条流你做开发应该很清楚,我说30+条
  8. 你们离线最大的表有多大?dwt用户主题,最宽,但是只存今天和昨天数据不大
  9. 你们每天数据量?1亿左右,确定吗?确定!
    其它大保健问题忘了

蚂蚁金服-银行科技中心

  1. 自我介绍
  2. 项目经历讲一下,做过哪些项目。
  3. 项目规模多大,有多少张表。
  4. 项目过程详细讲一下。
  5. hive调优方法
  6. 实际工作中遇到什么印象深刻的问题,怎么解决的?我说的是join的字段数据类型不同导致的数据倾斜
  7. 数仓有多少张表,每层都做什么?
  8. dwt有哪些主题宽表?
  9. 目有什么指标,分析这些指标什么用?
  10. 有一张表,字段是设备ID,故障开始时间,故障结束时间。求设备在工作日内的宕机时长开始时间和结束时间,可能中间隔了好几天(比如开始时间是2021-09-28 12:12:00,结束时间是2021-10-08 12:12:00在工作日内的宕机时长)。
  11. 有一张特别大的表怎么处理,我回答可以用SQL做成分区表,他又问不用分区怎么做?
  12. 你的职业规划是怎样的:两年架构师,三年项目leader

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

走过冬季

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值