字节跳动2月中旬算法实习生面试题分享

最新推荐文章于 2022-06-23 22:37:45 发布

julyedu_7

最新推荐文章于 2022-06-23 22:37:45 发布

阅读量609

点赞数

CC 4.0 BY-SA版权

分类专栏：最新名企AI面试题文章标签：算法深度学习 transformer 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/julyedu_7/article/details/123205549

本文分享了字节跳动算法实习生面试中的问题，涉及LSTM的基本原理，如输入门、遗忘门和输出门，以及与GRU的区别。Transformer的解释包括其多头自注意力机制和残差连接的重要性，阐述了多头注意力如何增强模型的性能，并提及Transformer在CV中类似ResNet的残差思想。同时，提到了进大厂刷题的重要性，并提供了相关面试题目的学习资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题1：LSTM原理

LSTM是循环神经网络RNN的变种，包含三个门，分别是输入门，遗忘门和输出门。

LSTM 与 GRU区别

（1）LSTM和GRU的性能在很多任务上不分伯仲；

（2）GRU参数更少，因此更容易收敛，但是在大数据集的情况下，LSTM性能表现更好；

（3）GRU 只有两个门（update和reset），LSTM 有三个门（forget，input，output），GRU 直接将hidden state 传给下一个单元，而 LSTM 用memory cell 把hidden state 包装起来。

问题2：Transformer的原理

Transformer本身是一个典型的encoder-decoder模型，Encoder端和Decoder端均有6个Block，Encoder端的Block包括两个模块，多头self-attention模块以及一个前馈神经网络模块；Decoder端的Block包括三个模块，多头self-attention模块，多头Encoder-Decoder attention交互模块，以及一个前馈神经网络模块；需要注意：Encoder端和Decoder端中的每个模块都有残差层和Layer Normalization层。

问题3：Transformer的计算公式，K，Q，V怎么算

Q、K、V分别是输入X线性变换得到的。

问题4：Transformer为什么要用多头

多次attention综合的结果至少能够起到增强模型的作用，也可以类比CNN中同时使用多个卷积核的作用，直观上讲，多头的注意力有助于网络捕捉到更丰富的特征/信息。

问题5：Transformer里的残差

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。