
AI算法工程师面试指北
文章平均质量分 92
面向校招和社招,介绍AI算法工程师技术要领,面试要点等。
智能守恒_HengAI
AI技术公司CTO,帝国理工博士,北航讲席教授。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【AI算法工程师面试指北】Transformer与CNN有什么异同点?
Transformer 和 CNN(卷积神经网络)是深度学习中两种重要的架构,分别在自然语言处理(NLP)和计算机视觉(CV)领域取得了突破性成果。它们既有相似之处,也有显著差异。(如多层卷积层、多层Transformer层),通过加深网络提升复杂特征的表达能力。,通过多层非线性变换捕捉数据中的层次化特征(如低层的边缘、纹理,高层的语义概念)。均依赖大规模数据训练,通过反向传播优化参数,适用于处理高维数据(如图像、文本)。原创 2025-05-30 23:13:34 · 807 阅读 · 0 评论 -
【AI算法工程师面试指北】大模型微调中的灾难性遗忘该如何避免?
在大模型微调(Fine-tuning)过程中,**灾难性遗忘(Catastrophic Forgetting)**是一个关键挑战,尤其当模型需要在保留预训练阶段所学通用知识的同时,适应新任务或领域时。对于数十亿到数千亿参数的大模型,这种更新方式风险极高——即使是微小的参数变化,也可能通过深层网络的传播效应,对全局知识产生连锁破坏。微调时,若对参数进行大范围更新,可能会“覆盖”或“破坏”旧知识的存储,导致模型“遗忘”原始能力。当模型在微调(学习新任务)时,过度修改了预训练阶段学到的核心知识,导致其在。原创 2025-05-28 15:10:21 · 735 阅读 · 0 评论 -
【AI算法工程师面试指北】小球检测问题
使用简单的CNN模型直接预测圆形的位置和半径。该方法需要大量标注数据进行训练才能达到良好效果,示例中使用的是随机初始化的模型,实际应用中应使用预训练模型。它基于圆的参数方程,在参数空间中寻找峰值点来确定圆的位置和半径。小球检测(或圆形物体检测)在多个领域有实际应用,具体场景和技术需求因领域而异。根据具体场景的需求(精度、速度、成本),可以灵活组合传统方法和深度学习,实现高效的小球检测方案。设计算法检测出圆球,给出图中的坐标。使用时,你可以根据具体场景选择合适的检测方法,并调整相应参数以获得最佳效果。原创 2025-05-28 15:01:36 · 1282 阅读 · 0 评论 -
【AI算法工程师面试指北】ResNet为什么用avgpool结构?
ResNet末尾的平均池化结构是轻量化、泛化性、训练稳定性的综合考量:它通过聚合全局特征减少参数,增强对平移的鲁棒性,并借助经典设计经验(如NIN)提升深层网络的训练效率。这一设计不仅成为ResNet的标志性特征,也被后续主流网络(如EfficientNet等)广泛借鉴,成为现代CNN的标准组件之一。原创 2025-05-17 21:32:31 · 1208 阅读 · 0 评论 -
【图像处理基石】什么是HDR图片?
HDR(高动态范围图像,High Dynamic Range)是一种通过技术手段扩展照片明暗细节的成像方式。核心原理动态范围:指图像中最亮和最暗区域之间的亮度差。人眼能感知的动态范围远高于普通相机,HDR通过合成多张不同曝光的照片(如欠曝、正常、过曝),平衡高光和阴影细节。HDR的优势保留细节:避免强光下过曝(如天空发白)或阴影中欠曝(如暗部死黑)。增强真实感:还原人眼所见的丰富层次,尤其适合高对比度场景(如日出、室内外混合光线)。色彩优化:提升色彩饱和度和渐变过渡的自然性。常见应用场景。原创 2025-03-19 22:20:48 · 2801 阅读 · 0 评论 -
【强化学习基石】Deepseek V3技术报告中的GRPO算法是什么?
它主要是在策略梯度方法的基础上进行改进,目的是更有效地优化策略网络,从而提高智能体在环境中的表现。GridWorld 是一个经典的强化学习环境,智能体需要在一个网格世界中找到目标位置。GRPO 的核心思想是通过相对优势来更新策略,它考虑了当前策略和参考策略之间的相对性能,而不是仅仅基于绝对优势。这样做的好处是可以减少策略更新时的方差,使得学习过程更加稳定。不断重复上述交互、计算相对优势和策略更新的过程,直到策略收敛或达到预设的训练步数。你可以运行这个代码,观察智能体在GridWorld环境中的学习过程。原创 2025-03-18 22:08:47 · 348 阅读 · 0 评论 -
【扩散模型入门】Latent Diffusion
扩散模型为公众所知的一个主要原因是Stable Diffusion(SD)的推出展现出了远超以往的图像合成效果,而SD的主要技术就是Latent Diffusion Model(LDM)。为了确保生成质量,LDM尽可能提升去噪模型的规模。提升模型规模往往也会同步导致计算开销的增加,进而导致生成的效率大幅降低。为了克服该负面影响,LDM训练一个自编码器,将图像进行压缩表征,然后在压缩了数据维度的特征空间中进行扩散模型的训练。原创 2025-03-17 21:50:49 · 636 阅读 · 0 评论 -
【DeepSeek应用】本地部署deepseek模型后,如何在vscode中调用该模型进行代码撰写,检视和优化?
通过以上步骤,可实现与本地 DeepSeek 模型的无缝集成,同时完全掌控数据隐私和模型行为。若已成功在本地部署了 DeepSeek 模型(例如通过。原创 2025-03-16 15:58:56 · 705 阅读 · 0 评论 -
LLM推理和优化(2):节省KV Cache
另外MLA的最终版本,还将Q的输入也改为了低秩投影形式,这与减少KV Cache无关,主要是为了减少训练期间参数量和相应的梯度(原论文说的是激活值,个人表示不大理解)所占的显存,这里不再展开。,而MLA的这个做法,通过不同的投影矩阵再次让所有的K、V Head都变得各不相同,那么KV Cache的大小就恢复成跟MHA一样大了,违背了GQA的初衷。然而,理论上这样是能增加模型能力,但别忘了GQA的主要目的是减少KV Cache,出于节省计算和通信成本的考虑,我们一般会缓存的是投影后的。原创 2025-03-14 22:47:15 · 523 阅读 · 0 评论 -
【DeepSeek应用】DeepSeek模型本地化部署方案及Python实现
DeepSeek实在是太火了,虽然经过扩容和调整,但反应依旧不稳定,甚至小圆圈转半天最后却提示“服务器繁忙,请稍后再试。” 故此,本文通过讲解在本地部署 DeepSeek并配合python代码实现,让你零成本搭建自己的AI助理,无惧任务提交失败的压力。原创 2025-03-11 19:26:37 · 1967 阅读 · 0 评论 -
LLM推理和优化(1):基本概念介绍
每个Transformer层维护独立的KV Cache,存储该层所有已生成token的Key/Value向量。)贯穿现代推理优化(如FlashAttention、QLoRA),最终实现了从“实验室模型”到“实时对话”的跨越。通过“预填充”,避免了每次生成新token时重复计算prompt的KV,这正是LLM实现高效推理的关键优化之一。,但“Prefill”更直观反映了其“为生成提前准备历史KV”的工程目标。或用户prompt)开始,逐token预测下一个词,直到生成结束符(如。,KV Cache为空。原创 2025-03-12 22:02:36 · 1231 阅读 · 0 评论 -
【AI必知必会】如何使用Netron可视化分析AI模型?
Netron 是一个开源的神经网络、深度学习和机器学习模型可视化工具,主要用于以图形化方式展示模型的结构、参数及内部连接关系。核心功能模型可视化:支持加载并展示多种主流框架的模型文件(如ONNX、TensorFlow、PyTorch、Keras、Caffe等),通过节点连接图直观呈现各层(如卷积层、全连接层)的层级关系。参数与形状分析:点击某一层可查看权重、偏置、激活函数等参数,以及输入/输出张量的维度(如),辅助调试数据流问题。跨平台支持。原创 2025-03-07 15:27:03 · 1344 阅读 · 0 评论 -
2025年了,AI算法工程师的校招主要考察哪些内容?
结合大模型时代的技术趋势与计算机视觉(CV)算法岗的校招要求,校招考察要点呈现以下核心特征:编程与算法基础深度学习与CV专业知识项目与实战经验大模型核心技术前沿技术与创新思维工程与落地能力岗位类型差异行业招聘趋势技术准备简历与面试优化行业动态跟踪大模型时代下,CV算法岗校招呈现**“基础能力强化+技术边界扩展”**的双重特征:原创 2025-03-05 19:15:49 · 1460 阅读 · 0 评论