YOLOv5、YOLOv8改进：C3STR（Swin Transformer）

最新推荐文章于 2024-09-16 18:08:39 发布

陈子迩

最新推荐文章于 2024-09-16 18:08:39 发布

阅读量3.9k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： yolov5/7/8/9系列独家改进 YOLOv9/v10独家改进，每周持续更新文章标签： YOLO transformer 深度学习

本文链接：https://blog.csdn.net/weixin_45303602/article/details/133215639

yolov5/7/8/9系列独家改进同时被 2 个专栏收录

64 篇文章 ¥49.90 ¥99.00

订阅专栏

YOLOv9/v10独家改进，每周持续更新

22 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了将Swin Transformer应用于YOLOv5和YOLOv8的改进，以提升目标检测性能。Swin Transformer通过分层窗口自注意力机制，解决了Transformer在视觉任务中的效率问题。通过引入后归一化和缩放余弦注意力等技术，提高了大模型的稳定性和高分辨率图像处理能力。此外，还讨论了在低分辨率预训练模型到高分辨率迁移时的性能优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.介绍

视觉领域正在见证从 CNN 到 Transformers 的建模转变，纯 Transformer 架构在主要视频识别基准测试中达到了最高准确度。这些视频模型都建立在 Transformer 层之上，Transformer 层在空间和时间维度上全局连接块。在本文中，我们提倡视频 Transformer 中的局部归纳偏差，与以前的方法相比，即使使用时空分解，也可以在全局范围内计算自注意力，从而实现更好的速度-精度权衡。所提出的视频架构的局部性是通过调整为图像域设计的 Swin Transformer 实现的，同时继续利用预训练图像模型的力量。我们的方法在广泛的视频识别基准测试中实现了最先进的准确度，包括动作识别（Kinetics-400 上的 84.9 top-1 准确度和 Kinetics-600 上的 85.9 top-1 准确度，减少了约 20× 预训练数据和小模型尺寸的 3 倍）和时间建模（SomethingSomething v2 上的 69.6 top-1 准确率）。

论文地址 Swin-Transformer论文下载

了解本专栏