专栏目录:高质量AI论文翻译

该专栏涵盖了图像分类与主干网络的众多经典和最新论文,包括AlexNet、VGG、ResNet、Transformer等,深入探讨了物体检测、图像分割、行人跟踪、OCR、NLP以及知识蒸馏等多个方向的技术进展,不断推动AI领域的创新和发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图像分类与主干网络

【第1篇】AlexNet:CNN开山之作

【第2篇】VGG——引用最多的论文

【第3篇】GooLeNet——Inception结构的开创者

【第4篇】Inception V2

【第5篇】Inception V3

【第6篇】Inception-v4

【第7篇】ResNet:残差网络

【第8篇】DenseNet

【第9篇】SENET:Squeeze-and-Excitation网络

【第10篇】MobileNets:用于移动视觉应用的高效卷积神经网络

【第11篇】MobileNetV2:倒置残差和线性瓶颈

【第12篇】搜索 MobileNetV3

【第16篇】Vision Transformer

【第18篇】EfficientNet:重新思考卷积神经网络的模型缩放

【第26篇】Swin Transformer

【第29篇】MAE:屏蔽自编码器是可扩展的视觉学习器

【第30篇】CoAtNet:将卷积和注意力结合到所有数据大小上

【第31篇】NAM:基于标准化的注意力模块

【第33篇】力压Tramsformer,ConvNeXt成了CNN的希望

【第34篇】MPViT:用于密集预测的多路径视觉转换器

【第35篇】CenterNet++ 用于对象检测

【第36篇】SwinIR(超分)

【第37篇】EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN

【第38篇】MixConv:混合深度卷积核

【第39篇】RepLKNet将内核扩展到 31x31:重新审视 CNN 中的大型内核设计

【第40篇】TransFG:用于细粒度识别的 Transformer 架构

【第41篇】ConvMAE:Masked Convolution 遇到 Masked Autoencoders

【第42篇】MicroNet:以极低的 FLOP 实现图像识别

【第43篇】CLIP:从自然语言监督中学习可迁移的视觉模型

【第46篇】RepVGG :让卷积再次伟大

【第47篇】BoT-SORT:强大的关联多行人跟踪

【第48篇】MaxViT:多轴视觉转换器

【第49篇】Swin Transformer V2:扩展容量和分辨率

【第50篇】迈向快速、灵活、稳健的微光图像增强

【第51篇】用于交通预测的时空交互动态图卷积网络

【第52篇】RetinexNet: Deep Retinex Decomposition for Low-Light Enhancement

【第53篇】MAFormer: 基于多尺度注意融合的变压器网络视觉识别

【第54篇】剪枝算法:通过网络瘦身学习高效卷积网络

【第55篇】RepGhost:一个通过重新参数化实现硬件高效的Ghost模块

【第56篇】GhostNet:廉价操作得到更多的特征

【第57篇】DEiT:通过注意力训练数据高效的图像transformer &蒸馏

【第58篇】MetaFormer实际上是你所需要的视觉

【第59篇】RegNet:设计网络设计空间

【第60篇】多目标跟踪:文献综述

【第61篇】DeepSort:论文翻译

【第61篇】DeepSort:论文翻译

【第62篇】DepGraph:适用任何结构的剪枝

【第62篇】ConvNeXt V2论文翻译:ConvNeXt V2与MAE碰撞

【第63篇】CSI-Net:统一的人体特征和姿态识别

【第64篇】SMILEtrack:基于相似度学习的多目标跟踪

【第65篇】行人属性识别研究综述(一)

【第66篇】深度学习在视频多目标跟踪中的应用综述

来自清华的AdaSP:基于自适应稀疏成对损失的目标重识别

SegGPT_分割上下文中的所有内容

超越外观_面向以人为中心视觉任务的语义可控自监督学习框架

SAM:分割anything

BiFormer:基于双层路由注意力的视觉Transformer

InternImage:探索具有可变形卷积的大规模视觉基础模型

FasterNet:CVPR2023年最新的网络,基于部分卷积PConv,性能远超MobileNet,MobileVit

Wise-IoU_基于动态聚焦机制的边界框回归损失

Conv2Former:用于视觉识别的简单 Transformer-Style的ConvNet

Lion:优化算法的符号发现

DINOv2:在没有监督的情况下学习鲁棒的视觉特征

SEEM:Segment Everything Everywhere All at Once

SeaFormer:轻量高效的注意力模块

跟踪Anything:当Segment Anything 遇上视频

RFAConv:创新空间注意力和标准卷积操作

VanillaNet:极简主义在深度学习中的力量

FasterViT:基于分层注意力的快速视觉transformer

InceptionNext:当Inception遇到ConvNeXt

在这里插入图片描述

物体检测

【第19篇】SSD论文翻译和代码汇总

【第21篇】微软发布的Dynamic Head,创造COCO新记录:60.6AP

【第22篇】Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

【第23篇】UMOP

【第24篇】CenterNet2论文解析,COCO成绩最高56.4mAP

【第25篇】CBNetV2

【第27篇 】SE-SSD论文翻译

【第32篇】YOLOR:多任务的统一网络

【第45篇】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

图像分割

更快地分割任何事物:面向移动应用的轻量级Sam

HQ-SAM:高质量地分割一切东西

行人跟踪

OCR

【第28篇】像人类一样阅读:自主、双向和迭代语言 场景文本识别建模

【第44篇】DBNet:具有可微分二值化的实时场景文本检测

NLP以及大模型

【第13篇】Bert论文翻译

【第14篇】TextCNN

【第15篇】Transformer:Attention Is All You Need

资源有限的大型语言模型的全参数微调

CoDi:Any-to-Any的生成,统一多种模态

FinGPT:开源金融大型语言模型

MUSICGEN:简单可控的音乐生成

GPT-4是一个好的数据分析师吗?

作为工具制造者的大型语言模型

QLORA_量化LLMA的有效微调

大型语言模型综述(一)

大型语言模型综述(二)

MiniGPT-4:用高级大型语言模型增强视觉-语言理解

知识蒸馏

【第17篇】知识蒸馏:Distilling the Knowledge in a Neural Network

【第20篇】知识蒸馏:Distilling the Knowledge in a Neural Network

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI智韵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值