图像分类与主干网络
【第3篇】GooLeNet——Inception结构的开创者
【第9篇】SENET:Squeeze-and-Excitation网络
【第10篇】MobileNets:用于移动视觉应用的高效卷积神经网络
【第18篇】EfficientNet:重新思考卷积神经网络的模型缩放
【第30篇】CoAtNet:将卷积和注意力结合到所有数据大小上
【第33篇】力压Tramsformer,ConvNeXt成了CNN的希望
【第37篇】EdgeViTs: 在移动设备上使用Vision Transformers 的轻量级 CNN
【第39篇】RepLKNet将内核扩展到 31x31:重新审视 CNN 中的大型内核设计
【第40篇】TransFG:用于细粒度识别的 Transformer 架构
【第41篇】ConvMAE:Masked Convolution 遇到 Masked Autoencoders
【第42篇】MicroNet:以极低的 FLOP 实现图像识别
【第49篇】Swin Transformer V2:扩展容量和分辨率
【第52篇】RetinexNet: Deep Retinex Decomposition for Low-Light Enhancement
【第53篇】MAFormer: 基于多尺度注意融合的变压器网络视觉识别
【第55篇】RepGhost:一个通过重新参数化实现硬件高效的Ghost模块
【第57篇】DEiT:通过注意力训练数据高效的图像transformer &蒸馏
【第62篇】ConvNeXt V2论文翻译:ConvNeXt V2与MAE碰撞
【第64篇】SMILEtrack:基于相似度学习的多目标跟踪
BiFormer:基于双层路由注意力的视觉Transformer
InternImage:探索具有可变形卷积的大规模视觉基础模型
FasterNet:CVPR2023年最新的网络,基于部分卷积PConv,性能远超MobileNet,MobileVit
Conv2Former:用于视觉识别的简单 Transformer-Style的ConvNet
SEEM:Segment Everything Everywhere All at Once
跟踪Anything:当Segment Anything 遇上视频
FasterViT:基于分层注意力的快速视觉transformer
InceptionNext:当Inception遇到ConvNeXt
物体检测
【第21篇】微软发布的Dynamic Head,创造COCO新记录:60.6AP
【第22篇】Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
【第24篇】CenterNet2论文解析,COCO成绩最高56.4mAP
【第45篇】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
图像分割
行人跟踪
OCR
【第28篇】像人类一样阅读:自主、双向和迭代语言 场景文本识别建模
NLP以及大模型
【第15篇】Transformer:Attention Is All You Need