- 博客(1566)
- 资源 (166)
- 收藏
- 关注
原创 大模型变身复读机?揭秘原因与实用解药
在特定条件下(数据模式、注意力聚焦、自我强化效应),选择重复已生成的内容,在模型的“世界观”里,可能恰恰是当前最“合理”(概率最高)的选择。我们通过各种策略(数据、训练、解码参数、提示、后处理),本质上都是在引导或“修正”模型的这种概率选择倾向,使其输出更符合人类的期望——流畅、多样、富有创造力。),并灵活运用调整生成参数(温度、Top-p、重复惩罚)、优化提示词、选择更优模型等策略,我们可以显著缓解这一问题,让大模型真正发挥其作为强大信息处理和创意助手的潜力。通过理解其背后的原因(尤其是强大的。
2025-07-14 23:00:00
787
原创 AI开源伦理临大考,如何判定抄袭
华为至今未回应内部爆料,而GitHub原文已悄然消失。这场罗生门没有赢家:若指控属实,中国大模型的“国产化”叙事将遭遇信任坍塌;若纯属误判,则凸显AI时代判定原创的技术与伦理标准仍处混沌。当全球AI竞赛进入白热化,华为盘古事件如同一面镜子,映照出所有参赛者的共同困境——如何在巨人的肩膀站稳时,不踩碎脚下的基石。
2025-07-08 07:11:58
1048
原创 SFSORT:基于场景特征的简易在线实时跟踪器
本文介绍了SFSORT——经MOT挑战数据集实验验证的全球最快多目标跟踪系统。为实现高精度且计算高效的跟踪器,本文采用基于在线实时跟踪的检测跟踪方法(该方法是先前文献中已确立的)。通过引入一种名为边界框相似度指数(BoundingBoxSimilarityIndex)的新型代价函数,本研究摒弃了卡尔曼滤波器,从而降低了计算需求。此外,本文还展示了场景特征对增强目标-轨迹关联及改进轨迹后处理的影响。
2025-07-03 17:36:16
1168
原创 OmniGen2: Exploration to Advanced Multimodal Generation
https://arxiv.org/pdf/2506.18871v2In this work, we introduce OmniGen2,a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlik
2025-07-03 09:02:09
968
原创 Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
我们提出了一种名为Hyper-YOLO的新型目标检测方法,该方法通过整合超图计算来捕捉视觉特征间复杂的高阶关联性。传统YOLO模型虽然功能强大,但其颈部设计存在局限性,限制了跨层级特征的融合以及对高阶特征间相互关系的利用。为应对这些挑战,我们提出了基于超图计算的语义聚合与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering,HGC-SCS),该框架将视觉特征图转换到语义空间,并构建超图以实现高阶消息传播。
2025-07-02 07:17:01
869
原创 DEIM: DETR with Improved Matching for Fast Convergence
我们引入了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为缓解DETR模型中一对一(O2O)匹配所固有的稀疏监督问题,DEIM采用了密集一对一(Dense O2O)匹配策略。该方法通过运用标准数据增强技术,在每张图像中纳入更多目标以增加正样本数量。尽管Dense O2O匹配加速了收敛,但也引入了大量低质量匹配,可能影响性能。
2025-07-02 06:12:18
1028
原创 D-FiNE:在DETR模型中重新定义回归任务为精细粒度分布细化
我们提出了D-FINE,这是一款强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。D-FINE包含两个关键组件:精细粒度分布细化(Fine-grained Distribution Refinement,FDR)和全局最优定位自蒸馏(Global Optimal Localization Self-Distillation,GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代细化概率分布,提供了精细粒度的中间表示,显著提高了定位精度。
2025-06-29 20:54:47
1063
1
原创 SportsMOT:多体育场景大规模多目标跟踪数据集
框架通过融合运动预测与Transformer外观建模,在SportsMOT与MOT17均达SOTA。该数据集有望推动体育分析与多目标跟踪算法的协同发展。在SportsMOT上提升显著:ByteTrack + MixSort使HOTA↑1.6,IDF1↑2.7(表3)。在MOT17上刷新SOTA:HOTA达64.0(表5),证明泛化能力。填补了体育场景MOT数据集的空白,其。特性挑战现有跟踪范式。
2025-06-26 20:30:00
944
2
原创 CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking
近年来,在线多目标跟踪领域主要由基于检测的跟踪(Tracking-by-Detection,简称TbD)方法主导,这些方法的最新进展依赖于日益复杂的启发式规则来实现轨迹片段(tracklet)表示、特征融合以及多阶段匹配。TbD方法的关键优势在于其模块化设计,这使得它能够集成专门化的现成模型,如运动预测器和行人重识别(re-identification)模型。然而,大量使用人工设计的规则来进行时间关联,使得这些方法在捕捉各种跟踪线索之间复杂相互作用的能力上存在固有局限。
2025-06-26 07:04:45
915
原创 视频中的开放世界目标计数
我们引入了一项新的视频开放世界目标计数任务:给定一个文本描述或一个图像示例来指定目标物体,任务目标是在视频中枚举出所有目标物体的唯一实例。在存在遮挡和相似物体的拥挤场景中,这项任务尤其具有挑战性,因为避免重复计数和识别重新出现的物体至关重要。为此,我们做出了以下贡献:我们为该任务引入了模型COUNTVID。它利用了一个基于图像的计数模型和一个可提示的视频分割与跟踪模型,以实现视频帧间的自动化开放世界目标计数。
2025-06-25 21:02:53
1315
原创 DiffMOT:一种基于扩散的实时多目标跟踪器,具备非线性预测能力
在多目标跟踪(Multiple Object Tracking, MOT)中,目标物体常常表现出加速和减速的非线性运动,且方向变化不规则。基于检测的跟踪(Tracking-by-detection, TBD)方法结合卡尔曼滤波器(Kalman Filter, KF)运动预测在行人主导的场景中表现良好,但在多个目标同时进行非线性和多样化运动的复杂情况下则表现不佳。为了应对复杂的非线性运动,我们提出了一种基于扩散的实时多目标跟踪方法,名为DiffMOT。
2025-06-25 17:10:16
963
原创 Cross-DINO:融合深度多层感知机(MLP)与Transformer以实现小目标检测
小目标检测(SOD)由于信息有限和模型类别预测分数较低而面临重大挑战。尽管基于Transformer的检测器已展现出良好的性能,但它们在SOD方面的潜力在很大程度上仍未得到探索。在典型的类似DETR的框架中,专门用于聚合局部信息的CNN主干网络难以捕获SOD所需的上下文信息。Transformer编码器中的多个注意力层难以有效关注小目标,还可能导致特征模糊。此外,与大目标相比,模型对小目标的类别预测分数较低,进一步增加了SOD的难度。为了应对这些挑战,我们提出了一种名为Cross-DINO的新方法。
2025-06-24 06:23:46
1021
原创 百度文心快码发布Comate AI IDE:首创设计稿一键转代码,打造多模态、多智能体协同开发环境
文心快码推出的Comate AI IDE,围绕“智能”、“拓展”、“协同”、“灵感”四大维度实现全方位突破,具备多项核心能力,已成为AI时代工程师的得力“工作台”。从核心技术突破到开发生态构建,从职业场景赋能到全民普惠应用,百度文心快码正以中国自主创新的力量,重新定义智能编程的未来图景,践行着“让每一个有梦想的人,都能构建属于自己的世界”的愿景。门槛的降低,恰恰是软件普及和行业繁荣的基石。因此,我们的学习重心需要随之转变:从过度聚焦于底层代码的“怎么写”,转向更高维度的“做什么”和“为什么做”。
2025-06-24 05:40:06
1695
原创 管理综合知识点
某溶液由A、B两种液体混合,A液浓度60%,B液浓度30%。梯形ABCD中,AD∥BC,AC与BD交于O点,△AOD与△BOC面积比为1:4,求AD:BC。某商品2023年销量比2022年增长20%,2024年比2023年下降15%,求两年总增长率。甲、乙速度比5:4,从两地相向而行,相遇时甲比乙多走10公里,求总路程。用30%和60%的盐水配成45%的盐水200克,需两种盐水各多少克?商品成本100元,按50%利润率定价,后打8折出售,求实际利润率。相遇时路程比 = 速度比 = 5:4。
2025-06-22 21:35:59
660
原创 MiniMax-M1: Scaling Test-TimeCompute Efficiently with I Lightning Attention
我们推出了MiniMax-M1,这是全球首个开源权重、大规模混合注意力推理模型。MiniMax-M1采用了混合专家系统(Mixture-of-Experts,简称MoE)架构,并结合了闪电注意力机制。该模型是在我们之前的MiniMax-Text-01模型(MiniMax等人,2025年)基础上开发而来的,该模型总共有4560亿个参数,每个标记激活459亿个参数。M1模型原生支持高达100万个标记的上下文长度,是DeepSeek R1上下文大小的8倍。
2025-06-21 17:14:48
910
原创 基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
图2给出了基于角度参数化旋转边界框的两种流行定义:由DocD_{o c}Doc表示的OpenCV协议和由DlϵDlϵ表示的长边定义。注意,前者的θ∈−90∘0∘θ∈−90∘0∘表示边界框的wocw_{o c}woc与x轴之间的锐角或直角。相比之下,后者的θ∈−90∘90∘θ∈−90∘90∘是边界框长边wlew_{l e}wle与x轴之间的角度。Dlewlehleθ。
2025-06-21 08:39:51
735
原创 【Block总结】FCB,傅里叶卷积|即插即用
核心贡献FCB模块首次在MRI重建中实现全局感受野与低计算复杂度的统一,突破传统CNN的局部性限制,性能超越ViT与大核CNN。应用价值即插即用设计兼容主流CNN架构(如UNet),代码已开源(GitHub链接),推动临床MRI快速重建。声明:作者使用ChatGPT辅助语言润色,内容责任由作者承担。资助:国家自然科学基金、北京市科技计划等支持。此工作为MRI重建提供了一种高效全局特征提取新范式,平衡了性能与计算成本,具有重要临床意义。
2025-06-20 00:45:00
976
原创 MASF-YOLO:一种改进的用于无人机视角下小目标检测的YOLOv11网络
随着无人机(Unmanned Aerial Vehicle,UAV)和计算机视觉技术的快速发展,从无人机视角进行目标检测已成为一个突出的研究领域。然而,无人机图像中目标像素占比极小、物体尺度变化显著以及背景信息复杂等因素给检测带来的挑战,极大地限制了无人机的实际应用。
2025-06-20 00:30:00
1081
原创 DINO-R1:激励推理能力的视觉基础模型
近期,人们对大型语言模型(如DeepSeek-R1)推理能力的关注呈爆炸式增长,通过基于强化学习的微调框架(如组相对策略优化(Group Relative Policy Optimization,GRPO)方法)取得了显著成功。然而,在视觉基础模型(包括像DINO系列这样的表征模型)中,这种推理能力仍鲜有探索且明显缺失。在本工作中,我们提出了DINO-R1,这是首次尝试使用强化学习来激励视觉基础模型的视觉上下文推理能力。
2025-06-19 21:34:55
1176
原创 自动化工具:将PDF论文转换为Markdown格式|附代码
高质量PDF转图像:将PDF每页转换为高分辨率图像OCR文本识别与结构分析:识别图像中的文本内容和文档结构Markdown生成与合并:创建结构化文档并合并为完整文件。
2025-06-19 12:46:25
653
原创 RFAG-YOLO:一种用于无人机图像中小目标检测的感受野注意力引导YOLO网络
在本研究中,我们选择YOLOv8作为基准网络进行改进,因为其结构简单且检测精度稳定。主干网络(Backbone):主干网络是获取输入图像特征的关键元素。YOLOv8的主干网络主要由CBS(Conv-BN-SiLU)和C2f模块构成,其中CBS用于下采样,而C2f模块用于特征提取。颈部(Neck):YOLOv8的颈部组件采用了路径聚合网络-特征金字塔网络(PAN-FPN)结构,在FPN的基础上引入了自底向上的路径。该路径允许低层特征与高层特征再次融合,有助于捕获不同尺寸的目标并提高目标检测的准确性。
2025-06-19 06:30:00
1325
原创 Could not locate zlibwapi.dll. Please make sure it is in your library path!
这个错误表明您的系统中缺少文件,这是 PyMuPDF (fitz) 库所需的依赖项。
2025-06-18 23:15:00
516
原创 TradingAgents:基于多智能体的大型语言模型(LLM)金融交易框架
基于大型语言模型(LLMs)驱动的智能体社群在自动化问题求解领域取得了显著进展。在金融领域,现有研究主要聚焦于单智能体系统处理特定任务或多智能体框架独立收集数据。然而,多智能体系统模拟真实世界交易公司协作动态的潜力尚未得到充分探索。本文提出的框架受交易公司启发,设计了一种新型股票交易框架,其中包含由LLMs驱动的、担任不同角色的智能体,如基本面分析师、情绪分析师、技术分析师以及具有不同风险偏好的交易员。该框架包括看涨(Bull)和看跌(Bear)研究员智能体,负责评估市场条件;风险管理团队监控风险敞口;
2025-06-18 20:21:04
1524
1
原创 RuntimeError: Directory ‘static/‘ does not exis
【代码】RuntimeError: Directory ‘static/‘ does not exis。
2025-06-18 07:16:11
233
原创 轻松搭建Linux开发环境:使用`build-essential`安装GCC编译器**
在Linux系统上进行软件开发,尤其是C或C++项目,一个强大的编译器是必不可少的基石。这个看似简单的命令背后,为你一次性安装了构建C/C++软件所需的核心工具链:GCC编译器、G++编译器、Make构建工具、C标准库开发文件以及其他必要的依赖项。现在,你已经拥有了强大的GCC编译器,可以尽情探索Linux开发的广阔天地了!在安装任何新软件之前,最好先更新本地软件包仓库的索引信息,确保获取的是最新版本和依赖关系。输入你的用户密码(输入时不会显示星号,这是正常的)并按回车。等及其依赖),并询问你是否继续。
2025-06-17 23:15:00
1302
原创 用于快速且稳定深度学习的TELU激活函数
摘要我们提出了双曲正切指数线性单元(TeLU),这是一种神经网络隐藏激活函数,定义为TeLU(x)=x⋅tanh(ex)TeLU(x)= x\cdot tanh(e^{x})TeLU(x)=x⋅tanh(ex)。TeLU的设计基于关键激活函数的核心原则,通过在其活跃区域紧密逼近恒等函数来实现强收敛,同时有效缓解其饱和区域中的梯度消失问题。其简单的公式提高了计算效率,从而改善了可扩展性和收敛速度。与许多现代激活函数不同,TeLU无缝结合了ReLU的简单性和有效性与深度神经网络中学习稳定性所必需的平滑性和解析
2025-06-16 07:15:14
1318
原创 【Block总结】NeLU(负斜率线性单元)函数|最新激活函数|独家复现|即插即用
梯度重塑:数学设计:适用场景:通过乘法技巧注入梯度(公式6),确保梯度流经“死亡”神经元。损失曲面更平滑(图5),优化过程更稳定。性能对比:关键优势:核心贡献:应用价值:局限与未来:
2025-06-15 07:03:37
703
原创 【Block总结】B-SiLU,最新激活函数|即插即用|涨点神器|独家复现
B-SiLUxxα⋅σx−2αα1.67其中 (\sigma(x)) 为 Sigmoid 函数。dxdB-SiLUxσxxασx1−σx))(图示:B-SiLU 激活值连续平滑,导数在负区域非零且收敛于零)myx⋅sggx))m−sgmsgReLUx))。
2025-06-15 06:24:32
763
原创 新的激活函数B-SiLU和NeLU:ReLU函数的复兴
在深度学习架构中建模复杂的激活函数已成为一个独特的研究方向。诸如GELU、SELU和SiLU等函数提供了平滑的梯度和改进的收敛特性,使其成为最先进模型中的热门选择。尽管存在这一趋势,但经典的ReLU函数仍因其简洁性、内在稀疏性以及其他有利的拓扑特性而备受青睐。然而,ReLU单元容易出现不可逆的失活现象——即所谓的“ReLU死亡问题”——这限制了其整体有效性。
2025-06-14 16:22:56
632
原创 list,通过queue,将里面的值做分组
这个实现保证了每个消费者线程只会处理特定数字,同时通过队列系统实现了生产-消费的解耦,符合多线程编程的最佳实践。:创建与原始列表长度相同的队列组,每个队列对应一个数字(索引0对应数字1,索引1对应数字2,依此类推)
2025-06-13 18:45:00
371
原创 OG-HFYOLO:面向变形表格单元格的方向梯度引导(Orientation Gradient Guidance)与异构特征融合(Heterogeneous Feature Fusion)
表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形削弱了内容与结构信息之间的关联性,进而阻碍了下游任务准确提取内容的能力。为应对这一挑战,我们提出了用于细粒度单元格坐标定位的OG-HFYOLO模型。该模型整合了梯度方向感知提取器(Gradient-Orientation-Aware Extractor)以增强边缘检测,并引入异构核交叉融合(Heterogeneous Kernel Cross Fusion)模块来促进多尺度特征学习,从而提高特征表达的准确性。
2025-06-13 07:20:46
433
原创 【Block总结】Inv-FR,串行自适应卷积核操作,优化空间特征表示|即插即用
动态核生成:使模型能自适应不同图像区域的特征通道优化设计:通过双级结构实现通道信息的提炼高效实现:利用unfold操作避免显式滑动窗口。
2025-06-11 01:00:00
598
原创 【Block总结】DiffAttention,差分注意力融入CLIP架构,抑制噪声,增强对相关特征的关注|即插即用
DiffCLIP通过微小的结构改动实现了显著的性能提升,为多模态模型的轻量化与高效化提供了新范式。
2025-06-11 00:45:00
1234
1
Vim实战:使用Vim实现图像分类任务
2024-01-30
Hiera-MAE-Demo.zip
2024-03-05
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
OverLoCK实战:使用OverLoCK实现图像分类任务
2025-05-19
SparX实战:使用SparX实现图像分类任务
2025-01-29
DFFormer实战:使用DFFormer实现图像分类
2025-01-27
CrossFormer实战:使用CrossFormer实现图像分类任务
2025-01-12
DilateFormer实战:使用DilateFormer实现图像分类任务
2024-12-26
VOLO实战:使用VOLO实现图像分类任务
2024-11-25
DeBiFormer实战:使用DeBiFormer实现图像分类任务
2024-11-07
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人