自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(804)
  • 收藏
  • 关注

原创 CGPO:完美融合—用评审混合机制重塑RLHF

本篇文章已同步至"强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。在本工作中,我们提出了一种新的后训练范式,称为。

2025-07-15 16:00:36 98

原创 DDPO:使用强化学习训练扩散模型

扩散模型是一类灵活的生成模型,通常通过对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关注似然性,而是关注诸如人类感知的图像质量或药效等下游目标。本文探讨了用于直接优化扩散模型以满足此类目标的强化学习方法。我们提出将去噪过程视为一个多步决策问题,从而引入一类策略梯度算法,我们称之为去噪扩散策略优化(denoising diffusion policy optimization,DDPO),该方法相较于奖励加权似然类方法更为高效。

2025-07-15 15:44:42 156

原创 PPO:近端策略优化算法

我们提出了一类新的用于强化学习的 policy gradient 方法,该方法在与环境交互以采样数据和使用随机梯度上升优化一个“代理”目标函数之间交替进行。与标准的 policy gradient 方法每个数据样本只进行一次梯度更新不同,我们提出了一种新颖的目标函数,使得可以对同一批数据进行多个 epoch 的小批量更新。这些新方法被称为,它们继承了的一些优势,但实现更简单、适用范围更广,并且在经验上具有更好的样本效率。

2025-07-15 15:28:24 394

原创 Qwen2-VL:提升视觉语言模型对任意分辨率世界的感知能力

我们提出了 Qwen2-VL 系列,这是对先前 Qwen-VL 模型的重大升级,重新定义了视觉处理中传统的预设分辨率方法。Qwen2-VL 引入了朴素动态分辨率机制(Naive Dynamic Resolution),使模型能够动态地处理不同分辨率的图像并生成不同数量的视觉 token。这一方法使模型能够生成更高效且更准确的视觉表示,更加贴近人类的感知过程。

2025-07-14 09:48:36 930

原创 CLIPSeg:利用文本与图像提示进行图像分割

图像分割通常是通过针对一组固定的目标类别训练模型来解决的。若要在之后引入额外类别或更复杂的查询,代价很高,因为这需要在涵盖这些表达的新数据集上重新训练模型。本文提出了一种系统,能够在测试时基于任意提示生成图像分割结果。提示可以是文本,也可以是图像。这种方法使我们能够训练一个统一的模型(只需训练一次),以应对三种常见的分割任务,它们分别具有不同的挑战:指代表达式分割、零样本分割和单样本分割。我们以 CLIP 模型为基础,并在其上扩展了一个基于 transformer 的解码器,以实现密集预测。

2025-07-14 09:29:16 454

原创 NEFTune:加入噪声的嵌入提升指令微调效果

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。

2025-07-14 09:11:27 795

原创 VISUALBERT:一个简单且高效的视觉与语言基线模型

我们提出了VisualBERT,这是一个简单而灵活的框架,用于建模各种视觉与语言任务。VisualBERT由一组Transformer层组成,这些层通过自注意力机制隐式对齐输入文本中的元素与相关图像中的区域。我们进一步提出了两个基于视觉语义的语言模型目标,用于在图像字幕数据上对VisualBERT进行预训练。在包括VQA、VCR、NLVR2和Flickr30K的四个视觉与语言任务上的实验表明,VisualBERT在表现上优于或可与当前最先进的模型媲美,同时结构显著更为简洁。

2025-07-13 16:02:56 871

原创 KTO:将模型对齐视为前景理论优化

Kahneman 与 Tversky 的前景理论指出,人类以一种有偏但结构明确的方式感知随机变量(1992);例如,人类表现出明显的损失厌恶倾向。我们展示了,在使大语言模型(LLM)对齐于人类反馈的目标函数中,许多此类偏差已被隐含地纳入——这些目标函数(如 DPO)优于交叉熵最小化的部分原因,在于它们属于我们称之为人类感知损失函数(human-aware losses, HALOs)的函数族。然而,这些方法所假设的人类效用函数,仍然与前景理论文献中的形式存在差异。

2025-07-13 15:29:56 408

原创 NLHF:基于人类反馈的纳什学习

基于人类反馈的强化学习(Reinforcement learning from human feedback, RLHF)已经成为将大型语言模型(LLMs)对齐于人类偏好的主要范式。传统上,RLHF 包括首先从成对的人类反馈中学习一个reward模型,即人类对文本生成对之间偏好的表达。随后,通过强化学习算法对LLM的policy进行微调,以最大化该reward。在本研究中,我们提出了一种用于LLM微调的替代流程,仍基于成对的人类反馈。

2025-07-13 08:28:36 319

原创 GKD:语言模型的策略内蒸馏:从自身生成的错误中学习

知识蒸馏(Knowledge Distillation, KD)是一种广泛使用的方法,用于压缩教师模型,从而降低其推理成本和内存占用,通过训练一个更小的学生模型来实现。然而,目前针对自回归序列模型的知识蒸馏方法存在一个问题,即在训练期间所看到的输出序列与学生在推理时所生成的输出序列之间存在分布不匹配。为了解决这一问题,我们提出了一种广义知识蒸馏(Generalized Knowledge Distillation, GKD)方法。

2025-07-12 10:49:05 194

原创 SAC : 具有随机Actor的离策略最大熵深度强化学习

无模型的深度强化学习(RL)算法已在一系列具有挑战性的决策与控制任务中取得了成果。然而,这些方法通常面临两个主要挑战:极高的样本复杂度和收敛性能的不稳定性,这就需要对超参数进行精细调整。这两个问题严重限制了此类方法在复杂现实世界场景中的适用性。在本文中,我们提出了,这是一种基于最大熵强化学习框架的离策略 actor-critic 深度RL算法。在该框架中,actor 的目标是在最大化期望奖励的同时最大化策略熵,也就是说,在尽可能成功地完成任务的同时,尽可能以随机的方式执行动作。

2025-07-12 10:13:17 314

原创 BCO:用于大语言模型对齐的二分类器优化

在诸如 ChatGPT 等实际服务中,根据用户反馈对模型进行对齐对于提升模型性能至关重要。但大多数现有的对齐研究依赖偏好建模方法,需要成对的正负反馈样本。。该方法训练一个二分类器,其 logit 可作为隐式奖励,从而有效最小化 Direct Preference Optimization(DPO)损失。我们证明,分类器训练中使用的 binary cross-entropy(BCE)损失构成 DPO 损失的上界。此外,我们提出了一种新颖的 reward shift 技术,用于进一步缩小两种损失之间的差距。

2025-07-12 09:59:17 313

原创 Video-LLaVA:通过投影前对齐学习联合视觉表示

大规模视觉-语言模型(LVLM)提升了视觉语言理解中多种下游任务的表现。现有的大多数方法将图像和视频编码到不同的特征空间中,然后将其作为输入传递给大规模语言模型。然而,由于缺乏统一的图像和视频的标记化方式,即在投影之前的错位,导致大规模语言模型(LLM)在多个投影层中学习多模态交互变得具有挑战性。在本研究中,我们将视觉表示统一到语言特征空间中,以推动基础大规模语言模型朝着统一的视觉-语言模型(LVLM)发展。

2025-07-11 08:55:14 1022

原创 DPO:直接偏好优化:你的语言模型其实是一个奖励模型

虽然大规模的无监督语言模型(Language Models, LMs)能够学习广泛的世界知识以及一定的推理能力,但由于其训练完全是无监督的,实现对其行为的精确控制仍然较为困难。现有用于提升模型可控性的做法,通常会收集人类对模型生成结果的相对质量偏好标签,并通过对无监督LM进行微调使其对齐这些偏好,其中常用的方法是来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。

2025-07-11 08:36:35 12

原创 ORPO:无参考模型的一体化偏好优化

虽然近期针对语言模型的偏好对齐算法展现了良好的效果,但监督微调(SFT)仍然是实现成功收敛的必要步骤。本文研究了监督微调在偏好对齐中的关键作用,强调对不受欢迎生成风格施加轻微惩罚已足够实现偏好对齐的监督微调。基于此,我们提出了一种简单且创新的无参考模型一体化赔率比偏好优化算法——ORPO,免除了额外偏好对齐阶段的需求。我们从理论与实验两个方面证明,赔率比是监督微调过程中对比受欢迎与不受欢迎风格的合理选择,适用于从1.25亿到70亿参数的多种模型规模。

2025-07-11 08:21:31 401

原创 在 Actor-Critic 方法中应对函数近似误差

在基于值的强化学习方法(如深度 Q-learning)中,函数近似误差已知会导致价值估计的高估以及次优策略。我们证明了这个问题在 actor-critic 设置中同样存在,并提出了新的机制以最小化它对 actor 和 critic 的影响。我们的算法基于 Double Q-learning,通过取一对 critic 的最小值来限制高估现象。我们指出了目标网络与高估偏差之间的联系,并建议延迟策略更新以减少每次更新的误差,并进一步提升性能。

2025-07-10 08:59:30 398

原创 用于深度强化学习的异步方法

我们提出了一个概念上简单且轻量的深度强化学习框架,该框架使用异步梯度下降来优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体,并展示了并行的 actor-learner 对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最好的方法是 actor-critic 的异步变体,它在 Atari 环境中超越了当前的最先进方法,并且仅在一个多核 CPU(而非 GPU)上训练了一半的时间。

2025-07-10 08:44:16 605

原创 使用深度强化学习进行连续控制

我们将深度Q学习成功的核心思想扩展到了连续动作域中。本文提出了一种基于确定性策略梯度的无模型actor-critic算法,能够处理连续动作空间。利用相同的学习算法、网络架构和超参数,该算法稳定地解决了20多个模拟物理任务,包括经典问题如倒立摆摆起(cartpole swing-up)、灵巧操作、足式行走以及自动驾驶等。我们的算法能够学习出策略,其性能可与拥有环境动力学和导数全部信息的规划算法相媲美。我们还进一步展示,对于许多任务,该算法可以实现“端到端”学习:直接从原始像素输入中学习策略。

2025-07-10 08:07:50 1020

原创 OneFormer:统治通用图像分割的Transformer

通用图像分割并不是一个新概念。在过去的几十年中,统一图像分割的尝试包括场景解析、全景分割,以及最近的新型全景架构。然而,这些全景架构并未真正实现图像分割的统一,因为它们需要在语义分割、实例分割或全景分割任务上分别训练,才能达到最佳性能。理想情况下,一个真正通用的框架应当只训练一次,就能在三种图像分割任务中都达到SOTA性能。为此,我们提出了OneFormer,这是一个通过多任务一次性训练设计实现统一分割的通用图像分割框架。

2025-07-09 08:41:08 659

原创 Chameleon:混合模态早期融合基础模型

本篇文章已同步至"

2025-07-09 08:22:11 1003

原创 Gemma3: Gemma 3 技术报告

本篇文章已同步至"我们介绍了Gemma 3,它是Gemma系列轻量级开源模型的多模态扩展,参数规模从1亿到27亿不等。这个版本引入了视觉理解能力、覆盖更多语言以及更长的上下文——至少128K个token。我们还改变了模型的架构,以减少随着长上下文而爆炸的KV缓存内存。这是通过增加局部注意力层和全局注意力层的比例,并将局部注意力的跨度保持较短来实现的。Gemma 3模型通过蒸馏训练,取得了比Gemma 2更优的性能,包括预训练和指令微调版本。

2025-07-09 08:06:56 1124

原创 InstructBLIP:迈向具备指令微调能力的通用视觉语言模型

大规模的预训练与instruction tuning在构建通用语言模型方面已取得显著成效。然而,构建通用的视觉-语言模型仍然具有挑战性,因为附加的视觉输入带来了丰富的输入分布和任务多样性。尽管视觉-语言预训练已经被广泛研究,视觉-语言instruction tuning仍然缺乏深入探索。本文基于预训练的BLIP-2模型,开展了一项系统而全面的视觉-语言instruction tuning研究。我们收集了26个公开可用的数据集,涵盖多种任务和能力,并将其转换为instruction tuning格式。

2025-07-08 15:50:49 1267

原创 LayoutXLM:用于多语言视觉丰富文档理解的多模态预训练

最近,多模态预训练结合了文本、布局和图像,在视觉丰富文档理解任务中取得了最新的SOTA表现,展示了不同模态之间联合学习的巨大潜力。本文提出了LayoutXLM,一个用于多语言文档理解的多模态预训练模型,旨在弥合视觉丰富文档理解中的语言障碍。为了准确评估 LayoutXLM,我们还引入了一个多语言表单理解基准数据集——XFUND,该数据集包含7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表单理解样本,并为每种语言手动标注了键值对。

2025-07-08 15:30:06 865

原创 Qwen2Audio: Qwen2-Audio 技术报告

我们介绍了 Qwen-Audio 的最新进展,即名为的大规模音频-语言模型,该模型能够接受多种音频信号输入,并根据语音指令执行音频分析或直接生成文本响应。相较于复杂的层级标签,我们通过为不同数据和任务使用自然语言提示,简化了预训练过程,并进一步扩大了数据规模。我们增强了 Qwen2-Audio 的指令遵循能力,并实现了语音聊天和音频分析两种不同的音频交互模式。在语音聊天模式中,用户可以不依赖文本输入,自由地与 Qwen2-Audio 进行语音互动。

2025-07-08 14:51:47 1086

原创 LLaVA-OneVision:简单的视觉任务迁移

我们提出了,这是一个开放式大规模多模态模型(Large Multimodal Models, LMMs)家族,基于我们在 LLaVA-NeXT 博客系列中关于数据、模型与视觉表示的深入见解而构建。实验结果表明,LLaVA-OneVision 是首个在三个重要计算机视觉场景中同时提升开放式 LMMs 性能边界的单一模型:单图像、多图像和视频场景。更重要的是,LLaVA-OneVision 的设计支持在不同模态/场景之间进行强有力的迁移学习,进而产生新的能力涌现。

2025-07-07 09:03:48 415

原创 ViP-LLaVA: 使大型多模态模型理解任意视觉提示

现有的大型视觉-语言多模态模型主要关注整体图像理解,但在实现区域特定的理解方面仍存在显著差距。目前,使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题,我们提出了一种新颖的多模态模型,能够解码任意(自由形式)视觉提示。这使得用户可以通过自然提示(如“红色边框”或“指向箭头”)直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上,避免了复杂的区域编码,同时在区域理解任务上,如Visual7W、PointQA和视觉常识推理基准测试中,达到了最先进的性能。

2025-07-07 08:47:55 1008

原创 大型语言模型中的提示工程系统综述:技术与应用

提示工程已成为扩展大型语言模型(LLMs)和视觉语言模型(VLMs)能力的不可或缺的技术。这种方法利用任务特定的指令(称为prompt),在不修改核心模型参数的情况下增强模型效能。与更新模型参数不同,prompt 仅通过给定指令即可引出所需的模型行为,从而实现预训练模型在下游任务中的无缝集成。prompt 可以是提供上下文以引导模型的自然语言指令,也可以是激活相关知识的学习向量表示。这一新兴领域已在诸如问答、常识推理等多种应用中取得了成功。然而,目前仍缺乏对提示工程中各种方法和技术的系统组织与理解。

2025-07-07 08:06:15 992

原创 大型语言模型中的自动化思维链提示

大型语言模型(LLMs)能够通过生成中间推理步骤来执行复杂的推理任务。为提示演示提供这些步骤的过程被称为思维链(CoT)提示。CoT提示有两种主要范式。一种使用简单的提示语,如“让我们一步一步思考”,在回答问题之前促进逐步思考。另一种则逐个使用一些手动示范,每个示范包含一个问题和一个推理链,最终得出答案。第二种范式的优越性能依赖于逐个手工制作任务特定的示范。我们展示了通过利用带有“让我们一步一步思考”提示的LLMs生成推理链来逐个构建示范,这样可以消除手动制作的工作。

2025-07-06 20:11:08 955

原创 GIT: 一个用于视觉与语言的生成式图像到文本转换 Transformer

近年来,在视觉-语言(VL)预训练方面取得了巨大的进展,特别是在基于大规模图文对数据的研究,例如 CLIP(Radford et al., 2021)、Florence(Yuan et al., 2021)和 SimVLM(Wang et al., 2021b)。所学习的表示极大地提升了各种下游任务的性能,如图像字幕生成(Lin et al., 2014)、视觉问答(VQA)(Goyal et al., 2017)以及图文检索。

2025-07-06 20:03:56 757

原创 Longformer:长文档Transformer

基于Transformer的模型由于其自注意力机制的操作,无法处理长序列,因为其计算复杂度随序列长度呈二次方增长。为了解决这个问题,我们提出了Longformer,其注意力机制的计算复杂度随着序列长度线性增长,使得处理成千上万标记或更长的文档变得更加容易。Longformer的注意力机制可以作为标准自注意力的替代,并结合了局部窗口注意力和任务驱动的全局注意力。

2025-07-06 19:32:08 908

原创 SANTACODER:脚踏实地,勿好高骛远!

BigCode项目是一个开放科学合作项目,致力于负责任地开发用于代码的大型语言模型。本技术报告描述了截至2022年12月该合作的进展,概述了个人身份信息(PII)脱敏管道的当前状态、为降低模型架构风险而进行的实验,以及研究训练数据更好预处理方法的实验。我们在The Stack(Kocetkov等人,2022)的Java、JavaScript和Python子集上训练了11亿参数的模型,并在MultiPL-E文本到代码基准测试(Cassano等人,2022)上对其进行了评估。

2025-07-05 11:25:24 651

原创 FLAN-T5:规模化指令微调的语言模型

在将数据集表述为指令的形式上进行语言模型微调,已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调,特别关注以下三个方面:(1) 任务数量的扩展,(2) 模型规模的扩展,以及 (3) 基于链式思维(chain-of-thought)数据的微调。我们发现,结合上述方面的指令微调显著提升了多种模型类别(如PaLM、T5、U-PaLM)、提示设置(如零样本、少样本、链式思维)以及评估基准(如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。

2025-07-05 11:02:57 712 1

原创 ERNIE:通过知识集成增强表征

我们提出了一种通过知识增强的语言表征模型,称为ERNIE(通过知识集成的增强表征)。受BERT(Devlin等,2018)掩码策略的启发,ERNIE旨在通过知识掩码策略(包括实体级掩码和短语级掩码)来学习增强的语言表征。实体级策略掩码通常由多个词组成的实体,短语级策略掩码由多个词组成的概念单元短语。实验结果表明,ERNIE优于其他基线方法,在五项中文自然语言处理任务(包括自然语言推理、语义相似度、命名实体识别、情感分析和问答)中取得了新的最先进成果。

2025-07-05 10:52:57 668

原创 LongT5: 针对长序列的高效文本到文本Transformer

我们选择摘要任务作为模型基准测试(benchmark),因为 摘要任务需要处理长上下文(long context)并进行文本生成(generative nature)。

2025-07-05 10:25:59 592

原创 GIT:一种用于视觉与语言的生成式图像转文本Transformer

本文中,我们设计并训练了一种生成式图像到文本的Transformer,称为 GIT,以统一图像/视频描述和问答等视觉-语言任务。尽管生成式模型在预训练与微调阶段提供了一致的网络架构,现有方法通常包含复杂的结构(单模态/多模态编码器/解码器),并依赖于外部模块,如目标检测器、标签器和光学字符识别(OCR)。在 GIT 中,我们将架构简化为一个图像编码器和一个文本解码器,并统一为单一的语言建模任务。我们还扩大了预训练数据规模和模型规模,以提升性能。

2025-07-05 10:18:28 797

原创 SqueezeBERT:计算机视觉能为自然语言处理在高效神经网络方面带来哪些启示?

人类每天阅读和撰写数千亿条消息。得益于大规模数据集、高性能计算系统和更优的神经网络模型,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了显著进展。因此,将 NLP 部署于各类应用中,以帮助网页用户、社交网络和企业具有重要价值。特别是,我们认为智能手机和其他移动设备是大规模部署 NLP 模型的关键平台。然而,当今高精度的 NLP 神经网络模型(如 BERT 和 RoBERTa)计算开销极大,例如在 Pixel 3 手机上运行 BERT-base 对一个文本片段进行分类需要约 1.7 秒。

2025-07-05 10:05:38 860

原创 Nystromformer:一种基于 Nyström 方法的自注意力近似算法

Transformer 已经成为广泛自然语言处理任务中的强大工具。推动 Transformer 展现出卓越性能的一个关键组件是 self-attention 机制,它对每个 token 编码了其他 token 的影响或依赖关系。虽然 self-attention 机制具有诸多优势,但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用 —— 这是当前社区积极研究的一个主题。为了解决这一限制,我们提出了—— 一个在序列长度方面具有良好可扩展性的模型。

2025-07-05 09:50:48 409

原创 mLUKE:多语言预训练语言模型中实体表征的力量

最近的研究表明,利用维基百科实体的跨语言对齐信息可以有效改进多语言预训练语言模型。然而,现有方法仅在预训练中利用实体信息,并未在下游任务中显式使用实体。在本研究中,我们探讨了在下游跨语言任务中利用实体表征的有效性。我们训练了一个包含24种语言的多语言语言模型,并展示了该模型在各种跨语言迁移任务中始终优于基于词的预训练模型。我们还分析了该模型,关键发现是将实体表征融入输入中能够提取更多语言无关的特征。我们还通过mLAMA数据集的多语言完形填空任务评估了该模型。

2025-07-04 10:49:24 788

原创 ProphetNet:为序列到序列预训练预测未来N元语法

本文提出了一种新的序列到序列预训练模型,称为ProphetNet。该模型引入了一种新颖的自监督目标,称为未来n元语法预测,并提出了n流自注意力机制。与传统序列到序列模型优化单步预测不同,ProphetNet通过n步预测进行优化,即在每个时间步同时预测接下来的n个词元,基于之前的上下文词元。未来n元语法预测显式地鼓励模型为未来的词元进行规划,并防止在强局部相关性上过拟合。我们分别使用基础规模数据集(16GB)和大规模数据集(160GB)对ProphetNet进行预训练。

2025-07-04 10:41:49 375

原创 FocalNet:焦点调制网络

我们提出了焦点调制网络(简称 FocalNets),在该网络中,自注意力(self-attention,SA)被完全替换为焦点调制模块,用于建模视觉中的 token 交互。焦点调制由三个组件组成:(i)焦点上下文化(focal contextualization),通过一组深度可分离卷积层实现,用于从短程到长程编码视觉上下文;(ii)门控聚合(gated aggregation),选择性地将上下文聚合到每个查询 token 的调制器中;

2025-07-04 10:35:42 1008

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

2025-04-07

大模型微调:Lora生成任务大模型模型微调示例demo

大模型微调:Lora生成任务大模型模型微调示例demo

2025-04-07

大模型微调:Lora进行自然语言理解任务示例demo

大模型微调:Lora进行自然语言理解任务示例demo,主要针对自然语言理解任务样例

2025-04-07

统计学习方法.李航 (1).pdf

《统计学习方法》是李航教授撰写的一本经典机器学习教材,系统介绍了统计学习的基本概念、核心算法和理论推导,涵盖感知机、朴素贝叶斯、决策树、支持向量机、隐马尔可夫模型等方法。语言简洁、数学推导清晰,是理解传统机器学习原理、构建理论基础的重要读物,深受学生与工程师欢迎。

2025-04-04

深度学习与交通大数据实战V2.0版

深度学习算法在交通大数据中应用,包含需求预测、流量预测、速度预测、不确定性时空建模

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除