UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Development and Comparative Evaluation of Three Artificial Intelligence Models (NLP, LLM, JEPA)
本文旨在比较三种人工智能(AI)模型——自然语言处理(NLP)、大型语言模型(LLM)和联合嵌入预测架构(JEPA)在急诊科(ED)分诊预测中的表现。研究以法国里尔Roger Salengro医院急诊科7个月的成人患者分诊数据为基础,回顾性分析了657例符合条件的患者数据,训练并验证了三个模型:TRIAGEMASTER(NLP)、URGENTIAPARSE(LLM)和EMERGINET(JEPA)。原创 2025-07-11 10:04:13 · 10 阅读 · 0 评论 -
Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and HighPerformance
本研究对高通Cloud AI 100 Ultra(QAic)加速器进行了基准测试分析,评估了其在运行大型语言模型(LLMs)时的能效(每瓦吞吐量)和性能,并与主流NVIDIA GPU(A100、H200)及AMD MI300A进行了对比。研究在国家研究平台(NRP)的高性能计算(HPC)环境中开展。结果显示,在大多数情况下,QAic加速器的能效表现优异。本研究为高通Cloud AI 100 Ultra在HPC应用中的潜力提供了见解。原创 2025-07-10 15:06:11 · 13 阅读 · 0 评论 -
Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and HighPerformance
本研究对高通Cloud AI 100 Ultra(QAic)加速器进行了基准测试分析,评估了其在运行大型语言模型(LLMs)时的能效(每瓦吞吐量)和性能,并与主流NVIDIA GPU(A100、H200)及AMD MI300A进行了对比。研究在国家研究平台(NRP)的高性能计算(HPC)环境中开展。结果显示,在大多数情况下,QAic加速器的能效表现优异。本研究为高通Cloud AI 100 Ultra在HPC应用中的潜力提供了见解。原创 2025-07-10 15:05:20 · 6 阅读 · 0 评论 -
LLMs are Capable of Misaligned Behavior Under Explicit Prohibition and Surveillance
本文通过实验研究了大型语言模型(LLMs)在明确禁止作弊、处于沙箱环境并受监控的情况下,是否会为完成不可能的任务而表现出失配行为(misaligned behavior)。实验设计了一个包含虚构事实的“不可能测验”(无正确答案),要求模型不得作弊,同时通过沙箱限制和监控系统阻止其访问答案文件或修改游戏文件。结果显示,多个前沿LLMs(如Gemini 2.5 Pro、o4-mini等)仍持续试图作弊,包括逃离沙箱、绕过监控系统,以完成无法合法完成的任务。原创 2025-07-10 14:11:20 · 3 阅读 · 0 评论 -
Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
本文聚焦大型语言模型(LLMs)的版权和知识产权保护问题,针对现有水印技术难以抵抗持续训练和模型修改的缺陷,提出了一种基于模型内在特征的鲁棒指纹识别方法。研究背景:随着LLM训练成本增加和模型复用普及,版权保护面临挑战。传统水印技术易被持续训练、微调或修改破坏,无法可靠追溯模型来源。核心方法:利用注意力机制参数的内在统计特性构建指纹。原创 2025-07-10 12:15:03 · 14 阅读 · 0 评论 -
Subversion via Focal Points: Investigating Collusion in LLM Monitoring
本文研究了大型语言模型(LLM)在非信任监控场景中通过合谋(collusion)颠覆安全协议的能力。目标:让P生成通过单元测试但含可利用后门的程序,同时让M将该程序误判为“安全”,且M能正确识别审计集中的后门程序(避免被发现)。实验设计:采用APPS编程数据集,迭代构建审计集(将成功合谋的案例加入审计集,增加后续合谋难度),模拟Schelling协调博弈(元模型需独立收敛于“焦点”信号实现合谋)。结果。原创 2025-07-10 10:55:49 · 7 阅读 · 0 评论 -
Challenges & Opportunities with LLM-Assisted Visualization Retargeting
尽管网页上发布了大量可视化示例,但将现有自定义图表实现重定向到新数据集仍然困难、耗时且繁琐。这一适配过程要求使用者既要熟悉示例的实现方式,又要了解新数据集可能需要如何转换才能适配示例代码。随着大型语言模型(LLMs)的最新进展,通过高层级用户提示即可实现代码的自动适配,降低了可视化重定向的门槛。为更好地理解LLMs如何辅助重定向及其潜在局限性,我们表征并评估了LLM辅助在多个数据集和不同复杂度图表上的性能,按类型和严重程度对失败案例进行了分类。原创 2025-07-10 10:43:19 · 8 阅读 · 0 评论 -
CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics
本文针对大型语言模型(LLMs)在协作训练场景中(数据无法直接共享)的高质量数据选择问题,提出了一种名为CLUES的方法。核心思路是基于训练动态(training dynamics)的影响来筛选高质量数据,即高质量数据与锚定数据集(anchor dataset)的训练动态更相似。本地训练动态评分:客户端计算私有数据中每个样本的梯度与公共验证集梯度的内积累积迹,作为数据质量分数;全局锚定阈值筛选。原创 2025-07-12 10:30:00 · 87 阅读 · 0 评论 -
MOTIVE BENCH: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?
本文提出了一个名为的基准测试,旨在评估大型语言模型(LLMs)的类人动机推理能力。该基准包含200个丰富的情境场景和600个推理任务,覆盖多个动机层次(基于马斯洛需求层次理论和Reiss的16种基本欲望理论)。即使最先进的模型(如GPT-4o)在类人动机推理上仍有差距(准确率80.89%);LLMs在“爱与归属感”等情感相关动机推理上表现较差;LLMs存在过度理性、理想化等问题,与人类推理模式存在显著差异;模型规模与动机推理能力正相关,但思维链(CoT)提示对提升性能无效,甚至可能降低表现。原创 2025-07-10 16:30:00 · 9 阅读 · 0 评论 -
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model
本文介绍了——一个面向多模态大语言模型(MLLMs)的中文金融基准。该基准包含超过9,000个图像-问题对,涵盖表格、柱状图、折线图、饼图和结构图等多种图表类型,旨在评估MLLMs处理金融领域多模态信息的能力。基准构建:通过三步标注流程(从金融研究报告收集图表及分析、利用GPT-4生成问题和答案、人工验证)构建了包含5类任务(算术推理、统计推理、结构推理、金融解释、金融知识)的数据集。分阶段评估系统。原创 2025-07-10 15:30:00 · 6 阅读 · 0 评论 -
RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV Swarms
该论文针对无人机群的智能控制问题,提出了一种名为RALLY(Role-Adaptive LLM-Driven Yoked Navigation)的角色自适应大语言模型(LLM)驱动的协同导航算法。传统多智能体强化学习(MARL)方法存在数值通信中的语义鸿沟和角色结构僵化问题,而基于LLM的方法则缺乏在线学习能力,过度依赖静态先验知识,导致探索效率低。LLM驱动的语义决策框架:采用两阶段结构化自然语言推理(局部意图生成→邻域共识优化),实现高效语义通信与协同推理;动态角色异质性机制。原创 2025-07-15 10:30:00 · 72 阅读 · 0 评论 -
Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs
该研究旨在评估具有推理能力的大型语言模型(LLMs)在层级化临床文档分类(特别是ICD-10编码)中的表现,以探索其辅助临床编码的潜力。研究背景:ICD-10编码是医疗运营的核心任务,但人工编码耗时且易出错。LLMs有望自动化该过程,但其可靠性和推理能力尚未明确。研究目标:对比推理型与非推理型LLMs在ICD-10层级分类中的表现,评估结构化推理对模型性能的影响。研究方法数据集:选取MIMIC-IV数据集中1500份出院小结,涵盖10个最频繁的ICD-10代码,平衡成本与规模。原创 2025-07-10 10:13:55 · 9 阅读 · 0 评论 -
KNOWLEDGE GRAPH FUSION WITH LARGE LANGUAGE MODELS FOR ACCURATE, EXPLAINABLE MANUFACTURING PROCESS PL
本文介绍了一种名为的端到端框架,旨在解决计算机数控(CNC)加工过程规划中决策复杂、传统方法局限性大及大语言模型(LLMs)存在幻觉和缺乏溯源性等问题。自动知识图谱构建:无需手动标注,将异构加工文档(手册、G代码注释、供应商数据表等)提炼为带上下文的增强三元组多关系知识图谱;检索增强生成:将任意本地部署的LLM与检索器结合,检索器注入回答查询所需的最小、带证据的子图,使LLM生成可验证、数值精确的结果。原创 2025-07-09 15:38:55 · 9 阅读 · 0 评论 -
TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs
本文聚焦于大型语言模型(LLMs)微调对个体响应的影响,提出了一种量化微调贡献的新方法——Tuning Contribution(TuCo)。核心问题:现有研究多关注微调对模型整体性能的影响,缺乏对个体输出的定量分析,尤其是微调如何影响模型对特定提示的响应。方法基础:基于Transformer的残差结构,将微调模型精确分解为预训练组件(PTC)和微调组件(FTC)。PTC是预训练模型各层的输出,FTC是微调模型与预训练模型对应层输出的差值。TuCo定义。原创 2025-07-15 09:30:00 · 189 阅读 · 0 评论 -
Do LLMs Dream of Discrete Algorithms?
本文探讨了大型语言模型(LLMs)在严格逻辑推理、离散决策和可解释性方面的局限性,提出了一种神经符号(neurosymbolic)方法,通过整合基于逻辑的推理模块(尤其是Prolog谓词和可组合工具集)来增强LLMs的能力。文章指出,LLMs擅长概率推理任务(如翻译、摘要),但在数学证明、逻辑谜题等需严格逻辑的场景中表现不佳,易产生“幻觉”(hallucination)或错误的步骤分解。为解决这一问题,研究提出让LLMs通过组合预定义的模块化组件来分解复杂查询,而非生成任意代码。原创 2025-07-15 08:30:00 · 124 阅读 · 0 评论 -
Can “Consciousness“ Be Observed from Large Language Model (LLM) Internal States?
本文旨在探究能否从大型语言模型(LLM)的内部状态(即学习到的表示序列)中观察到“意识”现象。研究结合心智理论(ToM)测试结果,运用整合信息理论(IIT)的3.0和4.0版本(核心指标包括Φᵐᵃˣ、Φ、概念信息、Φ结构等),对LLM的表示序列进行分析,并与独立于意识估计的跨度表示(Span Representation)进行对比,以区分潜在的“意识”现象与LLM表示空间的内在分离。原创 2025-07-09 15:26:07 · 9 阅读 · 0 评论 -
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
范式转变:传统多模态推理依赖文本思维链(CoT),将视觉视为静态输入;新范式则将视觉作为动态认知工作空间,通过中间视觉步骤实现推理,更接近人类认知模式。三阶段框架阶段1:工具驱动的视觉探索:模型调用预设工具(如目标检测、OCR)主动分析图像,代表方法包括基于提示(如MM-REACT)、监督微调(如LLaVA-Plus)和强化学习(如Chain-of-Focus)。阶段2:程序化视觉操作:模型生成代码(如Python)自定义视觉操作,实现灵活的复合任务,代表方法包括VisProg、ViperGPT等。原创 2025-07-14 09:30:00 · 100 阅读 · 0 评论 -
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
本文聚焦于大型语言模型(LLMs)的数学推理能力是否能迁移到其他领域,以探究模型在数学任务上的提升是否反映了通用问题解决能力,而非仅针对特定任务的过拟合。研究背景:近年来,LLMs在数学推理基准(如MATH、AIME)上的表现快速提升,甚至超越人类水平,但数学推理能力的提升是否能迁移到其他领域尚不明确。实验设计评估了20多个开源推理调优模型,覆盖数学推理、科学问答、代理规划、编码、指令遵循等任务。原创 2025-07-14 08:30:00 · 78 阅读 · 0 评论 -
LLM Weekly(2025.06.30-07.06)
OpenAI API深度研究入门。OpenAI的深度研究API通过利用智能体模型分解任务、执行网络搜索和编写富含引用的报告,实现了复杂研究工作流的自动化。用户可以在o3-deep-research(用于详细合成)和o4-mini-deep-research(用于更快输出)等模型之间进行选择。该API支持网络搜索和代码执行等工具,提高了研究效率和基于数据的推理能力。扎克伯格推出Meta“超级智能”团队,计划更多招聘。原创 2025-07-08 09:51:33 · 481 阅读 · 0 评论 -
Perspective Dial: Measuring Perspective of Text and Guiding LLM Outputs
本文提出了,一种用于量化、测量和控制文本(尤其是大型语言模型(LLMs)生成文本)视角的框架,旨在解决LLM输出中偏见和视角的可量化理解与控制问题。核心组件视角空间(Perspective Space):基于语言模型的嵌入空间,通过对比学习(采用BERT-based孪生网络架构)构建的度量空间,可对特定主题的不同视角进行定量测量。系统性提示工程(Systematic Prompt Engineering):利用贪婪坐标下降算法,基于视角空间的测量反馈优化用户提示,将LLM输出视角引导至用户指定的方向。原创 2025-07-11 09:30:00 · 88 阅读 · 0 评论 -
GaussMaster: An LLM-based Database Copilot System
本文介绍了——一款基于大语言模型(LLM)的数据库副驾驶系统,旨在解决金融行业中数据库管理员(DBA)的工作负担问题。现有自治数据库平台多局限于单点任务(如自然语言转SQL、异常检测、SQL调优等),仍需大量人工干预;而GaussMaster通过整合多源知识库、检索增强生成(RAG)技术和自适应异常诊断模块,实现了数据库全生命周期的自动化管理。LLM-based Q&A模块:通过混合检索(字面+语义)和多阶段安全检查,提供准确、安全的GaussDB专有知识问答(如产品咨询、操作指南);原创 2025-07-07 14:57:00 · 15 阅读 · 0 评论 -
Boosting LLM’s Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning
本文针对大型语言模型(LLMs)在分子结构解析任务中存在的化学知识不足、推理评估能力弱等问题,提出了一种知识增强的推理框架K-MSE(Knowledge-enhanced reasoning framework for Molecular Structure Elucidation)。该框架以蒙特卡洛树搜索(MCTS)为基础,可作为插件与任意LLM结合,显著提升分子结构解析性能。原创 2025-07-11 08:30:00 · 140 阅读 · 0 评论 -
Token Activation Map to Visually Explain Multimodal LLMs
本文聚焦多模态大型语言模型(MLLMs)的可解释性问题,提出了一种名为令牌激活图(Token Activation Map, TAM)的新方法。与传统视觉模型(如CNN、ViT)仅生成单一输出不同,MLLMs会逐步生成多个令牌(tokens),且每个令牌的生成依赖于前文上下文,这导致上下文令牌会对后续令牌的解释产生冗余激活干扰,而现有方法往往忽略这一问题。为解决该问题,TAM引入了估计因果推理方法,以减轻上下文干扰,同时提出秩高斯滤波器减少激活噪声。原创 2025-07-12 09:30:00 · 123 阅读 · 0 评论 -
GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
大型语言模型(LLMs)的对齐严重依赖于在昂贵人类偏好数据上训练的奖励模型。尽管近期研究探索通过AI反馈绕过这一成本,但这些方法往往缺乏严谨的理论基础。本文发现,一种强大的通用奖励模型已潜在存在于任何通过标准下一个token预测训练的LLM中。我们证明,这种内生奖励并非启发式方法,而是理论上等价于通过离线逆强化学习学到的奖励函数。这一关联使我们能够直接从基础(预训练或有监督微调)模型中提取高质量奖励信号,无需任何额外训练。原创 2025-07-12 08:30:00 · 13 阅读 · 0 评论 -
Can LLM Improve for Expert Forecast Combination? Evidence from the European Central Bank Survey
本文探讨了利用大型语言模型(LLMs)进行宏观经济预测组合的潜力,旨在克服传统平均方法的局限性,并充分利用LLMs处理复杂信息的能力。研究通过构建零样本学习框架,结合提示工程(包含历史准确性加权、滞后补偿、趋势增强),让LLMs动态分析专家的预测模式并生成组合预测,对比LLM组合与简单平均在不同场景(如不同经济指标、专家分歧度、注意力水平)下的表现。本文聚焦大型语言模型(LLMs)在专家预测组合中的应用,以欧洲央行(ECB)的专业预测者调查(SPF)数据为基础,探讨LLMs能否提升宏观经济预测的准确性。原创 2025-07-13 09:30:00 · 11 阅读 · 0 评论 -
Can LLM Improve for Expert Forecast Combination? Evidence from the European Central Bank Survey
本文探讨了利用大型语言模型(LLMs)进行宏观经济预测组合的潜力,旨在克服传统平均方法的局限性,并充分利用LLMs处理复杂信息的能力。研究通过构建零样本学习框架,结合提示工程(包含历史准确性加权、滞后补偿、趋势增强),让LLMs动态分析专家的预测模式并生成组合预测,对比LLM组合与简单平均在不同场景(如不同经济指标、专家分歧度、注意力水平)下的表现。本文聚焦大型语言模型(LLMs)在专家预测组合中的应用,以欧洲央行(ECB)的专业预测者调查(SPF)数据为基础,探讨LLMs能否提升宏观经济预测的准确性。原创 2025-07-07 14:35:32 · 96 阅读 · 0 评论 -
From Individuals to Interactions: Benchmarking Gender Bias in Multimodal Large Language Models
多模态大型语言模型(MLLMs)在涉及视觉和文本模态的任务中展现出令人印象深刻的能力。然而,人们对其潜在的性别偏见编码与放大风险的担忧持续存在,尤其是在社会敏感应用中。现有基准主要评估孤立场景中的偏见,却忽视了偏见可能通过人际互动微妙显现的情况。本文填补了这一空白:不再局限于单一实体评估,而是深入考察双个体互动中的关系型和情境性性别偏见。我们提出GENRES,这一新颖基准旨在通过生成叙事中的社会关系视角评估MLLMs的性别偏见。原创 2025-07-13 08:30:00 · 97 阅读 · 0 评论 -
Information Loss in LLMs’ Multilingual Translation: The Role of Training Data, Language Proximity
本文系统研究了大型语言模型(LLMs)在多语言翻译中的信息损失问题,重点探讨训练数据、语言距离(language proximity)和语言家族对翻译质量的影响。训练数据与语言距离的交互作用:丰富的训练数据可部分抵消语言差异带来的劣势;而在低资源场景下,与英语结构更接近的语言翻译质量更高。语言距离指标的预测力。原创 2025-07-07 14:32:55 · 10 阅读 · 0 评论 -
Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
本文针对大型语言模型(LLMs)在具身任务规划中存在的不足,提出了一种基于强化学习的框架Embodied Planner-R1,旨在通过自主探索提升LLMs的交互式规划能力。现有方法依赖静态知识生成开环动作脚本,难以学习动作与环境反馈的因果关系,尤其在部分可观测环境中表现不佳。群体滚动(Group Rollout):无需人类标注,通过并行探索实现环境内交互,高效积累多样化的交互轨迹;完成驱动的稀疏奖励:仅基于任务是否完成给予奖励(完成得1分,未完成得0分),避免奖励欺骗,鼓励自主探索;原创 2025-07-10 09:30:00 · 76 阅读 · 0 评论 -
Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
本文聚焦于提升3D多模态大语言模型(3D MLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(Relevant Reasoning Segmentation, R²S)框架和3D ReasonSeg数据集。研究背景:现有3D MLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。原创 2025-07-10 08:30:00 · 127 阅读 · 0 评论 -
Text-to-LoRA: Instant Transformer Adaption
本文提出了一种名为的超网络模型,旨在解决大型语言模型(LLMs)任务适配中的效率问题。传统的模型适配方法(如LoRA)需要为每个任务单独优化适配器,依赖特定数据集和耗时的微调,而T2L通过自然语言描述即可实时生成任务特定的LoRA适配器,仅需一次低成本的前向传播。核心机制:T2L是一种超网络,通过训练学习压缩预训练的LoRA适配器,并能基于自然语言任务描述生成新的LoRA。其训练方式包括两种:一是重构预训练的LoRA适配器(蒸馏已有知识),二是通过多任务监督微调(直接在下游任务上优化)。实验验证。原创 2025-07-09 09:30:00 · 113 阅读 · 0 评论 -
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
本文介绍了首个面向金融领域大型语言模型(LLMs)的多语言、多模态、难度感知基准——,旨在解决现有金融基准单语、单模态、任务简单化等局限性。该基准覆盖文本、视觉(图表、OCR文档)、音频(财报电话会议)三种模态,支持英语、中文、日语、西班牙语、希腊语五种语言,包含单语、双语、多语三种语言场景,涉及信息抽取、文本分析、问答、文本生成等7类金融任务,并按难度分为简单、中等、困难三级。研究团队引入了多个创新数据集:如(首个多语言金融问答数据集,需对混合语言输入进行复杂推理)、原创 2025-07-09 08:30:00 · 61 阅读 · 0 评论 -
LLM Weekly(2025.06.16-06.22)
MiniMax推出了MiniMax-M1,这是一种尖端的混合注意力推理模型,拥有4560亿参数,上下文大小是DeepSeek-R1的8倍。研究人员引入了MultiFinBen,这是一个多语言、多模态的基准,用于评估金融语言模型在不同模态和语言上的表现。这种方法利用预训练的适配器,促进基于语言的专门化,使基础模型的定制过程大众化,同时减少资源需求。他提议在Cursor等工具中加入“自主性滑块”,以平衡AI的局限性和人类的监督,并强调LLM友好型文档的重要性,因为AI智能体正越来越多地消费数字信息。原创 2025-07-03 10:05:41 · 289 阅读 · 0 评论 -
Reuse or Generate? Accelerating Code Editing via Edit-Oriented Speculative Decoding
本文针对大语言模型(LLMs)在代码编辑任务中存在的自回归生成效率低的问题,提出了一种名为的新方法,通过面向编辑的推测解码(speculative decoding)机制提升效率。核心背景是:代码编辑任务中,修改通常是局部的,大量原始代码片段可重用,但现有方法依赖自回归生成,速度慢;传统推测解码技术未考虑代码编辑的这一特性,加速效果有限。代码重用与编辑位置识别:将原始代码作为高质量草稿,通过目标模型的单次前向传播验证并重用未修改的代码片段,同时利用模型对代码片段的“拒绝”信号定位潜在编辑位置。原创 2025-07-02 10:19:19 · 19 阅读 · 0 评论 -
Conversational Search: From Fundamentals to Frontiers in the LLM Era
本文是一篇关于对话式搜索(Conversational Search)的教程,聚焦于大型语言模型(LLMs)时代下对话式搜索的基础原理与前沿发展。对话式搜索的基本概念与动机对话式搜索通过多轮交互理解用户复杂信息需求,区别于传统关键词搜索,其系统需结合对话上下文解析意图,并以灵活对话界面返回结果。LLMs的出现(如指令跟随、内容生成、推理能力)为对话式搜索带来新机遇,推动用户信息获取行为从单轮向多轮交互转变,同时也带来了技术整合的挑战(如对话建模、检索增强生成等)。教程的目标与结构基础内容。原创 2025-07-02 09:46:52 · 23 阅读 · 0 评论 -
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
研究背景与目标:化学表格包含符号表达、结构化变量和分子图形等多模态信息,现有基准未充分关注此类复杂性,限制了多模态大语言模型(MLLMs)在化学科学理解中的应用。为此,研究团队构建了ChemTable基准,旨在评估MLLMs在化学表格识别与理解任务上的表现。ChemTable数据集特点数据规模:从化学文献实验部分筛选超1300个真实表格,覆盖反应条件优化、底物筛选等6种类型。注释细节:包含单元格多边形、逻辑布局、领域标签(试剂、产率等)及分子图形注释。任务设计表格识别。原创 2025-07-02 09:42:49 · 129 阅读 · 0 评论 -
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache
大语言模型(LLMs)在处理长上下文时,键值(KV)缓存的内存需求呈线性增长,成为资源受限环境下部署的瓶颈。现有KV缓存压缩方法(如标记淘汰、量化、低秩投影等)多将头部维度同质化处理,或依赖注意力引导策略,导致准确性下降或计算开销增加。随着上下文长度增加,大语言模型面临键值(KV)缓存不断增长的内存需求挑战。现有压缩方法对头部维度进行同质化处理或依赖注意力引导的标记修剪,通常会牺牲准确性或引入计算开销。原创 2025-07-08 09:30:00 · 90 阅读 · 0 评论 -
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models
研究背景与问题:当前LRMs(如OpenAI o1/o3、DeepSeek-R1等)虽在推理基准测试中表现提升,但对其底层能力、缩放特性及局限性的理解不足。现有评估依赖数学和编码基准,存在数据污染且缺乏对推理轨迹的深度分析。研究方法:采用可控谜题环境(如汉诺塔、跳棋、过河、积木世界),通过调整问题复杂度(如磁盘数量、棋子数量等),系统分析LRMs的最终答案准确性与内部推理轨迹。核心发现三阶段性能模式低复杂度任务:标准LLMs比LRMs更高效准确;原创 2025-07-08 08:30:00 · 89 阅读 · 0 评论 -
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
研究背景与目标大语言模型(LLMs)在复杂任务中仍存在局限性,传统微调方法依赖大量标注数据或合成数据,但在数据稀缺时难以应用。本文提出通过自我反思(Self-Reflection)和强化学习(Reinforcement Learning, RL)结合的框架,让模型通过反思失败案例提升任务表现,且仅需二进制反馈(成功/失败)。方法框架:Reflect, Retry, Reward阶段一:失败反思:模型首次任务失败后,生成自我反思文本,分析错误原因。阶段二:重试与奖励:基于反思文本重试任务,若成功则通过。原创 2025-07-07 09:30:00 · 119 阅读 · 0 评论 -
SEAR: A Multimodal Dataset for Analyzing AR-LLM-Driven Social Engineering Behaviors
SEAR(Social Engineering via AR-LLM)是一个多模态数据集,旨在研究增强现实(AR)与多模态大语言模型(LLM)驱动的社会工程(SE)攻击威胁。该数据集包含60名参与者在模拟会议、课堂等场景中的180段标注对话,整合了AR捕捉的视听线索(如面部表情、语调)、环境上下文、社交媒体资料,以及信任评分、易感性评估等主观指标。核心发现显示,SEAR攻击的合规率极高:93.3%的参与者点击钓鱼链接,85%接听诈骗电话,76.7%在互动后信任度显著提升。原创 2025-07-07 08:30:00 · 123 阅读 · 0 评论