- 博客(355)
- 收藏
- 关注
原创 Emergent Symbolic Mechanisms(涌现符号机制)
普林斯顿团队在ICML 2025提出"涌现符号机制"理论,揭示大型语言模型(LLM)内部自发形成的符号处理架构如何支撑抽象推理能力。研究通过分析Llama3-70B等模型,发现三类协同工作的符号化组件:符号抽象头(将输入转化为抽象变量)、符号归纳头(进行规则推理)和检索头(映射回具体输出)。该机制在数学、逻辑和长程推理任务中带来61.4%的性能提升,并成功应用于自动定理证明、法律分析和科学假设生成等场景。虽然存在领域迁移和复杂规则处理等挑战,但该理论为LLM实现可靠、高效的强人工智能提供
2025-07-14 12:29:48
452
原创 Memory and Reasoning Synergy(记忆与推理协同) 技术深度解析
新加坡-MIT联合团队2025年6月提出的 Memory and Reasoning Synergy(记忆与推理协同) 技术的深度解析,涵盖核心原理、技术实现、性能优势及行业应用场景:
2025-07-14 12:27:49
551
原创 Cognitive Tools(认知工具,结构化提示模板)技术介绍及使用场景说明
摘要:IBM苏黎世研究院2025年提出的Cognitive Tools技术,基于认知心理学ACT-R理论,构建了包括问题理解、知识检索、答案检查和回溯四大模块的推理框架。通过结构化提示和模块化协作流程,该技术在数学推理(AIME 2024测试准确率提升61%-127%)、法律审查(4分钟识别高风险条款)和医疗诊断(F1分数达0.89)等场景表现优异。其核心创新在于隔离上下文窗口和动态路径优化,无需额外训练即可逼近顶级推理模型性能。未来将向多模态和量子语义学扩展,推动AI从“统计鹦鹉”向“推理伙伴”进化。
2025-07-14 12:25:18
605
原创 KenLM 高效 n-gram 语言模型库介绍及使用
KenLM 是一个高效开源 n-gram 语言模型库,提供 Python 接口 kenlm,广泛应用于 NLP 任务。支持源码编译(需 Boost 库)和 Python 安装,可加载二进制或文本模型。核心功能包括整句评分、细粒度得分分析和状态流评分,适用于文本纠错、语言模型训练等场景。通过比较候选句子的概率分数实现智能纠错(如 a/an 替换),并支持高阶 N-gram 和状态复用优化性能。最佳实践建议使用二进制模型加速加载,英文 2-gram、中文 3-gram 以上效果更佳。KenLM 以高效评分和灵活
2025-07-11 12:39:15
969
原创 DataFlow-编译 kenlm 库时缺少 C++ 编译器解决方案
编译kenlm库失败解决方案 编译kenlm库时出现缺少C++编译器(CMAKE_CXX_COMPILER)的错误,主要原因是系统缺少完整的编译工具链或GCC版本过低(当前为4.8.5)。提供三种解决方式: 安装完整开发工具链(推荐) 通过apt install build-essential cmake libboost-all-dev安装必备组件 使用Conda管理编译器 通过conda安装g++和cmake,并设置环境变量指向conda的编译器 跳过源码编译 尝试安装预编译包或先安装无需编译的依赖 附
2025-07-11 12:32:57
404
原创 CentOS安装Conda
CentOS系统安装Conda简明指南:提供Miniconda(推荐轻量版)和Anaconda两种安装方式。步骤包括下载脚本、验证完整性、运行安装并配置环境变量。重要优化配置:1)设置清华镜像源加速;2)创建Python虚拟环境;3)安装常用数据科学包。附常见问题解决方案(环境变量/SSL错误)及基础管理命令表。注意事项:建议普通用户安装、固定Python版本并定期清理缓存。验证方式为成功导入numpy等库并显示版本号。
2025-07-10 20:33:20
172
原创 英伟达H20与L20两款GPU的核心性能对比
英伟达H20与L20 GPU深度对比分析(2025版) H20采用Hopper架构,配备96GB HBM3显存和4TB/s带宽,支持NVLink多卡互联,适合千亿级大模型训练与高并发推理,但成本较高(八卡月租约120万元)。L20基于Ada Lovelace架构,提供更高FP32算力(59.8 TFLOPS)和更低功耗(275W),年租成本仅H20的1/35,是中小规模模型与边缘部署的经济选择。实测显示,H20在长文本生成吞吐量上领先63%,但L20首Token延迟更低。选型需权衡性能需求与预算:企业级超算
2025-07-10 12:28:32
962
原创 大模型参数全面说明
大模型参数全面解析:参数是神经网络中的可调权重,决定模型能力和知识存储。主流模型参数量级从1B到万亿级不等,70B是当前开源模型的"甜点规模"。参数规模直接影响硬件需求,70B模型训练需1.5TB+显存。优化技术包括量化、稀疏化和高效微调(如QLoRA可让24GB显卡运行65B模型)。应用建议:终端设备选1-4B,边缘计算用7-13B,云服务选70B+。未来趋势包括1-bit参数、动态扩展和生物神经网络技术,70B以下模型配合QLoRA已成为企业落地首选方案。
2025-07-10 12:23:03
411
原创 SFT&RLHF所需GPU资源换算关系
本文全面分析了大模型监督微调(SFT)和强化学习(RLHF)的GPU资源需求,提供了从7B到70B参数模型的硬件配置建议。核心内容包括:1)显存计算公式,涵盖参数、梯度、优化器等要素;2)不同规模模型的配置方案,如7B模型全量微调需2×A100,LoRA微调单卡即可;3)优化技术如4bit量化、LoRA等方法可显著降低显存需求;4)框架选型建议,包括本地训练和云服务方案。文章指出RLHF需求可达SFT的4-8倍,并针对不同资源条件提供了最优配置选择。
2025-07-09 12:40:12
612
原创 BizFinBench 全球首个深度贴合真实金融业务场景的大语言模型(LLM)
BizFinBench:首个金融业务场景AI评估基准发布 同花顺联合研究团队推出全球首个深度贴合金融业务的大模型评测基准BizFinBench,填补现有评估在金融复杂任务中的空白。该基准包含6,781条开源中文样本,覆盖数值计算、链式推理等五大维度九类任务,模拟真实业务场景如财报解析、股价归因等。评测采用创新的IteraJudge框架,通过三阶段评估揭示模型深层缺陷。测试25个主流模型显示:闭源模型在复杂推理领先15+分,但开源模型DeepSeek-R1在金融实体识别反超GPT-4o。该基准将成为金融AI发
2025-07-08 12:46:44
2175
原创 火山引擎 DataFinder简介
火山引擎DataFinder是一款企业级用户行为分析平台,提供全域数据采集、智能分析建模与场景化应用。其核心功能包括多端多源数据采集、10+分析模型及58套行业模板,支持秒级响应千亿级数据。技术架构创新体现在多ID映射、动态统计口径和集成生态,提升分析精准度40%。行业解决方案覆盖汽车、金融、零售等领域,如车机性能优化30%、金融转化率提升15%。作为数据飞轮核心引擎,DataFinder通过降本增效和生态协同,成为企业数智化转型的关键工具。建议企业优先选择高频场景试点,验证价值后扩展应用。
2025-07-08 12:41:38
709
原创 数据飞轮-企业数智化转型的核心范式
摘要: "数据飞轮"是企业数智化转型的核心模式,通过数据消费驱动数据资产建设与业务价值转化的双向循环,形成自增强效应。其架构包含数据消费层(业务场景驱动)和数据资产层(多模态整合),通过火山引擎工具链实现全生命周期管理。在互联网APP、汽车等行业实践中,显著提升用户留存、营销转化等指标。面对数据资源挑战,2.0版本引入智能体、多模态扩展等技术。该模式因缩短决策链路、降低成本等优势,正成为企业标配,建议从高频场景试点逐步扩展。(149字)
2025-07-07 18:55:36
507
原创 深度研究代理(Deep Research Agent)技术原理及应用实践
深度研究代理(Deep Research Agent)代表当前AI智能体的前沿进化形态,它通过动态任务拆解、多跳推理与工具协同实现复杂研究任务的闭环执行。以智谱开源的 AutoGLM Rumination 为代表,该技术已突破传统检索式AI的局限,展现出类人研究能力。
2025-07-07 14:06:26
1007
原创 Emu3(Emu Third Generation) 全球首个基于“下一个token预测”实现多模态原生统一理解与生成
智源研究院推出Emu3模型,实现文本、图像、视频三模态统一理解与生成,构建时空连续体表征,支撑自动驾驶、工业仿真等场景。
2025-07-07 13:13:10
639
原创 Slack App Directory AI代理核心入口
通过深度利用App Directory,企业可将Slack从通讯工具升级为智能工作中枢。重点提示:初期优先集成核心工具(≤5个),避免因通知过载降低使用体验
2025-07-05 13:01:48
828
原创 Slack 从 “团队协作工具“ 演进为企业级 AI 代理操作系统
Slack正从协作工具转型为企业级AI代理操作系统,通过与LangChain/Gentoro集成实现智能自动化闭环。其核心价值在于:1)作为实时事件触发器监听系统告警/用户指令;2)提供自然语言交互界面;3)支持跨系统自动化操作。典型应用包括智能客服(响应时间缩短90%)、运维自动化(故障处理效率提升88%)等。技术实现上,Slack被抽象为可编程工具,结合细粒度权限控制和安全审计,形成"消息即应用"的工作范式。数据显示,该方案可减少83%人力投入,95%跨系统操作耗时,成为企业AI落地
2025-07-05 12:56:26
994
原创 LangChain 准化解决方案Gentoro
Gentoro:企业级AI应用的集成解决方案 Gentoro是一个专为LangChain应用设计的集成平台,解决了生产部署中的核心痛点。它提供两大核心价值: 标准化企业集成:通过MCP协议统一认证流程,自动处理凭据管理和密钥轮转; 高效开发支持:自动生成工具并托管执行,消除胶水代码,将代理开发周期从数周缩短至数小时。 平台架构包含三大组件: 桥梁(工具执行环境) 服务(企业系统连接器) 工具(AI可调用的功能单元) 典型应用场景包括自动化运维(如Grafana监控联动JIRA创建工单)和跨系统工作流编排。G
2025-07-04 12:39:48
624
原创 LangChain OS:企业级AI OS基础平台
LangChain:企业级AI应用的模块化开发框架 LangChain是一个开源框架,专为构建基于大语言模型(LLM)的企业AI应用设计,提供模块化组件整合数据处理、模型调用和工具协作能力。其核心功能包括多模型统一接口、链式工作流、检索增强生成(RAG)和智能代理,支持复杂任务编排与自动化流程。企业级集成方面,LangChain通过Gentoro原生对接企业系统,标准化数据交换与安全管理,兼容微服务架构和低代码平台。典型应用场景涵盖智能知识管理、自动化流程和客户服务。尽管面临学习曲线陡峭等挑战,未来将聚焦多
2025-07-04 12:33:50
725
原创 AI OS整合Agent/RAG框架
摘要: AI OS通过整合Agent与RAG框架构建三层智能架构(资源调度、智能服务、应用交互),实现动态知识驱动决策。关键技术包括分层检索、轻量化部署及五层安全防护,已在企业中枢(华为MetaERP)、工业物联网(三一重工)等场景落地,提升效率200%、降低运维成本45%。未来将向数字孪生、脑机接口等方向演进,核心价值在于从工具升级为生态级“生产力网络”。开源框架如Dify.AI、LangChain OS助力开发者快速构建垂直场景闭环。
2025-07-04 12:31:18
854
原创 Agentic AI(代理式人工智能)
针对Agentic AI(代理式人工智能)的技术演进、行业应用与挑战的深度分析报告,综合全球权威机构数据与前沿实践,结合中国本土创新案例,为技术决策者提供全景洞察
2025-07-03 18:46:02
899
原创 欧盟AI法案、中国《生成式AI管理办法》规范数据隐私与算法歧视
全球协作:欧盟AI法案、中国《生成式AI管理办法》规范数据隐私与算法歧视;蚂蚁集团牵头联合国大模型安全标准。
2025-07-03 18:41:37
1054
原创 合成数据引擎技术
摘要: 合成数据引擎通过三层架构(输入层-生成核心-后处理层)融合LLM、GAN等技术,解决数据匮乏与隐私合规问题。关键技术包括:语义可控文本生成(逻辑连贯性提升37%)、多模态合成(如虚拟蛋白结构生成)、动态脱敏(符合GDPR)。行业应用广泛,如生物医疗缩短药物研发周期60%、金融风控合规成本降低90%。面临语义失真等挑战,采用RLHF校验等方案应对。未来将向因果合成、3D打印闭环等方向发展,成为破除数据垄断、激活隐私数据价值的关键工具。开源工具如Synthetic Data Vault助力技术普及。
2025-07-02 12:48:15
718
原创 AI for Science(AI4S)多模态大模型驱动科研深度解析
摘要: AI for Science(AI4S)多模态大模型通过融合文本、图像、3D数据等跨模态信息,构建了包含数据对齐、跨学科推理和科研决策输出的三层技术架构。其核心突破包括跨模态语义对齐(如AlphaFold3)、物理规律编码(误差降低至3%)、因果推理增强(靶向药有效性提升32%)和动态知识图谱(新材料研发周期缩短至8个月)。典型应用涵盖生物医学(药物设计成本降70%)、材料科学(逆向设计合金)及能源环境(弃电率降18%)。当前挑战包括模态偏差和物理约束冲突,未来将向科学大模型OS、量子-AI融合及可
2025-07-02 12:44:28
1122
原创 SUBLLM(Sub-sampling Bypass Module)原理解析及应用场景
摘要: SUBLLM是小米AI实验室提出的高效推理技术,通过动态子采样大幅减少计算量,结合语义恢复模块保障输出质量。其核心在于三阶段重构:热力图定位关键token进行非均匀采样(压缩率可达10倍),浅层子模型推理降低计算量,残差增强模块恢复完整语义。实测显示,Llama3-8B模型推理速度提升400%,显存占用减少74%。该技术适用于移动端AI、长文本处理等场景,已在小米14 Pro实现18 token/s的本地化运行。开源生态包含核心代码和Android部署工具,推动大模型向移动端普及。
2025-07-01 12:42:01
963
原创 清华AdaptThink原理解析及应用场景
摘要: 清华大学KEG实验室提出的NoThinking框架(AdaptThink)通过强化学习动态平衡大语言模型的推理深度与效率。该框架由难度评估模块和双模式决策系统组成,在简单任务中跳过显式推理(NoThink模式)可降低85.2%的token消耗,复杂任务则保留完整推理链(Think模式)。实验显示,该方案在数学题等简单任务中准确率提升23%,边缘设备部署成本降低5倍,适用于高并发客服、教育分级应答等场景。开源生态已覆盖7B模型及边缘部署方案,为AI推理效率优化提供了新范式。
2025-07-01 12:30:42
1463
原创 浙大IInftyThink(无限深度推理引擎)原理解析及应用场景
摘要: InftyThink是由浙大与北大联合研发的大模型推理优化技术,通过分段推理与动态总结机制突破传统模型的上下文限制。其核心创新包括:1)将长任务拆分为4K token片段迭代处理;2)锯齿式内存管理降低计算复杂度;3)兼容现有Transformer架构。实测显示,该方法在数学推理任务中准确率提升13%,内存占用减少80%,并支持小模型处理超长推理链。当前已应用于数学证明、代码生成、教育智能体等领域,但存在分段延迟与总结质量依赖等挑战。开源代码与模型已发布,推动AI从"算力堆砌"转
2025-07-01 12:26:46
845
原创 大模型的 /think(深度推理)与 /no_think(快速响应)实现原理
大模型推理模式技术解析:/think与/no_think的核心差异在于是否显式生成中间推理步骤。/think模式通过思维链、累积推理等结构化方法提升复杂任务准确性,但资源消耗高;/no_think模式采用空标记触发、并行采样等技术实现快速响应,适合低延迟场景。实验表明,/no_think在资源受限时效率更优,而/think对复杂任务效果显著。混合调度技术如AdaptThink框架能动态切换模式,未来优化方向包括推理-验证分离和硬件加速。实践建议根据场景需求选择:高精度用/think+可追溯框架,高并发用/n
2025-06-30 12:37:58
955
原创 大模型上下文长度扩展关键技术
**摘要:**大模型上下文长度扩展依赖算法与硬件的协同优化。Qwen3-32B通过RoPE位置编码和YaRN动态插值技术,支持从40K扩展到128K上下文。硬件方面,显存需求呈平方级增长(128K需>128GB),需多卡并行(如4×H100)和高速网络(InfiniBand)。优化策略包括KV Cache量化(显存降40%)、CPU Offload和云边协同部署。算法选择上,<32K用RoPE零样本外推,>64K需YaRN微调。未来方向包括3D显存堆叠和神经符号融合,以突破长文本处理瓶颈。
2025-06-30 12:32:46
1177
原创 Snowflake Arctic-Embed详细介绍
Snowflake Arctic-Embed 是开源高效文本嵌入模型,在MTEB检索任务中以55.9分领先。其特色包括:支持多语言(v2.0)、Matryoshka向量压缩技术(体积减少96%)、10毫秒级延迟和长文本处理(8192 tokens)。提供Python调用示例,展示与Snowflake数据仓库及LangChain的集成方法,适用于多语言RAG、企业知识库和边缘计算等场景。该模型通过Apache 2.0许可开源,兼具闭源模型的性能优势与显著成本效益,配套文档和资源已开放。
2025-06-27 13:06:29
935
原创 向量模型(Embedding Models)最新发展介绍
向量模型:核心技术与应用前沿(2025) 向量模型通过将非结构化数据映射为低维稠密向量,实现语义相似度的量化计算。技术演进历经静态词向量(Word2Vec)、上下文感知模型(BERT)到当前多模态动态向量(如CLIP、BGE-M3)。主流训练方法包括对比学习、生成式预训练和指令微调,支撑RAG、语义搜索、推荐系统等核心应用场景。评估显示,BGE-M3、OpenAI-3-large领跑文本嵌入,ImageBind-2在多模态领域领先。实践推荐平衡维度与数据量,结合领域微调与混合检索策略。未来趋势聚焦动态维度、
2025-06-27 13:02:18
710
原创 DPO(Direct Preference Optimization)实战全流程指南
《DPO实战全流程指南》摘要 本文提供了端到端的DPO(直接偏好优化)实战方案,包含数据准备、模型训练、评估部署全流程。核心内容包括: 数据构建:推荐UltraFeedback等高质量数据集,提供数据预处理代码 训练配置:基于HuggingFace TRL库的DPO实现,详解beta值等关键参数调优 工业优化:显存节省技巧(LoRA、梯度检查点)、领域自适应方法和在线学习架构 效果评估:量化对比显示DPO可降低86%有害回复率,提升24%用户满意度 常见问题:针对灾难性遗忘、过度安全化等问题给出解决方案 附
2025-06-26 12:33:45
1008
原创 KTO(Kahneman-Tversky Optimization)微调全流程指南
KTO微调全流程精要指南 KTO(Kahneman-Tversky Optimization)是基于行为经济学原理的新型微调方法,通过损失厌恶机制(对负样本施加2-3倍惩罚)实现高效模型对齐。相比DPO/IPO,KTO仅需单样本标注(好/坏),降低60%标注成本,更适合实时反馈场景。实践流程包括:1)构建三元组数据集;2)配置TRL训练环境;3)调节关键参数(β控制对齐强度,λ调整负样本惩罚);4)多维度评估效果。工业应用中,KTO可优化客服机器人(投诉率降低37%)、内容安全过滤等场景。典型问题解决方案:
2025-06-26 12:27:37
752
原创 KTO(Kahneman-Tversky Optimization)核心创新
KTO(Kahneman-Tversky Optimization)是一种颠覆传统偏好对齐范式的大模型优化技术,由斯坦福与康奈尔团队2024年提出。其核心创新在于:无需成对偏好数据(DPO/RLHF需(chosen, rejected)二元组)基于行为经济学理论(损失厌恶原理)直接优化单样本反馈仅需标注回答“好/坏”,即可实现接近DPO的对齐效果,标注成本降低60%+。
2025-06-25 12:45:34
995
原创 IPO(Identity Preference Optimization)关键技术解析
IPO(Identity Preference Optimization)是DPO的正则化改进版本,由普林斯顿与谷歌DeepMind团队提出,旨在解决DPO在微调过程中的过拟合问题。IPO通过引入KL散度约束,平衡偏好对齐与原始能力保留,优化训练稳定性。其核心改进在于采用均方损失和KL正则化,形成严格凸优化问题。实验显示,IPO在保留MMLU分数(+3.3%)的同时保持高偏好胜率(81.7%),对噪声数据更具鲁棒性。适用于医疗、多语言、代码等需平衡专业能力与通用性的场景,显存开销仅增加8%。开源实现已集成至
2025-06-25 12:39:43
822
原创 直接偏好优化(DPO)深度解析
摘要: 直接偏好优化(DPO)是一种革新性的大语言模型对齐技术,通过单阶段损失函数直接学习人类偏好,规避了RLHF(强化学习人类反馈)中奖励模型训练和PPO优化的复杂性。其核心优势包括: 1️⃣ 高效稳定:仅需1个模型和参考模型,显存占用低(如7B模型单卡可训),训练更平滑; 2️⃣ 性能平衡:在AlpacaEval测试中胜率提升10%,且保留长文本生成等能力; 3️⃣ 低成本应用:支持消费级GPU微调,适用于对话安全、代码生成等场景。 关键限制在于依赖高质量三元组数据(≥10k条),开源工具链(如Hugg
2025-06-25 12:35:55
827
原创 YaRN(Yet another RoPE extensioN)使用技巧
YaRN技术生产环境评估摘要(150字) YaRN通过优化RoPE实现LLM上下文窗口高效扩展,仅需0.1%原始数据微调即可支持128K长序列处理,显著降低训练成本。实测显示其在128K文本任务中准确率达99.8%,且兼容FlashAttention等优化技术,A100显卡下吞吐量达40 tokens/秒。虽然存在显存占用高(FP16下80GB)和超长序列稳定性风险,但可通过分级量化与渐进扩展缓解。该技术尤其适合法律/医疗文档分析等场景,但对超200K序列或边缘设备需谨慎部署。随着与外部记忆库等技术的结合,
2025-06-24 17:31:29
870
原创 通过YaRN(Yet another RoPE extensioN)技术实现大模型上下文窗口扩展
YaRN技术成功将Qwen3-32B模型的上下文窗口从40K扩展至128K tokens,成为大模型长文本处理的重要突破。该技术通过三阶段优化:高频信息保留、局部距离维护和动态缩放,以更低的计算代价实现上下文扩展。部署采用vLLM引擎并结合量化方案,实测显示其在128K长文本任务中表现优异(准确率达99.8%),同时显存可降低70%。应用场景包括技术文档处理、论文分析和多轮对话系统。尽管存在极端长序列的局限,但结合前沿的动态进化缩放技术,未来有望突破百万级上下文瓶颈。
2025-06-24 17:29:25
1000
流程规范\研发规范\代码规范\前端\HTML编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\Flutter编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\ESLINT规范
2025-04-03
流程规范\研发规范\代码规范\后端\6.安全规约
2025-04-03
流程规范\研发规范\代码规范\后端\附:专有名词解释
2025-04-03
流程规范\研发规范\代码规范\后端\5.设计规约
2025-04-03
流程规范\研发规范\代码规范\后端\4.工程结构
2025-04-03
流程规范\研发规范\代码规范\后端\1.编程规约
2025-04-03
流程规范\研发规范\代码规范\后端\3.单元测试
2025-04-03
流程规范\研发规范\代码规范\后端\2.异常日志
2025-04-03
Linux系统核心命令与基础架构配置指南
2025-03-25
SQLServer2008教程
2015-07-30
H3C CAS 云计算管理平台 开局指导-E0785及之后版本-5W100-整本手册
2025-04-22
【Linux系统管理】常用命令汇总:磁盘挂载、Docker操作、防火墙配置与服务管理
2025-04-22
H3C CAS云计算管理平台 安装指导-E0785系列-5W113-整本手册
2025-04-22
2025面试经验-阿里云-交付架构师
2025-04-16
2025面试经验-科大讯飞-系统架构师
2025-04-09
2025面试经验-阿里云智能-技术服务专家
2025-04-09
2025面试经验-海康萤石-Java应用架构师
2025-04-09
2025面试经验-京东零售-Java开发
2025-04-09
【信息技术领域】系统试运行保障及应急预案:构建全面的信息系统应急响应机制与试运行保障体系为系统试运行
2025-04-03
流程规范\研发规范\代码规范\前端\React编码规范
2025-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人