
AI大模型
文章平均质量分 73
AI大模型实战
源图客
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
IndexTTS介绍与部署(B站开源的工业级语音合成模型)
摘要:IndexTTS是哔哩哔哩开源的工业级零样本文本转语音系统,基于GPT架构优化,支持中文拼音纠正和停顿控制。采用字符-拼音混合建模和Conformer编码器,提升发音准确性和音质。最新1.5版本增强了稳定性与英语性能,提供完整测试集和开源代码,支持WebUI部署。系统通过数万小时训练达到顶尖水平,在多项测试中优于主流TTS方案。(149字)原创 2025-08-25 13:55:47 · 789 阅读 · 0 评论 -
AIRI—基于AI大模型构建桌宠虚拟伴侣
AIRI是一款开源AI伴侣软件,可创建交互式数字生命体。它基于大语言模型技术,支持角色扮演、游戏互动等功能,类似Character.ai但更具扩展性。用户需申请Google Gemini API密钥配置使用,也可选择其他API接口。项目旨在提供个性化赛博伴侣解决方案,让用户随时与AI互动。原创 2025-08-25 11:57:44 · 466 阅读 · 0 评论 -
AI大模型的推理规划能力解析
本文探讨提升大语言模型推理规划能力的两种有效方法。思维链提示通过引导模型输出中间推理步骤(如Auto-CoT自动构建范例),显著提升多步推理能力;由少至多提示则将复杂任务分解为子问题逐步解决,增强规划能力。两种方法分别模拟人类逐步推理和任务分解思维,其中思维链提示更适用于数学应用题等场景,由少至多提示则擅长处理需要分步执行的复杂任务。实践表明,合理选择或组合这些方法可有效提升模型在推理和规划任务中的表现。原创 2025-07-03 23:26:21 · 802 阅读 · 0 评论 -
AI大模型之奖励模型详解
本文系统介绍了大语言模型奖励模型的构建方法,从数据收集、模型训练到开源数据三个方面展开。在数据收集方面,重点阐述了基于3H原则(帮助性、真实性、无害性)构建人类偏好数据集的过程,包括有用性和无害性数据的收集方法及其平衡策略。模型训练部分说明了基于Transformer架构的奖励模型结构设计和损失函数计算方法。最后,汇总了当前可用的开源奖励模型数据集,比较了不同数据集的规模与特点。研究表明,高质量的奖励模型需要平衡有用性与无害性,有效利用人类偏好数据,并合理设计训练策略,这对强化学习优化大语言模型具有关键作用原创 2025-07-01 23:16:22 · 1037 阅读 · 0 评论 -
强化学习概述及学习流程
本文探讨了强化学习在大语言模型训练中的关键作用。首先介绍了强化学习的基本概念,包括智能体与环境交互、状态与奖励机制等核心要素。其次,对比了强化学习与有监督学习的主要区别,分析了强化学习在整体评估、缓解幻觉问题和多轮对话等方面的优势。最后重点阐述了基于人类反馈的强化学习(RLHF)流程,包括奖励模型训练和近端策略优化(PPO)两个阶段,说明该方法如何使模型输出更符合3H(帮助性、真实性、无害性)原则。研究表明,强化学习能够有效弥补传统监督学习的不足,是构建安全可靠大语言模型的核心技术。原创 2025-06-30 22:55:10 · 1052 阅读 · 0 评论 -
DeepSpeed-Chat 微调实战
本文介绍了微软DeepSpeed-Chat工具在类ChatGPT模型训练中的实践应用,重点聚焦有监督微调(SFT)阶段。该工具通过ZeRO-3内存优化和混合精度训练等技术,显著降低了大规模语言模型训练的资源需求。文章详细阐述了数据预处理方法、自定义模型(以Baichuan7B为例)的适配过程,以及完整的训练流程。原创 2025-06-30 22:33:40 · 1080 阅读 · 0 评论 -
AI大模型知识库产品案例集锦
AI大模型知识库系统解决方案与案例原创 2025-06-19 18:01:08 · 1058 阅读 · 0 评论 -
大语言模型指令集全解析
开源指令数据集对优化大语言模型至关重要。主要包含两类:NLP任务指令(如Super-NaturalInstructions、Flan2021、pCLUE)和通用对话指令(如OpenAssistantConversations、Dolly、BELLE)。构建方式分为人工与自动生成,规模从千条到数百万条不等,覆盖多语言或专精中/英语。选用时需考虑模型目标、语言需求及数据规模,NLP任务优先选Super-NaturalInstructions/pCLUE,对话训练可选LIMA(高质量小样本)或BELLE(中原创 2025-06-18 16:25:22 · 753 阅读 · 0 评论 -
DeerFlow多智能体协作系统介绍与部署
DeerFlow是一款社区驱动的AI研究框架,整合了语言模型与专业工具(网络搜索、爬虫、代码执行)。现已入驻火山引擎FaaS中心,提供在线体验和一键部署功能。部署要求Python 3.12+和Node.js 22+原创 2025-06-16 11:36:40 · 1320 阅读 · 0 评论 -
MaxKB源码部署与调试(Windows)
摘要:MaxKB知识库系统部署指南,涵盖前后端技术栈和环境配置。前端使用Vue.js,后端采用Python/Django,支持多种大模型接口。部署步骤包括:安装PostgreSQL数据库及pgvector插件;配置Python3.11、Node.js运行环境;下载源码和文本嵌入模型;修改数据库和模型路径配置;分别启动后端服务(Web服务、模型服务、异步任务)和前端Vue项目。特别说明Windows环境下需调整启动命令,解决模块导入问题。最后通过localhost:3000访问系统。原创 2025-06-13 10:40:07 · 1072 阅读 · 0 评论 -
大语言模型的有监督微调:高效方法与实践
本文探讨了大语言模型的有监督微调(SFT)关键技术,主要包括:1)高效微调方法LoRA及其变体(AdaLoRA、QLoRA),通过低秩矩阵适配和量化技术显著降低计算成本;2)上下文窗口扩展技术(RoPE、ALiBi、插值法),提升模型长文本处理能力;3)指令数据构建方法(手动/自动构建、开源数据集),强调数据质量与多样性的重要性。这些技术的结合使大语言模型从知识存储迈向实际应用,为AI发展开辟新可能。原创 2025-06-12 12:11:54 · 1172 阅读 · 0 评论 -
提示学习与语境学习
摘要:提示学习已成为利用预训练语言模型的新范式,通过提示添加、答案搜索和答案映射三阶段实现小样本/零样本学习。不同于传统微调,提示学习无需参数更新,但实施复杂度高。其衍生方法如连续提示、语境学习等进一步拓展了应用场景。语境学习作为提示学习的子类,通过上下文示例激活模型知识,具有自然语言交互、无参数更新的优势,但对提示模板和示例选择敏感。这些方法为高效利用大语言模型提供了新思路,但作用机制仍需深入研究。(149字)原创 2025-06-12 11:44:22 · 509 阅读 · 0 评论 -
Dify源码运行与调试(Windows系统)
本文详细介绍了如何搭建Dify开源项目的本地开发环境,包含三个核心环节:1)环境准备(Git/Docker/Python3.12/NodeJS等工具的安装配置);2)后端服务部署(API服务和Worker服务的环境配置、依赖安装及启动);3)Web前端服务构建(依赖安装、环境变量配置及项目启动)。通过Docker Compose快速部署中间件,使用uv管理Python依赖,pnpm构建前端项目,最终实现本地访问http://127.0.0.1:3000的开发环原创 2025-06-10 16:38:45 · 1450 阅读 · 0 评论 -
基于DeepSpeed优化AI大模型训练
DeepSpeed是微软开发的开源深度学习优化库,专为提升大语言模型效率而设计。其核心技术包括3D并行策略(数据/流水线/张量并行)和ZeRO内存优化,支持万亿参数模型训练。通过分阶段参数分片(ZeRO-0至3)和CPU/NVMe扩展(ZeRO-Infinity),显著降低显存需求。实践方面,该库提供简洁API,支持PyTorch代码无缝迁移,并集成1-bitAdam等高效算法。以LLaMA训练为例,DeepSpeed可实现分布式环境下的自动数据分片、混合精度训练和模型保存,使单GPU可训练比显存大10倍的原创 2025-06-09 16:55:23 · 1324 阅读 · 0 评论 -
开源服务器运维平台1Panel 介绍与部署DeepSeek
1Panel是一款开源的Linux服务器运维面板,提供Web界面和MCPServer用于便捷管理服务器资源。主要功能包括网站搭建、文件/容器/数据库管理以及LLM部署。产品特色:可视化运维管理、快速建站工具集成、应用商店、安全防护机制和一键备份服务。安装简便,通过脚本即可快速部署,支持自定义密码设置。适用于需要简化Linux服务器管理的用户群体。(149字)原创 2025-06-03 17:42:44 · 469 阅读 · 0 评论 -
Ubuntu22.04部署Ollama
摘要:本文介绍了在Ubuntu系统上安装Ollama的具体步骤:1)通过curl命令安装Node.js(推荐16.x版本);2)使用npm或snap安装Ollama;3)验证安装(ollama -v);4)部署千问大模型(ollama run qwen2:7b)。文章还提供了相关参考资料链接。整个安装过程涉及基础编译工具、Node.js环境配置以及Ollama的两种安装方式,最后通过运行模型来验证部署成功。(149字)原创 2025-05-31 08:15:00 · 602 阅读 · 0 评论 -
AI大模型应用开发平台-Dify介绍与部署
Dify是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和LLMOps的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。Dify对主流大语言模型的支持直观的提示词编排界面高质量的检索增强生成(RAG)引擎灵活的人工智能代理框架直观的低代码工作流易于使用的界面和应用程序编程接口(APIs)原创 2025-05-30 18:55:52 · 1522 阅读 · 0 评论 -
MaxKB介绍与Docker模式部署(社区版)
MaxKB是一款企业级AI助手,支持RAG检索增强生成、工作流编排等功能,适用于智能客服、知识库问答等场景。系统采用Vue.js前端和Python/Django后端,支持多种大语言模型和向量数据库。部署要求Ubuntu/CentOS系统、4核8GB内存,通过Docker快速安装运行。默认访问地址为http://服务器IP:8080,管理员账号为admin/MaxKB@123..。还提供智谱AI等平台对接参考文档。原创 2025-05-29 18:53:23 · 929 阅读 · 0 评论 -
AI大模型分布式训练集群架构
本文探讨了大语言模型分布式训练的高性能计算集群架构。详细分析了两种核心架构:参数服务器架构(中心化设计,适合参数密集型任务)和去中心化架构(基于集合通信,适合大规模训练)。重点阐述了硬件组成(GPU/TPU、InfiniBand网络、NVLink互连)、通信瓶颈及优化策略(胖树拓扑、高速互连)。对比了两种架构在扩展性、延迟等方面的差异,建议中小规模模型采用参数服务器,大规模训练选择去中心化架构。最后指出未来趋势将向异构计算和智能通信调度发展,以支持更大规模模型训练。原创 2025-05-25 22:03:23 · 1460 阅读 · 0 评论 -
AI大模型分布式训练并行策略解析
本文系统介绍了大语言模型的分布式训练技术。核心内容包括:1)单节点训练流程分析,阐述前向计算和反向计算机制;2)三种并行策略:数据并行(DP)实现简单但显存占用高,模型并行(MP)包括流水线并行(PP)和张量并行(TP)可突破单卡限制,混合并行(HP)综合多种策略;3)内存优化技术如混合精度训练和ZeRO优化器。最后指出未来趋势将向混合并行、异构计算和通信优化发展,以支持万亿级参数模型训练。原创 2025-05-23 22:47:03 · 606 阅读 · 0 评论 -
DeepSite-基于DeepSeek的网站生成平台
DeepSite AI——AI驱动的网站生成平台简介:DeepSite AI 是一款由 Huggingface 的 AI Code Agent DeepSeek 提供支持的人工智能网站生成器,核心在于推广其基于 AI 的无代码网站生成工具。其目标用户群体主要为缺乏编程知识,却有创建网站需求的人群,像中小企业主、自由职业设计师、营销人员等。通过 AI 技术,DeepSite 致力于简化网站开发流程,进而降低技术门槛。注:上述地址需要XX上网!原创 2025-05-22 18:52:27 · 821 阅读 · 0 评论 -
AI大模型之分布式训练概述
随着大语言模型(LLMs)的参数量和训练数据量的指数级增长,传统单设备训练方式已无法满足需求,分布式训练技术因此成为推动大语言模型发展的核心驱动力。分布式训练通过将训练任务分解到多个计算设备上并行执行,有效解决了单设备资源瓶颈问题,显著提升了训练速度。然而,分布式训练也面临计算墙、显存墙和通信墙等挑战,如单个设备的计算能力、内存容量和通信带宽的限制。尽管存在这些挑战,分布式训练在大语言模型如OPT、BLOOM和LLaMA的训练中已得到广泛应用,并随着技术的进步,预计将逐步克服现有问题,为人工智能领域带来更强原创 2025-05-13 19:05:35 · 1618 阅读 · 0 评论 -
探索大语言模型开源数据集
在大语言模型(LLM)的发展中,开源数据集起到了关键作用。本文介绍了四个具有代表性的开源数据集:Pile、ROOTS、RefinedWeb和SlimPajama。原创 2025-05-11 22:38:50 · 1347 阅读 · 2 评论 -
深入剖析大模型预训练数据:来源、处理与影响
大语言模型(LLM)的预训练数据是决定其性能的关键因素,尽管缺乏完善的理论分析,但数据对模型效果和泛化能力的影响被广泛认可。原创 2025-05-11 22:27:55 · 1316 阅读 · 0 评论 -
LLaMA模型结构与注意力机制优化
大语言模型(LLMs)如GPT系列和LLaMA的快速发展,推动了人工智能技术的革新。这些模型主要基于Transformer架构,通过自回归方式处理自然语言,展现出强大的能力。原创 2025-05-10 14:31:19 · 1161 阅读 · 1 评论 -
深入剖析 GPT 及模型实践
在自然语言处理(NLP)领域,生成式预训练语言模型GPT和HuggingFace开源库具有重要地位。GPT模型由多层Transformer构成,通过无监督预训练和有监督下游任务微调,具备强大的语义表示能力。HuggingFace提供了丰富的工具和模型库,支持从数据集准备、词元分析器训练到模型训练和使用的完整流程原创 2025-05-10 13:58:09 · 286 阅读 · 0 评论 -
Transformer 结构全解析-大模型的核心基石
Transformer结构自2017年由谷歌提出以来,已成为大语言模型(LLMs)的核心基础,彻底改变了自然语言处理的格局。该结构主要由编码器和解码器组成原创 2025-05-09 21:55:47 · 812 阅读 · 1 评论 -
深入剖析大语言模型构建流程
大语言模型(LLMs)凭借其强大的语言理解和生成能力,在智能客服、内容创作和智能辅导等领域得到广泛应用。构建这些模型的过程包括几个关键阶段:首先是预训练阶段,利用海量数据训练基础语言模型;其次是有监督微调阶段,通过高质量数据集合赋予模型个性化能力;接着是奖励建模阶段,构建文本质量对比模型以评估输出质量;最后是强化学习阶段,通过用户反馈优化模型性能。每个阶段都至关重要,共同构成了大语言模型的复杂构建流程。原创 2025-05-09 20:29:15 · 960 阅读 · 0 评论 -
一文读懂大规模语言模型:概念、发展
大规模语言模型(Large Language Models,LLM),也叫大语言模型或大型语言模型是用包含数百亿以上参数的深度神经网络构建的语言模型。它通常采用自监督学习方法,通过大量无标注文本进行训练。2018 年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构纷纷发布了 BERT、GPT 等多种模型。这些模型在几乎所有自然语言处理任务中都表现出色。2019 年大模型迎来爆发式增长,2022 年 11 月 ChatGPT 发布后,更是引发全球关注。原创 2025-05-08 17:08:03 · 1600 阅读 · 0 评论 -
Ubuntu22.4部署及更新cuda11.8与cuda12.1
注:默认11.5无法满足要求,更新至11.8还是无法满足需求,最后更新至12.1。原创 2025-05-02 21:59:26 · 1207 阅读 · 0 评论 -
Kimi-Audio音频大模型介绍、本地部署与开发
Kimi Audio被设计为一个通用的音频基础模型,能够在一个统一的框架内处理各种音频处理任务。原创 2025-04-28 20:22:42 · 5674 阅读 · 9 评论 -
腾讯Cloud Studio助力学习AI大模型
通用工作空间赠送时长(分钟)已用 0 分钟 / 总计 50000 分钟。原创 2025-03-31 13:54:24 · 501 阅读 · 0 评论 -
DeepSeek本地部署及训练行业数据(windows)
Ollama是一个用于部署和运行各种开源大模型的工具,能够帮助用户快速在本地运行各种大模型,极大地简化了大模型在本地运行的过程。对用户来说,只需要通过执行几条命令就能在本地运行开源大模型。主要特点:1、功能齐全:Ollama将模型权重、配置和数据捆绑到一个包中,定义成Modelfile。它优化了设置和配置细节,包括GPU使用情况,从而提高了模型运行的效率。2、轻量级:Ollama的代码简洁明了,运行时占用资源少。这使得它能够在本地高效地运行,不需要大量的计算资源。原创 2025-02-24 17:08:51 · 2757 阅读 · 0 评论 -
DeepSeek助力高效办公技巧
总结下面的文字,并给我一份包含关键见解和最重要事实的要点列表。【插入文字】”原创 2025-02-20 15:58:07 · 1566 阅读 · 0 评论 -
DeepSeek结合Mermaid绘制流程图
两步走:1、提示词凸显Mermaid图 2、使用Mermaid在线绘图显示。原创 2025-02-13 15:15:04 · 6546 阅读 · 0 评论 -
DeepSeek接口开发
【代码】DeepSeek接口开发。原创 2025-02-06 10:51:58 · 1877 阅读 · 0 评论 -
DeepSeek介绍与部署
DeepSeek 是一家由中国知名量化私募巨头幻方量化创立的人工智能公司,致力于开发高效、高性能的生成式 AI 模型。自2023年7月成立以来,DeepSeek在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括 DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。成立时间:2023年7月17日母公司:幻方量化,一家规模超过百亿的私募量化基金,为DeepSeek提供了坚实的资金支持。原创 2025-01-28 14:06:17 · 16052 阅读 · 0 评论 -
AIGC生成星际探险游戏
你将扮演星际旅行者王伟,驾驶着“星际探险号”飞船在浩瀚宇宙中展开惊险刺激的探险之旅。在旅途中,你会面临各种抉择,不同的选择将引领你走向不同的结局。生成星际探险游戏,角色为星际旅行者王伟,飞船名词星际探险号,要求简洁清晰,直接进行对话,提示内容简介,通过选择数字进行对话,立即游戏。你驾驶着“星际探险号”在星际间航行,突然飞船检测到前方有一个神秘的星球发出异常信号。然后输入序号就可以游戏了。原创 2024-12-19 17:59:41 · 272 阅读 · 0 评论 -
AI大模型辅助出题案例
AIGC视频创作 选择题 12道选择题 ,输出表格,要求有题目列、参考答案列(为ABCD中的一个)、题目解析列、选项A列、选项B列、选项C列、选项D列,要求ABCD分别放到四列,不要统一放到A列中,题目前面不要序号。其中第一句话为出题的大致内容,可以结合具体内容灵活调整。根据右侧内容,判断是否正确及是否符合自己的要求。选用一种AI大模型,本案例选用豆包大模型。第二句为出题的类型,也可以灵活调整。原创 2024-12-13 11:31:54 · 846 阅读 · 0 评论 -
AI虚拟数字人创作平台介绍
AI数字人原创 2024-10-11 21:22:15 · 456 阅读 · 0 评论