- 博客(559)
- 资源 (8)
- 收藏
- 关注
原创 【AI大模型前沿】GLM-4.5:智谱打造的开源SOTA模型,推理、代码与智能体能力融合先锋
GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA(State-of-the-Art)模型。它采用混合专家(MoE)架构,有两个版本:GLM-4.5(3550 亿参数,320 亿激活)和 GLM-4.5-Air(1060 亿参数,120 亿激活)。该模型在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。它支持混合推理模式,提供“思考模式”和“非思考模式”,兼顾复杂任务和即时响应需求。。。
2025-07-31 08:00:00
608
9
原创 【GitHub开源AI精选】ContentV:字节跳动开源的高效文生视频模型框架,助力AI视频生成技术突破
ContentV是由字节跳动开源的80亿参数文生视频模型框架,旨在通过高效的训练策略和极简架构实现高质量视频生成。该项目通过将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码,结合多阶段训练策略和强化学习人类反馈框架,在仅使用有限计算资源的情况下,达到了85.14的VBench评分,仅次于Wan2.1-14B。ContentV不仅支持文本到视频的生成,还具备自定义视频参数、风格迁移与融合、视频续写和修改等多种功能,能够满足多样化的视频创作需求。
2025-07-30 08:00:00
405
2
原创 【GitHub开源AI精选】PandasAI:一键开启数据对话时代,非技术用户也能轻松上手
PandasAI 是一个基于 Python 的开源平台,由 Sinaptik AI 团队开发。它通过结合大语言模型(LLM)和检索增强生成(RAG)技术,使用户能够以自然语言的形式与数据进行交互。无论是技术专家还是非技术用户,都可以通过简单的对话方式快速获取数据洞察,极大地提高了数据分析的效率和可访问性。PandasAI 支持多种数据格式,包括 SQL 数据库、CSV 文件和 Parquet 文件,能够无缝集成到现有的数据生态系统中。
2025-07-29 08:00:00
807
4
原创 【GitHub开源AI精选】Google AI Edge Gallery:谷歌赋能的离线AI模型探索利器
Google AI Edge Gallery是由谷歌开发的一个实验性应用,旨在让用户能够在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。该项目支持在Android设备上运行,并且完全离线操作,用户可以轻松切换不同的预训练模型,进行图像问答、文本生成、多轮对话等操作,同时实时查看模型的性能指标。
2025-07-28 08:00:00
1344
36
原创 【GitHub开源AI精选】TEN VAD:高性能实时语音活动检测系统,助力AI对话系统高效交互
TEN VAD 是一款高性能的实时语音活动检测系统,专为企业级应用设计,能够精确地检测音频流中的语音活动。它基于先进的深度学习技术,通过高效算法和优化的模型结构,实现了低延迟、轻量级和高精度的语音检测。TEN VAD 支持多种操作系统(如 Linux、Windows、macOS、Android 和 iOS),并提供 Python 和 C 接口,方便开发者集成。其在智能语音助手、在线客服系统、视频会议软件等场景中表现出色,显著提升了交互体验。
2025-07-27 08:00:00
863
2
原创 【GitHub开源AI精选】Morphik:开源多模态检索增强生成工具,助力AI应用开发
Morphik是一个开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档而设计。它支持对文本、PDF、图片、视频等多种格式的文件进行搜索和处理,采用ColPali等先进技术,能够理解文档中的视觉内容,并具备快速元数据提取功能。Morphik通过其强大的多模态嵌入技术、知识图谱构建能力以及灵活的数据管理与集成功能,为开发者提供了一个高效、灵活且易于使用的AI应用开发平台。其核心目标是帮助企业和开发者快速构建基于私有知识的AI应用程序,提升知识管理和应用开发的效率。
2025-07-26 08:00:00
697
2
原创 【GitHub开源AI精选】AgenticSeek:开源本地通用AI Agent、打造自主执行任务的智能助手
AgenticSeek是一个完全本地化的开源AI助手,旨在为用户提供一个自主执行任务的智能工具。它能够在本地设备上运行,无需依赖云端服务,从而确保用户数据的隐私和安全。AgenticSeek支持多种编程语言,具备智能任务拆解和执行能力,能够自主浏览网页、编写代码、规划复杂项目等。无论是旅行规划、代码生成还是信息搜索,AgenticSeek都能通过语音或文本交互的方式,为用户提供高效、便捷的AI服务。
2025-07-25 08:00:00
1951
原创 大模型之Spring AI实战系列(四十三):Spring Boot + Ollama (Tool Calling)实现工具调用与对话记忆功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现智能工具调用功能,通过 `FunctionToolCallback` 扩展了 AI 助手的能力。本文将继续深入,介绍如何通过 **ChatMemory** 和 **ToolCallingManager** 实现更复杂的工具调用和对话记忆功能。
2025-07-24 08:00:00
897
1
原创 大模型之Spring AI实战系列(四十二):Spring Boot + Ollama (Function Calling)实现智能工具调用功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现基于 Advisor 的 RAG 系统,通过封装的 RAG 流程简化了知识库问答系统的开发。本文将继续深入,介绍如何通过**智能工具调用(Function Calling)** 功能来扩展 AI 助手的能力。
2025-07-23 08:00:00
750
原创 大模型之Spring AI实战系列(四十一):Spring Boot + Ollama 实现基于Advisor的RAG系统
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现 RAG(Retrieval-Augmented Generation)系统,将文档上传到向量数据库并结合大模型生成回答。本文将继续深入,介绍如何通过**Advisor API** 来简化 RAG 系统的实现。
2025-07-22 08:00:00
1648
原创 大模型之Spring AI实战系列(四十):Spring Boot + Ollama 实现RAG(Retrieval-Augmented Generation)系统
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现向量数据库集成,将文本信息转化为数值向量并进行高效的语义搜索。本文将继续深入,介绍如何通过**RAG(Retrieval-Augmented Generation)** 技术来构建一个完整的问答系统。
2025-07-21 08:00:00
1335
2
原创 大模型之Spring AI实战系列(三十九):Spring Boot + Ollama 实现向量数据库集成
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现文本向量嵌入功能,将文本信息转化为数值向量形式。本文将继续深入,介绍如何通过**向量数据库(Vector Store)** 技术来存储和检索这些向量数据。
2025-07-20 08:00:00
2002
3
原创 大模型之Spring AI实战系列(三十八):Spring Boot + Ollama 实现文本向量嵌入功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现多模态交互功能,让 AI 助手能够理解和生成更加复杂和多样化的内容。本文将继续深入,介绍如何通过**文本向量嵌入(Text Embedding)** 功能来将文本转换为向量表示。
2025-07-19 08:00:00
862
3
原创 大模型之Spring AI实战系列(三十七):Spring Boot + Ollama 实现多模态交互功能
在前几篇文章中,我们分别介绍了如何使用 Spring AI 框架实现系统提示词和结构化输出功能。本文将在此基础上继续深入,介绍如何通过**多模态交互(Multimodal Interaction)** 功能来结合文本和图像进行更丰富的对话。多模态交互是一种强大的技术,它允许我们将文本、图像等多种类型的数据融合在一起,使 AI 助手能够理解和生成更加复杂和多样化的信息。例如,用户可以通过上传一张图片并询问“这张图片里有什么内容?”AI 助手则会分析图片并生成相应的描述。
2025-07-18 08:00:00
1345
43
原创 大模型之Spring AI实战系列(三十六):Spring Boot + Ollama 实现结构化输出功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现系统提示词功能,让 AI 助手具备个性化的人格和风格。本文将在此基础上继续深入,介绍如何通过**结构化输出(Structured Output)** 功能来规范 AI 的输出格式。结构化输出是一种强大的工具,它允许我们将 AI 生成的内容以特定的数据结构返回,如 [List]、`Map` 或自定义的 Java Bean。这在开发需要与前端或其他系统交互的应用时尤为重要,因为它确保了数据的一致性和可预测性。
2025-07-17 08:00:00
1421
39
原创 大模型之Spring AI实战系列(三十五):Spring Boot + Ollama 实现系统提示词功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现上下文记忆功能,让聊天机器人具备"记忆力"。本文将在此基础上继续深入,介绍如何通过**系统提示词(System Prompt)** 功能来定制 AI 的人格、语气和风格。系统提示词是一种强大的工具,它允许我们定义 AI 的角色定位、回答风格以及与用户的互动方式。通过合理设置系统提示词,我们可以创建出具有不同个性的 AI 助手,如幽默风趣的朋友、专业严谨的法律顾问或亲切友好的客服代表。
2025-07-16 08:00:00
1228
31
原创 大模型之Spring AI实战系列(三十四):Spring Boot + Ollama 实现聊天上下文记忆功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架与 Ollama 进行集成,并通过 `ChatClient` 和 `OllamaChatModel` 实现了基础对话功能。然而,在实际的企业级应用中,仅仅实现单轮对话是远远不够的。为了让 AI 聊天机器人具备"记忆力",能够理解上下文并进行连贯的多轮对话,我们需要引入**上下文管理机制**。本文将基于 `spring-ai-ollama-chatMemory` 示例项目,详细介绍如何构建一个支持上下文记忆的 Ollama 聊天服务。
2025-07-15 08:00:00
1114
18
原创 大模型之Spring AI实战系列(三十三):Spring Boot + Ollama 实现本地部署AI聊天应用(10分钟搞定)
在人工智能技术飞速发展的今天,大语言模型已经成为推动技术创新的重要力量。Ollama 作为一个开源的大语言模型框架,让我们可以在本地环境中轻松运行和管理各种大型语言模型。Spring AI 则是 Spring 生态系统中用于集成人工智能功能的框架。本文将带你从零开始搭建一个基于 Spring Boot 的项目,集成 Ollama 大语言模型,实现一个简单的聊天机器人。
2025-07-14 08:00:00
1236
26
原创 【AI大模型前沿】MonkeyOCR:基于结构-识别-关系三元组范式的文档解析模型
**MonkeyOCR** 是一个基于 **Structure-Recognition-Relation (SRR) 三元组范式** 的文档解析模型,旨在通过结构检测、内容识别和关系预测三个阶段,实现对文档的高效、精准解析。该模型在多个中文和英文文档类型上均表现出色,尤其在表格、公式等复杂内容的识别上,相比现有方法有显著提升。此外,MonkeyOCR 支持多页文档的快速解析,推理速度达到 0.84 页/秒,远超其他主流模型。
2025-07-13 08:00:00
930
原创 【AI大模型前沿】Time-R1:伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
Time-R1 是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型,旨在通过强化学习训练方法赋予语言模型全面的时间推理能力,包括理解、预测和创造性生成。该模型通过三个阶段的训练——理解、预测和生成——逐步建立强大的时间逻辑映射,并能够对未来事件进行准确预测和合理场景生成。Time-R1 在多个时间推理任务中表现优异,甚至超越了参数量大得多的模型,如671B参数的 DeepSeek-R1。
2025-07-12 08:00:00
969
1
原创 【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型
SmolVLA是由Hugging Face开源的一个轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。该模型拥有4.5亿参数,能够在消费级GPU甚至CPU上运行,支持在MacBook等设备上部署。SmolVLA基于开源数据集训练,数据集标签为“lerobot”,并引入了异步推理堆栈,显著提高了机器人的响应速度和任务吞吐量。它在多模态输入处理、动作序列生成等方面表现出色,适用于多种机器人应用场景,如物体抓取与放置、家务劳动、货物搬运等。
2025-07-11 08:00:00
963
原创 【AI大模型前沿】MiniCPM 4.0:面壁智能开源的端侧大模型(小版本、低消耗、极致提速)
MiniCPM 4.0 是面壁智能推出的一款极致高效的端侧大模型,旨在为端侧设备提供高性能、低资源消耗的语言模型解决方案。该模型分为 8B 和 0.5B 两种参数规模,其中 8B 版本采用创新的稀疏架构,能够高效处理长文本任务,而 0.5B 版本则以低计算资源消耗和高性能著称。MiniCPM 4.0 通过自研的 CPM.cu 推理框架,实现了在极限场景下最高 220 倍的提速,常规场景下也能达到 5 倍的速度提升。
2025-07-10 08:00:00
852
1
原创 【AI大模型前沿】OmniAudio:阿里通义实验室的空间音频生成模型,开启沉浸式体验新时代
OmniAudio 是阿里巴巴通义实验室语音团队推出的一种从 360° 视频生成空间音频(FOA)的技术。它通过构建大规模数据集 Sphere360 和创新的模型架构,能够直接从 360° 视频生成标准的 3D 空间音频格式 FOA,捕捉声音的方向性,实现真实的 3D 音频再现。OmniAudio 的训练分为自监督的 coarse-to-fine 流匹配预训练和基于双分支视频表示的有监督微调,显著提升了空间音频生成的性能和沉浸感。
2025-07-09 08:00:00
1640
2
原创 【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型
DeepEyes是一个基于端到端强化学习训练的多模态深度思考模型,由小红书团队和西安交通大学联合开发。它通过动态调用图像工具(如裁剪和缩放)增强对细节的感知与理解,实现了视觉与文本推理的无缝融合。该模型在高分辨率图像的视觉搜索任务中表现出色,准确率高达90.1%,并显著减少了幻觉现象,提升了模型的可靠性和泛化能力。
2025-07-08 08:00:00
909
3
原创 【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践
Ming-Lite-Omni是由蚂蚁集团开源的统一多模态大模型,基于Mixture of Experts(MoE)架构设计,能够处理文本、图像、音频和视频等多种模态的数据,并生成高质量的文本和自然语音。该模型在多个模态基准测试中表现出色,具备高度的可扩展性和广泛的应用前景,适用于智能客服、内容创作、教育、医疗健康等多个领域。
2025-07-07 09:18:23
845
原创 【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是由通义联合深圳技术大学共同开发的多模态学习模型,专注于音频和视觉信号的对齐与融合。该模型通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率,并在多种语音处理任务中表现出色。
2025-07-06 08:00:00
1014
1
原创 【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破
Pixel Reasoner 是一款基于像素空间推理增强的视觉语言模型,旨在通过直接操作视觉输入(如放大图像区域、选择视频帧等)来提升模型对视觉细节的捕捉能力。它采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,显著提升了视觉问答、视频理解等任务的性能。该模型在多个视觉推理基准测试中取得了优异成绩,展现了其在视觉密集型任务中的强大潜力。
2025-07-05 08:00:00
1047
原创 【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界
Matrix-Game是由昆仑万维开源的工业界首个17B参数交互式世界基础模型,专注于可控游戏世界的生成。该项目采用两阶段训练策略,基于大规模无标签Minecraft游戏视频数据进行预训练,以学习环境的基本特征和动态规律;随后利用带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据进行细粒度的可控训练,使模型能够根据用户输入生成相应的交互式视频。
2025-07-04 08:00:00
1741
1
原创 【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南
BAGEL是由字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。它采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,涵盖语言、图像、视频和网络数据
2025-07-03 08:00:00
1278
2
原创 【MCP探索实践】Playwright MCP:微软打造的AI自动化利器,一键搞定浏览器操作
Playwright MCP是微软基于Model Context Protocol (MCP)协议开发的轻量级浏览器自动化工具。它通过Playwright的可访问性树实现与网页的交互,无需依赖视觉模型或截图,能够与大语言模型(LLM)无缝结合。
2025-07-02 08:55:48
1487
原创 【MCP探索实践】OpenMemory MCP:如何用MCP协议解锁AI工具的跨平台记忆共享
OpenMemory MCP是由mem0团队推出的一款开源工具,旨在解决AI工具在多场景切换时的记忆痛点。它基于开放模型上下文协议(MCP)构建,能够实现不同AI工具之间的上下文信息共享,并支持100%本地运行,确保数据存储在用户本地设备上,从而保障隐私和安全。
2025-07-01 08:00:00
678
3
原创 【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型
RelightVid是一个由上海 AI Lab联合多所高校推出的视频重照明模型,旨在通过文本提示、背景视频或HDR环境贴图对视频进行高质量的重照明。
2025-06-30 15:15:35
799
原创 【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
Index-AniSora是由哔哩哔哩(B站)开源的先进动漫视频生成模型。它基于超过1000万高质量的文本视频对进行训练,能够一键生成多种动漫风格的视频,包括番剧片段、国创动画、VTuber内容等。
2025-06-30 08:00:00
1339
1
原创 【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
ChatTS 是字节跳动与清华大学联合开发的多模态时序大模型,旨在提升 AI 在时序数据问答与推理中的应用能力。它采用纯合成驱动的方式,设计了一个端到端的数据生成、模型训练框架,能够原生地理解时间序列的形状、波动与语义含义,并进行进一步的问答和推理。该模型在对齐任务与推理任务上均优于基线,平均提升 25.8%,展现了强大的性能和广泛的应用前景。
2025-06-29 08:00:00
1042
2
原创 【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
Dolphin 是字节跳动开源的一款轻量级、高效的文档解析大模型,基于先解析结构后解析内容的两阶段方法,能够高效地处理多种类型的文档图像,包括学术论文、商业报告、技术文档等。它在多种文档解析任务上表现出色,性能超越了 GPT-4.1、Mistral-OCR 等模型。
2025-06-28 08:00:00
897
原创 【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型,助力播客与语音交互新突破
Muyan-TTS是一款开源的文本转语音(TTS)模型,专为播客和长篇语音内容生成场景设计。该模型预训练了超过10万小时的播客音频数据,能够实现零样本语音合成,即无需大量目标说话人的语音数据,仅通过少量参考语音和文本即可生成高质量语音。此外,Muyan-TTS还支持说话人适配功能,可以通过少量目标说话人的语音数据进行微调,实现个性化语音定制。
2025-06-27 08:00:00
1383
1
原创 【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
ViLAMP 是一款专为高效处理长视频内容而设计的视觉语言模型,能够在单张 A100 GPU 上处理长达 1 万帧(约 3 小时)的视频,同时保持稳定的理解准确率。该模型基于混合精度策略,通过差分关键帧选择和差分特征合并机制,显著降低了计算成本,提高了处理效率。ViLAMP 在多个视频理解基准测试中表现出色,尤其在长视频理解任务中展现出显著优势,为长视频分析提供了新的高效途径。
2025-06-26 08:00:00
1080
1
原创 【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
Seed1.5-VL是由字节跳动Seed团队开发的视觉语言多模态大模型,旨在推进通用多模态理解和推理能力。该模型由一个5.32亿参数的视觉编码器和一个激活参数规模达200亿的混合专家(MoE)大语言模型组成,通过创新的架构和训练方法,在60个公开评测基准中的38个上取得了最佳表现,展现了其在视觉理解、语言处理以及两者结合的多模态任务中的卓越性能。其高效的推理成本和强大的功能使其成为多模态领域的一个重要里程碑。
2025-06-25 08:00:00
725
1
原创 大模型之Spring AI实战系列(三十二):Spring Boot + DeepSeek 实战指南:工具函数(Function Call)实战应用
随着人工智能技术的飞速发展,大模型在各个领域的应用日益广泛,为开发者带来了前所未有的机遇和挑战。在众多的框架和平台中,Spring Boot以其简洁、高效的特点,成为了构建企业级应用的首选之一。而DeepSeek作为一款强大的人工智能平台,提供了丰富的API接口和功能,能够满足各种复杂的应用需求。本文将深入探讨如何将Spring Boot与DeepSeek相结合,通过工具函数(Function Call)的实战应用,帮助读者快速掌握这一前沿技术,实现高效、智能的应用开发。
2025-06-24 08:00:00
2206
52
原创 大模型之Spring AI实战系列(三十一):Spring Boot + DeepSeek 实战指南:结构化输出处理与实战应用
在AI应用开发中,**结构化输出**是提升模型响应质量的重要手段。通过合理使用结构化输出格式,我们可以更方便地解析和利用模型返回的内容,从而构建更智能的应用。
2025-06-23 15:00:11
841
各领域行业ChatGPT Prompt提示词大全
2024-06-05
CVP架构的企业级知识库落地
2024-05-26
面试必备十五问,面试难题预先知
2010-07-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人