- 博客(587)
- 资源 (8)
- 收藏
- 关注
原创 【MCP探索实践】MCPStore:多智能体隔离+RESTful API一键调用,MCPStore让LangChain集成快到飞起
MCPStore是一个轻量级的MCP(Model Context Protocol)工具管理库,旨在简化智能体(agents)和链(chains)使用MCP工具的配置和管理过程。它通过提供直观的API和灵活的配置选项,使得开发者可以轻松地注册、管理和使用MCP服务,同时支持全局共享和多智能体隔离两种模式,满足不同场景下的需求。
2025-08-27 08:00:00
366
1
原创 【AI大模型前沿】蚂蚁开源Ring-lite:边缘计算新选择,2.75B激活参数、小模型大智慧
Ring-lite是蚂蚁技术AntTech团队基于MoE架构推出的轻量级推理模型,以Ling-lite-1.5为基础,采用独创的C3PO强化学习训练方法,在多项推理Benchmark上达到SOTA效果,仅用2.75B激活参数。该模型通过稳定强化学习训练、优化Long-CoT SFT与RL的训练比重、解决多领域任务联合训练难题等技术创新,实现了高效推理,并开源了技术栈,包括模型权重、训练代码、数据集等,推动轻量级MoE推理模型的发展。
2025-08-26 08:00:00
796
34
原创 【AI大模型前沿】阿里开源Lingshu:一个模型搞定12种医学影像诊断
Lingshu是阿里巴巴达摩院开源的通用多模态医疗大模型,支持超过12种医学影像模态,包括X光、CT、MRI、超声、病理等,并在医疗多模态/文本问答和报告生成任务上达到SOTA性能,为医疗AI领域提供了强大的技术支撑。
2025-08-25 08:00:00
1015
35
原创 【AI大模型前沿】DAMO GRAPE:阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型
DAMO GRAPE是由浙江省肿瘤医院与阿里巴巴达摩院联合推出的一款全球首个基于平扫CT识别早期胃癌的AI模型。该模型突破了传统影像学的限制,通过深度学习技术分析非增强CT影像,能够高效地筛查出早期胃癌病灶,其在大规模临床研究中展现出85.1%的敏感性和96.8%的特异性,显著优于人类放射科医生,且能提前6个月发现早期胃癌病灶,为胃癌的早期诊断和治疗提供了新的高效手段,有望大幅提高胃癌患者的生存率。
2025-08-24 08:00:00
1248
3
原创 【AI大模型前沿】OmniAvatar:浙大联合阿里打造的音频驱动全身视频生成模型
OmniAvatar 是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。它能够根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。该模型基于像素级多级音频嵌入策略和 LoRA 训练方法,有效提升唇部同步精度和全身动作的自然度,并支持人物与物体交互、背景控制和情绪控制等功能,可广泛应用于播客、互动视频、虚拟场景等多种领域。
2025-08-23 08:00:00
692
4
原创 【MCP探索实践】Google GenAI Toolbox:Google开源的企业级AI数据库中间件、5分钟搞定LLM-SQL安全互联
genai-toolbox 是一款面向企业级场景的 MCP(Model-Context-Protocol)服务器开源工具箱,用 Go 语言实现,内置连接池、身份鉴权、OpenTelemetry 链路追踪,可把 PostgreSQL、AlloyDB 等数据库表/视图快速映射成 LLM 可调用的 Function Calling 工具,并支持 Python、Node.js、Go、Java 等多语言 SDK 集成。
2025-08-22 08:00:00
1770
44
原创 【MCP探索实践】MCP-Shield:守护MCP服务器安全的利器
MCP-Shield是一款由Riseandignite团队开发的开源安全扫描工具,专门用于检测Model Context Protocol(MCP)服务器中的潜在安全风险,如工具异常行为、数据传输异常以及跨域权限问题等。它通过扫描服务器配置文件,帮助用户发现并修复可能的安全问题,从而有效提升MCP服务器的安全性。
2025-08-21 08:00:00
690
5
原创 【MCP探索实践】mcp-installer:一键部署MCP服务器的高效工具
mcp-installer是一个专门用于安装其他MCP服务器的MCP服务器。它通过简单的指令和配置,能够自动下载、配置并启动所需的MCP服务器,支持Node.js和Python编写的MCP服务器,满足不同开发环境和语言偏好的需求。
2025-08-20 08:00:00
806
7
原创 【MCP探索实践】Windows-MCP:开源 AI Agent 一键打通 Windows 全接口
Windows-MCP是一个轻量级、开源的AI Agent与Windows系统集成工具,由CursorTouch团队开发。它作为MCP服务器,运行在Windows系统上,能够接收来自AI Agent的指令,并将其转换为Windows系统可理解的操作指令,从而实现文件浏览、应用控制、UI交互、QA测试等功能。Windows-MCP支持任何大语言模型(LLM),无需依赖传统计算机视觉或特定微调模型,具备丰富的UI自动化工具集,操作延迟低(1.5-2.3秒),可定制与扩展性强,基于MIT许可证完全开源,适合开发者
2025-08-19 08:00:00
1101
2
原创 【MCP探索实践】MCP MongoDB Server:让LLM与MongoDB无缝交互
MCP MongoDB Server是一个基于Model Context Protocol(模型上下文协议)的服务器,它允许语言模型(LLM)与MongoDB数据库进行交互。通过标准化的接口,MCP MongoDB Server提供了检查集合模式和执行MongoDB操作的能力。无论是查询文档、执行聚合管道,还是创建索引,MCP MongoDB Server都能轻松应对。
2025-08-18 08:00:00
2012
49
原创 【MCP探索实践】Redis官方MCP Server:用自然语言驱动Redis的AI原生存储引擎
mcp-redis是由Redis Labs官方开发的自然语言接口服务器,旨在为AI代理应用提供高效的数据管理和搜索功能。它基于Model Content Protocol(MCP)协议,支持Redis的全数据类型,包括字符串、哈希、列表、集合、有序集合、流、JSON和向量索引等。通过自然语言查询,mcp-redis能够无缝与任何MCP客户端集成,实现高性能的数据操作。无论是缓存、会话存储、事件处理还是向量搜索,mcp-redis都能以极简的方式满足需求,让AI代理像调用函数一样操作Redis。
2025-08-17 08:00:00
2232
4
原创 【MCP探索实践】Chrome MCP Server:基于Chrome扩展的AI浏览器自动化神器——技术解析与实践指南
Chrome MCP Server是一款基于Chrome扩展的模型上下文协议(MCP)服务器,它能够将Chrome浏览器的完整功能开放给AI助手(如Claude),使AI能够直接控制用户日常使用的浏览器,实现复杂的自动化操作、内容分析和语义搜索等功能。
2025-08-16 08:00:00
836
5
原创 【MCP探索实践】Bright Data MCP:实时、安全、智能,网络数据抓取的三剑客来袭
Bright Data MCP 是一款由 Bright Data 团队开发的开源项目,它是一个强大的模型上下文协议(MCP)服务器,专为公共网络访问设计。该工具能够让大型语言模型(LLMs)、agents 和应用程序实时访问、发现和提取网络数据,有效绕过地理限制和网站的反爬虫机制。
2025-08-15 08:00:00
2754
50
原创 【MCP探索实践】MiniMax MCP Server:多模态生成服务器,让AI同时玩转视频/语音/图像生成
MiniMax MCP Server 是由 MiniMax 稀宇科技推出的一款基于模型上下文协议(MCP)的多模态生成服务器。它通过简单的文本输入,能够调用视频生成、图像生成、语音生成及声音克隆等多项前沿能力。
2025-08-14 08:00:00
3072
50
原创 【MCP探索实践】Firecrawl MCP Server:为LLM客户端赋能的开源Web爬虫服务器,数据采集效率提升10倍
Firecrawl MCP Server 是一个基于模型上下文协议(Model Context Protocol,简称 MCP)的服务器实现,它通过与 Firecrawl 的集成,为各种 LLM 客户端(如 Cursor、Claude 等)提供了强大的 Web 爬虫能力。该项目由 mendableai 团队开发并开源,旨在帮助用户更高效地从网络中获取数据,以支持 LLM 的训练、研究和应用开发。
2025-08-13 08:22:44
1545
39
原创 【MCP探索实践】蚂蚁AntV开源的可视化图表MCP Server Chart:高效数据可视化的利器
MCP Server Chart 是蚂蚁AntV团队推出的一款开源的可视化图表生成工具。它基于Model Context Protocol(MCP)协议,支持超过25种可视化图表,涵盖了常见的统计图表(如折线图、柱状图、饼图等)、关系类图表(如组织架构图、思维导图、网络图等)以及标注地图和路径地图。
2025-08-12 08:00:00
775
4
原创 【MCP探索实践】ROS MCP Server:自然语言控制机器人,从此告别复杂指令
**ROS MCP Server** 是一个基于 WebSocket 的跨平台机器人控制框架,旨在通过自然语言处理(NLP)技术,将用户输入的指令转化为 ROS/ROS2 的控制命令。该项目支持与 ROS 1 和 ROS 2 的兼容性,能够通过 `rosbridge` 与机器人系统进行通信,实现对机器人关节、传感器、移动平台等的控制。其核心优势在于无需修改原有机器人代码,即可通过自然语言指令进行交互操作,适用于多种机器人平台和开发环境。
2025-08-11 08:00:00
1303
43
原创 【AI大模型前沿】Nanonets-OCR-s:从学术论文到法律合同,智能识别公式、签名、表格与图像
Nanonets-OCR-s 是一款由 Nanonets 开发的先进图像到 Markdown 的 OCR 模型,它不仅能够从图像中提取文本,还能将文档转换为结构化的 Markdown 格式。该模型通过智能内容识别和语义标记,为大型语言模型(LLMs)的下游处理提供了理想的数据格式。Nanonets-OCR-s 在处理复杂文档时表现出色,具备多种智能功能,使其在文档处理领域具有广泛的应用前景。
2025-08-10 08:00:00
986
7
原创 【AI大模型前沿】Kwai Keye-VL:颠覆认知、国产多模态大模型突然发布,视频理解能力堪比人类
Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合 SigLIP 初始化的视觉编码器,支持动态分辨率输入。该模型能够深度融合和处理文本、图像、视频等多模态信息,凭借创新的自适应交互机制与动态推理能力,致力于为用户打造更智能、更全面的多模态交互新范式。
2025-08-09 08:00:00
1236
6
原创 【AI大模型前沿】Osmosis-Structure-0.6B:小型语言模型在结构化信息提取中的突破
Osmosis-Structure-0.6B 是一款专门设计用于结构化输出生成的小型语言模型,其参数规模为 0.6B。尽管模型规模相对较小,但在处理结构化信息提取任务时表现出色,尤其在数学推理和问题解决领域。该模型通过在训练过程中强制关注每个键的值,显著提高了生成结构化响应的准确性。
2025-08-08 08:00:00
1952
3
原创 【AI大模型前沿】腾讯AI Lab开源的SongGeneration:音乐生成大模型的技术探索与实践
SongGeneration是腾讯AI Lab推出的一款基于大模型的音乐生成工具,它通过先进的技术架构和算法,实现了高质量的音乐生成。该项目支持文本控制、多轨合成、风格跟随等功能,能够满足创作者在不同场景下的音乐创作需求。
2025-08-07 14:22:14
1019
2
原创 【AI大模型前沿】Vui:Fluxions-AI开源的轻量级语音对话模型,开启自然语音交互新时代
Vui是由Fluxions-AI团队开源的轻量级语音对话模型,基于LLaMA架构开发。该模型经过4万小时的对话训练,能够精准模拟真实对话中的语气词、笑声和停顿,提供沉浸式的交互体验。Vui提供了三种模型版本,分别适用于通用对话、单人上下文感知对话和双人互动对话场景。其轻量级设计支持在消费级设备上运行,无需依赖云端算力,解决了传统语音模型“重、假、难部署”的痛点,为语音交互技术的广泛应用提供了新的可能。
2025-08-07 08:00:00
961
1
原创 【AI大模型前沿】Stream-Omni:多模态交互的黄金三角 - 视觉、语音、文本的完美融合
Stream-Omni 是一个基于大型语言模型(LLM)的多模态交互模型,能够同时处理文本、图像和语音三种模态的输入,并生成相应的文本和语音输出。该模型通过序列维度拼接和层维度映射的方式,实现了视觉与文本的对齐,以及语音与文本的对齐,从而在视觉理解、语音交互和视觉引导的语音交互任务上表现出色。Stream-Omni 的训练仅需少量全模态数据,训练效率高,适合在资源有限的环境中部署。
2025-08-06 08:00:00
1514
50
原创 【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布,支持多语言、手写体识别,赋能智能文档处理
PaddleOCR 3.0是基于PaddlePaddle 3.0框架推出的全新一代OCR工具包,旨在为开发者提供高效、准确、易用的文本识别与文档解析能力。该版本支持五种语言的文本识别,包括简体中文、繁体中文、简体中文拼音、英文和日文,并且能够处理复杂的手写体文本。此外,PaddleOCR 3.0还引入了PP-StructureV3和PP-ChatOCRv4等新模型,实现了对PDF、图片等多格式文档的高精度解析与智能理解。
2025-08-05 08:00:00
1737
34
原创 【GitHub开源AI精选】InftyThink:浙大联合北大打造的无限深度推理范式,突破大模型长推理瓶颈
InftyThink是一种创新的大模型推理范式,由浙江大学和北京大学联合推出,旨在突破传统模型在长推理任务中的局限性。它通过分段迭代的方式,将复杂的推理过程分解为多个短片段,并在每个片段后生成中间总结,实现分块式思考。这种“锯齿形”内存模式显著降低了计算复杂度,使模型能够处理理论上无限长度的推理链,同时保持推理的准确性和效率。
2025-08-04 08:00:00
1327
36
原创 【GitHub开源AI精选】Salesforce开源项目MAS-Zero:零监督下的多智能体系统设计框架
MAS-Zero是Salesforce推出的一个创新的多智能体系统(MAS)设计框架,能够在无需人类监督的情况下自动设计和优化MAS。它基于元级设计,在推理时动态生成、评估和改进MAS配置,通过自验证机制从候选解决方案中选择最优结果。这一框架在数学推理、高级问答和代码生成等多个领域表现出色,且完全不依赖外部监督信号,展现了强大的自进化能力和灵活性。
2025-08-03 08:00:00
999
25
原创 【GitHub开源AI精选】MultiTalk:中山大学与美团联合打造的音频驱动多人对话视频生成框架
MultiTalk 是一个新型的音频驱动多人对话视频生成框架,由中山大学深圳校区、美团和香港科技大学联合开发。它能够根据多声道音频输入、参考图像和文本提示,生成包含多人互动且口型与音频一致的视频内容。通过创新的 Label Rotary Position Embedding (L-RoPE) 方法,MultiTalk 有效解决了多声道音频与人物绑定的问题,并借助部分参数训练和多任务训练策略,保留了基础模型的指令跟随能力。这一框架在多个数据集上表现出色,展现了强大的视频生成能力,适用于生成卡通。。。
2025-08-02 08:00:00
2134
原创 【GitHub开源AI精选】VRAG-RL:阿里通义推出的多模态RAG推理框架,助力视觉信息理解与生成
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架。它专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力,通过定义视觉感知动作空间,让模型从粗粒度到细粒度逐步获取信息,激活推理能力。该框架引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力,在多个基准测试中显著优于现有方法,展现出强大的视觉信息理解潜力。
2025-08-01 08:00:00
1879
26
原创 【AI大模型前沿】GLM-4.5:智谱打造的开源SOTA模型,推理、代码与智能体能力融合先锋
GLM-4.5 是智谱推出的新一代旗舰模型,专为智能体应用打造,是首款原生融合推理、代码和智能体能力的开源 SOTA(State-of-the-Art)模型。它采用混合专家(MoE)架构,有两个版本:GLM-4.5(3550 亿参数,320 亿激活)和 GLM-4.5-Air(1060 亿参数,120 亿激活)。该模型在多个评测基准中表现卓越,综合性能达到开源模型的顶尖水平,尤其在代码智能体场景中表现优异。它支持混合推理模式,提供“思考模式”和“非思考模式”,兼顾复杂任务和即时响应需求。。。
2025-07-31 08:00:00
1332
22
原创 【GitHub开源AI精选】ContentV:字节跳动开源的高效文生视频模型框架,助力AI视频生成技术突破
ContentV是由字节跳动开源的80亿参数文生视频模型框架,旨在通过高效的训练策略和极简架构实现高质量视频生成。该项目通过将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码,结合多阶段训练策略和强化学习人类反馈框架,在仅使用有限计算资源的情况下,达到了85.14的VBench评分,仅次于Wan2.1-14B。ContentV不仅支持文本到视频的生成,还具备自定义视频参数、风格迁移与融合、视频续写和修改等多种功能,能够满足多样化的视频创作需求。
2025-07-30 08:00:00
932
2
原创 【GitHub开源AI精选】PandasAI:一键开启数据对话时代,非技术用户也能轻松上手
PandasAI 是一个基于 Python 的开源平台,由 Sinaptik AI 团队开发。它通过结合大语言模型(LLM)和检索增强生成(RAG)技术,使用户能够以自然语言的形式与数据进行交互。无论是技术专家还是非技术用户,都可以通过简单的对话方式快速获取数据洞察,极大地提高了数据分析的效率和可访问性。PandasAI 支持多种数据格式,包括 SQL 数据库、CSV 文件和 Parquet 文件,能够无缝集成到现有的数据生态系统中。
2025-07-29 08:00:00
1090
4
原创 【GitHub开源AI精选】Google AI Edge Gallery:谷歌赋能的离线AI模型探索利器
Google AI Edge Gallery是由谷歌开发的一个实验性应用,旨在让用户能够在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。该项目支持在Android设备上运行,并且完全离线操作,用户可以轻松切换不同的预训练模型,进行图像问答、文本生成、多轮对话等操作,同时实时查看模型的性能指标。
2025-07-28 08:00:00
1692
37
原创 【GitHub开源AI精选】TEN VAD:高性能实时语音活动检测系统,助力AI对话系统高效交互
TEN VAD 是一款高性能的实时语音活动检测系统,专为企业级应用设计,能够精确地检测音频流中的语音活动。它基于先进的深度学习技术,通过高效算法和优化的模型结构,实现了低延迟、轻量级和高精度的语音检测。TEN VAD 支持多种操作系统(如 Linux、Windows、macOS、Android 和 iOS),并提供 Python 和 C 接口,方便开发者集成。其在智能语音助手、在线客服系统、视频会议软件等场景中表现出色,显著提升了交互体验。
2025-07-27 08:00:00
916
2
原创 【GitHub开源AI精选】Morphik:开源多模态检索增强生成工具,助力AI应用开发
Morphik是一个开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档而设计。它支持对文本、PDF、图片、视频等多种格式的文件进行搜索和处理,采用ColPali等先进技术,能够理解文档中的视觉内容,并具备快速元数据提取功能。Morphik通过其强大的多模态嵌入技术、知识图谱构建能力以及灵活的数据管理与集成功能,为开发者提供了一个高效、灵活且易于使用的AI应用开发平台。其核心目标是帮助企业和开发者快速构建基于私有知识的AI应用程序,提升知识管理和应用开发的效率。
2025-07-26 08:00:00
752
2
原创 【GitHub开源AI精选】AgenticSeek:开源本地通用AI Agent、打造自主执行任务的智能助手
AgenticSeek是一个完全本地化的开源AI助手,旨在为用户提供一个自主执行任务的智能工具。它能够在本地设备上运行,无需依赖云端服务,从而确保用户数据的隐私和安全。AgenticSeek支持多种编程语言,具备智能任务拆解和执行能力,能够自主浏览网页、编写代码、规划复杂项目等。无论是旅行规划、代码生成还是信息搜索,AgenticSeek都能通过语音或文本交互的方式,为用户提供高效、便捷的AI服务。
2025-07-25 08:00:00
1999
原创 大模型之Spring AI实战系列(四十三):Spring Boot + Ollama (Tool Calling)实现工具调用与对话记忆功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现智能工具调用功能,通过 `FunctionToolCallback` 扩展了 AI 助手的能力。本文将继续深入,介绍如何通过 **ChatMemory** 和 **ToolCallingManager** 实现更复杂的工具调用和对话记忆功能。
2025-07-24 08:00:00
945
1
原创 大模型之Spring AI实战系列(四十二):Spring Boot + Ollama (Function Calling)实现智能工具调用功能
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现基于 Advisor 的 RAG 系统,通过封装的 RAG 流程简化了知识库问答系统的开发。本文将继续深入,介绍如何通过**智能工具调用(Function Calling)** 功能来扩展 AI 助手的能力。
2025-07-23 08:00:00
800
原创 大模型之Spring AI实战系列(四十一):Spring Boot + Ollama 实现基于Advisor的RAG系统
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现 RAG(Retrieval-Augmented Generation)系统,将文档上传到向量数据库并结合大模型生成回答。本文将继续深入,介绍如何通过**Advisor API** 来简化 RAG 系统的实现。
2025-07-22 08:00:00
1699
原创 大模型之Spring AI实战系列(四十):Spring Boot + Ollama 实现RAG(Retrieval-Augmented Generation)系统
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现向量数据库集成,将文本信息转化为数值向量并进行高效的语义搜索。本文将继续深入,介绍如何通过**RAG(Retrieval-Augmented Generation)** 技术来构建一个完整的问答系统。
2025-07-21 08:00:00
1399
2
原创 大模型之Spring AI实战系列(三十九):Spring Boot + Ollama 实现向量数据库集成
在上一篇文章中,我们介绍了如何使用 Spring AI 框架实现文本向量嵌入功能,将文本信息转化为数值向量形式。本文将继续深入,介绍如何通过**向量数据库(Vector Store)** 技术来存储和检索这些向量数据。
2025-07-20 08:00:00
2082
3
各领域行业ChatGPT Prompt提示词大全
2024-06-05
CVP架构的企业级知识库落地
2024-05-26
面试必备十五问,面试难题预先知
2010-07-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人