- 博客(151)
- 收藏
- 关注
原创 利用LangSmith聊天数据集进行模型微调的完整流程
在本文中,我们将深入探讨如何使用LangSmith聊天数据集微调一个模型,并在LangChain应用中使用这个经过微调的模型。整个过程简单明了,分为三个主要步骤:创建聊天数据集、加载数据示例以及进行模型微调。让我们从安装必要的前置条件开始。
2025-07-10 15:26:16
192
原创 使用SingleStoreDB存储聊天信息历史
在这个示例中,我们首先创建了一个对象,通过会话ID和数据库连接信息与数据库进行交互。接下来,我们调用和方法分别添加用户和AI的消息。
2025-07-10 15:11:50
287
原创 使用 KafkaChatMessageHistory 管理聊天消息的实战演示
Apache Kafka 是一种分布式消息系统,广泛用于实时数据流处理。其核心是允许发布订阅消息,并将数据以日志的形式存储在集群中。Kafka 的强大之处在于其高吞吐、高可靠性以及可扩展性,使其成为现代数据架构中不可或缺的一部分。在聊天应用领域,我们需要可靠的消息存储和检索机制。KafkaChatMessageHistory 是一个利用 Kafka 的特性来进行消息存储和管理的工具,允许开发者在 Kafka 集群中保存和检索聊天记录。
2025-07-10 15:07:38
404
原创 使用自托管的 SearxNG 搜索 API 进行网络搜索的实战指南
SearxNG 是一个社区驱动的搜索引擎,提供了匿名搜索功能,并支持多个搜索引擎的聚合结果。它允许用户定制搜索查询参数,以满足不同的搜索需求。这对于研究人员、开发者、以及需要定制化搜索解决方案的企业来说,是一种不错的选择。
2025-07-10 10:26:40
419
原创 使用Riza Code Interpreter实现AI代理任务
这种方法不仅可以处理简单的字符计数问题,还可以扩展到诸如数据分析、处理复杂算法等更广泛的应用中。AI代理可以根据具体需求动态调整策略,选择适合的工具来解决问题。如果遇到问题欢迎在评论区交流。
2025-07-10 10:25:48
464
原创 使用Golden Query API的LangChain工具:快速获取结构化数据
在使用Golden Query工具时,可以结合具体的业务需求选择不同的查询类型。此外,请确保对返回的数据进行适当的处理和安全性审查,以保护敏感信息。如果遇到问题欢迎在评论区交流。
2025-07-09 15:21:46
100
原创 利用Dataherald实现数据查询自动化
Dataherald是一种数据查询自动化工具,它通过简化复杂的数据库查询过程,使开发者和分析师能够快速地获取数据。利用Dataherald API,我们可以轻松地执行常见的数据查询任务,而不需要深入了解SQL语法。
2025-07-09 15:18:02
410
原创 使用AskNews实时获取全球新闻并优化LLM响应
AskNews每天处理超过30万篇文章,通过翻译、摘要、实体提取和索引等方式,将这些信息集成到矢量数据库中。这些数据库的低延迟端点可供查询,有效优化了LLM与最新信息的结合过程。此外,AskNews注重透明度,源覆盖率跨越数百个国家,支持13种语言。
2025-07-09 15:12:28
232
原创 使用 Milvus Hybrid Search Retriever:结合密集和稀疏向量搜索
Milvus作为一款强大的向量数据库,特别适合处理嵌入搜索任务。它能够高效管理和搜索大规模向量数据,支持密集和稀疏向量的混合搜索,为不同类型的AI应用提供强有力的支持。
2025-07-09 15:02:19
371
原创 深入理解Embedchain及其在数据检索中的应用
Embedchain是一个开源软件包,不仅提供了本地化的数据管理能力,还提供了托管平台解决方案,用于处理各种数据类型。其主要功能包括数据加载、索引、检索和同步。在任何需要快速数据查找和管理的应用中,Embedchain都能发挥重要作用。
2025-07-09 14:56:15
637
原创 使用TileDB进行高效的向量数据库查询
在现代数据分析和机器学习领域中,处理大规模的多维数组数据是常见的需求。TileDB是一个强大的引擎,专注于对密集和稀疏多维数组进行索引和查询。它尤其适用于向量数据库应用,提供了快速的近似最近邻(ANN)搜索能力,通过TileDB-Vector-Search模块实现。该模块支持无服务器执行ANN查询以及在本地磁盘和云对象存储(如AWS S3)中存储向量索引。在这篇文章中,我们将使用TileDB搭建一个简化的向量数据库示例,展示如何利用其功能进行高效的相似度搜索。
2025-07-02 16:21:59
175
原创 使用 Qdrant 和 Langchain 实现高效的向量相似性检索
Qdrant 是一款专为生产环境准备的向量相似性搜索引擎,支持通过 API 进行向量存储、搜索及管理,并提供附加的载荷和扩展过滤功能。Langchain 是一个强大的库,能够轻松集成不同的嵌入模型和向量存储,便于开发复杂的搜索和检索应用。
2025-07-02 16:16:40
392
原创 在Postgres中实现高效向量搜索:使用PGEmbedding与HNSW
在处理复杂数据集时,向量搜索是一种关键的技术手段。传统数据库通常不擅长处理向量数据,而PGEmbedding通过引入HNSW算法使得Postgres能够高效处理向量相似性搜索。HNSW是一种基于图的搜索算法,适用于大规模的向量数据集。
2025-07-02 16:13:03
261
原创 利用Clarifai构建AI语义搜索引擎的实战指南
Clarifai不仅支持文本的语义搜索,还支持图像、视频帧的语义搜索和基于属性的搜索。这使其成为构建多模态搜索引擎的理想平台。要使用Clarifai,首先需要一个账户和个人访问令牌(PAT)。
2025-07-02 09:56:36
287
原创 使用TOML格式进行配置文件处理的实践指南
在这个示例中,我们使用TomlLoader来加载名为的配置文件,并打印出其内容。文件中包含多个层次的配置项,比如内部创建日期、更新日期、规则的名称和描述等。
2025-07-02 09:36:02
312
原创 使用John Snow Labs的NLP工具生成文本嵌入
John Snow Labs的NLP工具集成了多个高性能的模型和算法,这些模型可以帮助开发者快速实现文本分析任务。文本嵌入是自然语言处理中的一项核心技术,用于将文本转换为机器可理解的向量表示,从而便于计算机进行语义分析和处理。
2025-07-01 16:07:58
333
原创 使用Infinity服务创建Langchain嵌入
Infinity是一个用于创建嵌入的开源项目,它提供可灵活配置的嵌入服务器。该服务器支持多种模型,包括系列,使得在不同的硬件环境中应用变得容易。
2025-07-01 16:06:08
119
原创 使用Elasticsearch生成嵌入的完整指南
Elasticsearch是一个开源的全文搜索引擎,广泛应用于日志分析、性能监控和复杂搜索等场景。通过引入自然语言处理中的嵌入技术,可以提升Elasticsearch在相似度搜索和文本匹配中的精度。
2025-07-01 16:00:59
370
原创 在本地使用 ExLlamaV2 快速运行量化模型指南
ExLlamaV2 是一个专注于本地快速运行大语言模型的推理库,特别适合在现代消费者级 GPU 上运行。它支持 GPTQ 和 EXL2 两种常见的量化模型,这些模型能够在 Hugging Face 上找到,提供了高效的内存使用和推理速度。
2025-07-01 15:58:25
308
原创 使用Amazon Bedrock构建安全多样的生成式AI应用
Amazon Bedrock是AWS提供的一个全面管理的服务,它汇集了来自AI行业领先公司(如AI21 Labs、Anthropic、Cohere、Meta等)的基础模型(FMs)。Bedrock不仅提供了一种能够简化模型调用的统一API,还允许开发者安全且私密地定制这些模型。借助Bedrock,企业能够利用生成式AI的强大功能,无需担心基础设施管理。通过与现有AWS服务的集成,Bedrock让AI功能的部署变得更加轻松。
2025-07-01 14:05:29
412
原创 使用Runhouse生态系统集成LangChain中的自托管LLM与嵌入
Runhouse是一个用于分布式计算的强大工具,特别是在机器学习和人工智能领域,它与LangChain结合可以实现自托管的语言模型(LLM)和嵌入技术。LangChain本身是一个以链式思维构建的框架,专注于将多个语言模型或组件组合成一个强大的系统。通过Runhouse,我们可以在本地或自定义的云集群中托管这些模型,增加了灵活性和控制。
2025-07-01 13:38:14
259
原创 使用Momento与LangChain集成:快速实现AI缓存和向量存储
Momento是世界上首个真正的无服务器缓存服务,具备瞬时弹性和缩放至零的能力。它提供低延迟的分布式缓存和简单易用的向量索引(Momento Vector Index, MVI),非常适合LLM数据需求。LangChain是一个强大的Python库,用于构建支持LLM的应用。通过集成Momento,开发者可以轻松实现缓存、内存存储和向量索引功能。
2025-07-01 11:05:15
266
原创 使用Label Studio进行数据标注与LangChain集成
在构建大型语言模型(LLMs)的过程中,数据标注是一个至关重要的步骤。Label Studio作为开源数据标注平台,为LangChain提供了灵活的数据标注方案,使得创建自定义训练数据和获取人类反馈变得更加高效。本文将介绍如何安装Label Studio,并展示与LangChain集成的代码示例。
2025-07-01 11:02:19
427
原创 用Comet追踪LangChain实验并评估表现
Comet是一款机器学习平台,旨在帮助用户管理、可视化和优化他们的机器学习模型。LangChain是一个专为语言模型设计的工具包,支持大语言模型的各种应用场景。结合这两个工具,可以更好地分析和提升模型性能。定义并应用自定义评估指标(如ROUGE分数),测量生成文本的质量。
2025-06-30 17:06:26
384
原创 使用BibTeX与Python进行文献管理和解析
BibTeX作为一种文献管理工具,可以高效地组织和存储学术文献的书目信息。随着Python生态的不断丰富,我们可以使用第三方库来解析和处理BibTeX文件,从而自动化文献管理任务。
2025-06-30 15:21:38
328
原创 如何结合LangChain使用华为Ascend NPU进行嵌入模型运算
华为Ascend NPU是一种专为AI计算设计的处理器,提供了强大的计算能力和数据处理能力。结合LangChain,开发者可以利用Ascend NPU加速嵌入模型的运算,从而提升AI应用的性能。
2025-06-30 15:16:01
380
原创 Acreom与LangChain结合:本地Markdown知识库与任务管理
Acreom是一个无需安装即可运行的知识库系统,专注于本地Markdown文件的管理。它通过将信息组织在Markdown文件中来提供简便而有效的方式来存储和检索知识。LangChain是一个强大的AI框架,通过提供不同的“文档加载器”以支持多种文档格式处理。
2025-06-30 15:06:53
390
原创 利用 FireCrawl 自动化网站数据提取以支持 AI 应用
FireCrawl适用于需要从商业网站、帮助中心或文档站点提取数据的AI开发者。它特别适合用于训练机器学习模型、市场研究以及内容聚合等场景。FireCrawl是数据驱动AI应用的绝佳工具,助力开发者轻松应对复杂网页抓取任务。如果遇到问题欢迎在评论区交流。
2025-06-30 12:56:39
280
原创 使用 UnstructuredLoader 处理多类型文档文件
Unstructured 是一个业界领先的文档处理库,通过 UnstructuredLoader,我们可以方便地加载和处理多种文件类型。这对于需要处理异构文档数据的开发者来说,提供了极大的便利。
2025-06-30 12:55:37
388
原创 深入探究LangChain:架构、组件及应用示例
LangChain为开发者提供了一整套用于构建、调试和部署LLM应用的工具。其模块包括核心组件库、第三方集成例如、应用管理平台LangSmith,以及用于部署API的langserve等等。
2025-06-30 12:52:30
556
原创 使用Tavily Search API实现实时智能查询
在人工智能的应用中,特别是使用大型语言模型(LLMs)时,快速且准确地获取实时数据是一个重要需求。Tavily Search API是一款专为AI代理设计的搜索引擎,能够提供实时、准确且事实性的搜索结果。这篇文章将介绍如何集成Tavily Search API,进行智能搜索并在开发中应用。
2025-06-30 10:39:48
189
原创 使用Milvus和OpenAI进行RAG的实践指南
检索增强生成(RAG)是一种结合信息检索和文本生成的技术。它利用信息检索技术从大型数据集中找到相关信息,然后使用生成模型(如OpenAI的GPT)基于这些信息生成自然语言回答。这种方法尤其适用于需要从大量文本中提取信息并提供详细答案的场景。
2025-06-27 15:55:27
214
原创 RAG Fusion的应用及实现指南
RAG技术基于两个核心组件:信息检索和生成模型。它首先利用查询生成从海量数据中检索相关内容,然后通过生成模型生成响应。在RAG Fusion中,我们通过生成多个查询,并利用互惠排名融合策略对结果进行重新排序,以提高搜索的相关性和准确性。
2025-06-27 15:49:16
273
原创 利用AWS Bedrock进行RAG管道构建的实战指南
AWS Bedrock是一项托管服务,为开发者提供一系列基础模型以构建AI应用程序。通过集成Anthropic Claude模型进行文本生成,以及利用Amazon Titan模型进行文本嵌入,开发者能够快速实现复杂的AI任务。而FAISS作为向量存储,使得在大规模数据上进行快速近似最近邻搜索成为可能。
2025-06-27 15:43:34
247
原创 使用OpenAI函数代理创建智能决策AI
在AI应用开发中,一个常见需求就是创建能够自动执行特定任务的智能代理。OpenAI提供了一种函数调用机制,使得我们可以创建这样的代理。通过与Tavily搜索引擎的集成,该代理不仅能够分析数据,还能实时获取外部信息。
2025-06-27 15:38:56
430
原创 使用Neo4j语义层与LangChain实践智能代理
语义层是一个抽象层,旨在提供一种更自然的方式与数据交互。通过将复杂的数据库查询转化为简单的语言指令,它使得用户可以更直观地与系统进行互动。结合Neo4j强大的数据关系能力和OpenAI的自然语言处理,从而实现一个智能化的数据交互解决方案。
2025-06-27 15:36:16
303
原创 使用LangChain与Neo4j进行自然语言查询的实现
Neo4j是一款领先的图数据库,它使用Cypher作为查询语言。结合LangChain,我们可以通过自然语言对Neo4j数据库进行交互,大大降低了对用户的技术要求,提高了数据查询的灵活性。
2025-06-27 15:34:28
273
原创 利用MongoDB与OpenAI实现父文档检索(Parent-Document Retrieval)
传统的检索增强生成(RAG)方法通常直接基于分片的文档进行检索。父文档检索方法则通过将大型文档首先拆分为中等大小的块,然后再拆分为更小的块。在接收到查询后,创建查询的嵌入并与小块进行比较。通过传递中等大小的块(而非小块)来辅助生成,能够更好地保持上下文信息,提高生成质量。
2025-06-27 15:32:18
291
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人