alpha xu-CSDN博客

原创理解大模型的对话和检索能力

RAG和联网搜索均通过“检索+生成”模式扩展模型能力，但RAG基于内部知识库（如企业文档），适合专业领域问答；联网搜索实时检索互联网，解决时效性问题（如新闻、股价）。RAG响应快且可控，但数据需手动更新；联网搜索依赖搜索引擎，结果动态但不可控。两者可结合使用，未来趋势是智能切换数据源以兼顾实时性与安全性。

2025-07-16 21:31:53 581

当前LLM开发生态涵盖代码优先框架（如LangChain、LlamaIndex）、低代码平台（Dify、Coze）、多Agent系统（CrewAI）及企业级MaaS（阿里云百炼）。开发者可根据需求选择：灵活编程用LangChain，快速部署选Dify，企业集成依赖云平台，多Agent协作采用CrewAI。开源工具（MaxKB）适合知识库管理，而AutoGPT等实验性框架推动自动化前沿。选型需平衡技术门槛、场景复杂度与企业合规要求。

2025-07-16 18:00:55 1053

原创理解人工智能

人工智能历经从规则驱动到数据驱动的演进，现已形成大模型（如GPT-4、DeepSeek）与小模型协同的生态。大模型擅长跨模态生成与复杂推理，小模型聚焦高精度预测与边缘计算。当前AI已渗透各领域：LLM驱动智能创作与对话，多模态模型实现文图音视频交互，分析式AI优化行业决策。工具层面，通用助手（如DeepSeek、Kimi）、生产力工具（WPS AI）及开发平台（Coze、Dify）降低使用门槛，推动AI普惠化。未来技术将更强调实时协同、因果推理与自动化学习。

2025-07-16 17:55:35 463

原创机器学习中的朴素贝叶斯（Naive Bayes）模型

朴素贝叶斯算法实例解析与公式总结实例分析：通过垃圾邮件分类案例演示朴素贝叶斯算法。数据集显示垃圾邮件占比60%，正常邮件40%。计算各词的条件概率（如"免费"在垃圾邮件中出现概率为1.0），并通过联合概率判定新邮件类别（如"免费中奖"被判为垃圾邮件）。引入拉普拉斯平滑避免零概率问题。贝叶斯定理应用：以"贝叶死"疾病检测为例，虽然检测准确率99.9%，但因发病率仅万分之一，导致阳性结果中实际患病概率仅9.1%，凸显先验概率的重要性。公式总结：

2025-07-14 16:40:11 775

原创 Qwen智能体qwen_agent与Assistant功能初探

优点：模块化架构支持灵活扩展，集成多工具链（搜索/代码/文档处理），具备复杂任务分解和动态学习能力，企业级场景适配性强，支持多模态交互。缺点：工具配置复杂度较高，长任务处理效率依赖模型性能，定制开发需技术基础，实时性较专用系统稍弱。同类产品OpenAI的Assistant API（功能相似但更封闭）LangChain（更开发者导向但集成度低）Microsoft Copilot Studio（企业集成强但灵活性弱）发展动向。

2025-05-09 12:32:03 1177

原创 LangChain中不同Agent类型使用实操

特点：零样本学习，不保留历史适用场景：单轮任务，不需要上下文记忆,但实际经过对memory的配置和prompt配合，也能实现上下文记忆。示例程序总结：注意定义agent = ZeroShotAgent，需要定义llm_chain，prompt和tools这几个参数。完整示例，可成功执行import os# 1. 定义一个简单的加法计算器工具"""简单的加法计算器"""try:# 移除所有空格和引号# 分割数字# 转换为整数并求和str。

2025-05-07 01:08:37 985

原创使用LangChain连接远程Oracle数据库尝试LLM 提供的SQL智能助理

为完成此次数据库连接实验，笔者用自己的笔记本电脑搭建了一台linux虚机，安装了oracle 23C，并借助deepseek创建了若干与电商业务有关的表并插入了一些记录。接着在windows实体机端（作为oracle的客户端）配通了sqlplus连接，然后开始用jupyter调试python调用langchain连接远程oracle的不同方法。要通过LangChain的。

2025-04-29 11:23:46 684

原创微软GraphRAG的安装和在RAG中的使用体会

Microsoft的GraphRAG是一种结合了知识图谱（Knowledge Graph）和检索增强生成（RAG）技术的先进框架，旨在提升大型语言模型（LLM）在处理复杂问题时的性能。。

2025-04-27 21:29:44 1250

原创 LangChain 中主流的 RAG 实现方式

支持图片、表格等非文本数据，需结合 OCR（如 Tesseract）和专用解析器（如 DeepDoc）。：文档需预先处理好分块，该方法的result是字符串，没有metadata信息。：封装文档加载→分块→向量化→存储→检索全流程，适合快速原型开发。：通过设计模板控制生成风格，强制 LLM 基于上下文回答，减少幻觉。：结合语义搜索（向量相似度）与关键词检索（BM25），提升召回率。：通过迭代检索优化结果，例如先检索大纲再定位细节。：提取检索文档中的关键片段，减少无关信息输入。

2025-04-25 10:00:51 1253

原创三种访问Qwen大模型的方式

。

2025-04-24 11:00:03 904

原创 LangChain for Python: 基本使用场景与实现的实践

# 6. 创建prompttemplate = """根据以下上下文信息回答问题：{context}问题：{question}回答：请用中文简洁回答，若不知道答案请如实说明。"""input_variables=["context", "question"], # 必须包含这两个变量# 7. 创建问答链llm=llm,retriever=db.as_retriever(search_kwargs={"k": 3}), # # 控制返回的文档数量为3。

2025-04-23 15:50:38 949

原创通过高斯分布概率密度函数寻找到数据中的异常点

通过计算数据各维度对应的高斯分布概率密度函数，可用于寻找到数据中的异常点。，可调整异常点检测的灵敏度。通过修改概率密度阈值。

2025-04-16 17:53:09 515

原创用 Iris数据做决策树分析

execl表格如下所示。

2025-04-16 13:32:23 629

原创 LLM中的N-Gram、TF-IDF和Word embedding

特性N-GramTF-IDF主要用途预测下一个词/生成文本评估词语重要性/文档特征提取核心思想词语出现的概率依赖前几个词重要=在本文档多见+在其它文档少见典型应用输入法、机器翻译、拼写检查搜索引擎、文本分类、关键词提取优势保持语言连贯性识别文档关键主题词局限长距离依赖差、需要大量训练数据忽略词语顺序和语义关系两者常结合使用，比如先用TF-IDF提取重要词，再用N-Gram分析这些词的关系。Word Embedding 就是让计算机通过数字"理解"词语。

2025-04-15 14:38:17 1226

原创 scikit-learn 开源框架在机器学习中的应用

用于自己复习，好记性不如懒笔头基于NumPy/SciPy构建的算法实现统一的API设计（fit/predict/transform）完善的文档和社区支持BSD开源协议（可商用）

2025-04-13 18:00:42 1218

原创 case客户续保预测中用到的特征工程、回归分析和决策树分析的总结

定义：通过建立自变量（X）与因变量（Y）之间的数学模型，预测连续型数值应用场景：房价预测、销量预估、温度预测等。

2025-04-13 11:21:13 997

原创用Cursor AI编程工具完成case客户续保预测

policy_test.xlsx 是一个包含200条记录的测试集，包含16个字段，缺少renewal字段，这正是我们需要预测的目标变量。policy_data.xlsx 是一个包含1000条记录的完整数据集，包含17个字段，其中包括了目标变量renewal（是否续保）。我们将创建一个新的Python脚本来进行EDA分析，并生成可视化图表。最后，我建议采用模型融合的方法，将多个模型的预测结果进行加权组合，以获得更稳定的预测效果。您是否需要我对某些具体的发现进行更深入的分析，或者帮您制定更详细的营销策略建议？

2025-04-11 12:39:29 1167

原创在Auto DL的租用服务器上跑通ModelScope下载的7B大模型的调用

这次把AI培训实验中如何在Auto DL的租用服务器上跑通ModelScope下载的7B大模型的调用的过程记录一下。

2025-04-06 08:10:10 492

原创如何在windows 环境、且没有显卡的情况下用python跑通从ModelScope下载的大模型的调用

在上AI训练营的课程时，老师提供了一段源码，目的是实现从modelscope下载DeepSeek-R1-Distill-Qwen-7B，并通过程序调用大模型，让大模型帮助生成二分查找法。老师建议在网上租一台有GPU的电脑，推荐如下。最终本人在自己的surface电脑上（Windows，无GPU）调通了该程序，并实现了功能。我的电脑配置如下，由于本人用的surface 没有GPU卡,CPU 也不强劲，内存也不大。

2025-04-04 15:32:36 1146

原创 Python 一等函数介绍

模式技术要点典型应用场景函数赋值对象引用机制策略切换、插件系统闭包工厂作用域链保持状态配置化功能生成高阶函数链式处理生成器表达式+惰性计算大数据处理、ETL流程动态回调匿名函数+延迟执行事件驱动架构所有示例均体现了一等函数的四个核心特征：变量赋值、参数传递、返回值存储、数据结构存储。理解这些模式有助于构建更灵活、可维护的Python应用程序。

2025-04-01 14:53:51 761

原创 Python函数参数类型及使用要点

简单函数优先使用位置参数和关键字参数配置类参数适合设为默认参数（如端口号、超时时间）不确定参数数量时使用*args**kwargs强制明确参数含义时使用命名关键字参数避免参数过多（超过5个建议用类或字典封装）提高代码可读性、灵活性和维护性。建议结合类型注解（如）进一步提升代码质量。

2025-04-01 11:33:10 504

原创 Python中的文件目录、包、模块、文件关系与函数调用详解

层级关系：文件（.py）→ 模块 → 包（目录 +）→ 函数/类。调用规则优先使用绝对导入保证路径清晰。同一包内可使用相对导入简化路径。冲突避免通过包和子包隔离同名模块。使用全限定名或别名区分同名函数。

2025-04-01 11:01:23 920

原创 Python 中列表（List）、元组（Tuple）、集合（Set）和字典（Dict）四大数据结构的完整对比

以下是 Python 中列表（List）、元组（Tuple）、集合（Set）和字典（Dict）四大数据结构的完整对比分析，结合了核心特性、操作方式和应用场景的深度总结：动态创建：通过函数转换其他可迭代对象增删改查：核心特性：可变性：支持增删改操作（如、、）有序性：元素按插入顺序存储，支持索引和切片元素类型：可包含任意数据类型（整数、字符串、列表等）适用场景：动态数据集合（如用户输入记录、日志分析）高级操作：切片、列表推导式（如）2. 元组（Tuple）定义

2025-03-29 15:56:42 2243

原创 Python3 中 `max()` 和 `min()` 结合`Key`的灵活应用

print(max(values, key=abs)) # 输出: -20（按绝对值比较）max()和min()基础比较：支持数值、字符串、字典键的默认比较。扩展能力：通过key参数实现函数式编程，处理复杂数据结构和动态逻辑。健壮性default参数避免空迭代对象引发的错误。

2025-03-29 12:19:30 585

原创 Windows环境下AnythingLLM安装与Ollama+DeepSeek集成指南

前面已经完成了Ollama的安装并下载了deepseek大模型包，下面介绍如何与anythingLLM 集成。

2025-03-28 15:45:26 1203

原创 Python中`zip()`函数的详细介绍

用于将多个可迭代对象（如列表、元组等）的对应元素打包成元组，返回一个迭代器。若可迭代对象长度不同，以最短的为准。默认以最短的迭代对象为准，但可通过。

2025-03-28 11:14:55 316

原创安装Ollama,本地部署deepseek

本人开始参加AI应用开发训练营，现在先把之前有关本地部署deepseek的过程review 一下。本人在自己一台surface上实现了两种本地部署方案。

2025-03-28 09:16:20 1504

原创 Python3 字典全面详解

有关_slots_的介绍，可参考。

2025-03-27 17:43:45 298

原创 Python3 集合详解

集合（Set）是Python中一种的可变容器类型，其设计灵感来源于数学中的集合论，常用于高效处理去重、成员检测和集合运算等场景。

2025-03-25 19:33:32 891

原创 Python 字符串正则表达式详解

d：匹配数字（等价于[0-9]\w：匹配字母、数字、下划线（等价于\s：匹配空白字符（如空格、制表符）[ ]：自定义字符集合（如[a-z]匹配小写字母）re.findall(r"\d{3}", "ID:123") # 提取连续3位数字 → ['123']

2025-03-25 16:42:20 990

原创 python3 的字符串

Windows系统换行符为。Python使用反斜杠。，Linux/Mac为。

2025-03-25 11:09:00 783

原创 python 学习基本语法整理

AI 开发者学习先导，python 学习

2025-03-23 15:12:02 540

原创 ITIL 4 脑图笔记

ITIL 4 学习笔记（脑图）

2025-03-20 11:06:55 347

原创 SAP实施方法论的变化

SAP实施方法论ASAP的含义和步骤的变化。

2024-06-16 10:29:25 365

原创分布式数据库核心问题和解决方法

数据库国产化呼声渐高，国产数据库方兴未艾，都已分布式数据库为突破，但良莠不齐，需要慧眼，方可选择到合适的产品。

2024-06-16 09:49:23 232

原创最简方式安装oracle 23c free

我一直认为，最靠谱的文档就是原厂官网的文档，阅读再次加工的文档都有可能把你带偏。oracle官网提供了大量的文档，一个好的oracle使用者，应该首先是好的oracle官网阅读者。oracle数据库作为收费颇贵的商业数据库软件，其功能和支持却也是无可挑剔。新推出的oracle 23c，其配套推出的 oracle 23c free 免费版数据库，着实方便了oracle爱好者的学习和提高。而其安装之简便，也是让人啧啧称赞。

2024-04-30 21:46:04 1178

原创 oracle pl/sql 如何让sql windows 显示行号

其实很简单。

2024-04-30 20:53:16 1666 2

原创目标计划工作单示例

目标计划工作单领域今天日期最终目标日达成日微服务架构实施 20...

2019-12-19 09:54:20 759

原创个人工作目标模板

2019-12-18 15:37:02 383

转载软件工程之美学习笔记四十五 44 | 微软、谷歌、阿里巴巴等大厂是怎样应用软件工程的？

《软件工作之美》材料地址：https://time.geekbang.org/column/article/100716公司文化和软件开发模式谷歌:谷歌崇尚工程师文化，Google 的工程师做项目就会不紧不慢，质量优先，有统一的代码规范，严格的代码审查和严谨的自动化测试。还会频繁地重写系统Facebook:Facebook 有一种黑客精神,“Move Fast and Break Thing...

2019-06-25 15:02:57 595

空空如也

空空如也