无妄无望-CSDN博客

原创 Dify工作流--发票信息获取

本文描述了一个基于视觉和语言大模型的发票信息提取系统。系统支持两种输入格式：发票图片（使用GLM4.5V视觉模型处理）和PDF文件（通过文档提取器处理后由QWen3-30B语言模型解析）。处理流程包括：1）输入检测（区分图片/PDF）；2）对应模型处理；3）输出结构化JSON结果，包含发票号码、日期、买卖双方信息、商品明细及金额等字段。系统特别强调严格的JSON输出格式要求，并提供了标准的提示词模板，确保不同输入方式都能得到统一格式的输出结果。该方案展示了多模态模型在票据识别领域的应用潜力。

2025-09-01 16:08:00 356

原创 Dify工作流之合同信息提取

本文介绍了一个基于AI的合同关键信息提取及风险分析系统。该系统工作流程包括：1)输入合同文档；2)通过文档提取器处理多格式文件；3)大模型执行智能审查（含主体名称、金额、日期等一致性检查）；4)Markdown格式转换；5)输出Docx文件。系统能自动识别合同基本信息，检查格式规范与逻辑一致性，并输出结构化分析结果，实现合同风险的可视化呈现与智能预警。

2025-08-30 22:31:07 737

原创 OpenCV之霍夫变换

霍夫变换是一种经典的形状检测算法，广泛应用于直线和圆的识别。其核心思想是将图像空间的特征映射到参数空间进行投票，通过峰值搜索确定几何形状参数。对于直线检测，通过极坐标(ρ,θ)表示直线，利用投票机制找到图像中的直线；对于圆检测，则构建三维参数空间(a,b,r)来定位圆心和半径。OpenCV提供了HoughLines和HoughCircles等函数实现该算法，通过调整参数如投票阈值、精度等可优化检测效果。该算法虽计算量较大，但在边缘清晰的图像中表现优异，是计算机视觉中重要的基础算法。

2025-08-29 10:05:27 773

原创 OpenCV之怎么识别轮廓

本文介绍了图像处理中轮廓的基本概念、追踪原理及实现方法。轮廓定义为由一组有序、连续的像素点组成的闭合路径，具有连通性、闭合性和方向性特征。通过Suzuki85算法演示了轮廓追踪的四个规则：扫描起点、方向优先级、边界判定和终止条件，并给出分步图解说明。文章还提供了手动实现轮廓追踪的Python代码，与OpenCV的findContours()函数进行效率对比，并解答了关于轮廓闭合性、内外轮廓判断等关键问题。该内容适合理解轮廓原理及教学使用，实际项目中推荐使用OpenCV优化实现。

2025-08-28 09:30:00 771

原创 ragflow报错 - ERROR: (1054, “Unknown column ‘t1.process_duation‘ in ‘field list‘“)

MySQL数据库字段名错误导致系统异常。原先task表和document表中的process_duration字段多了一个"r"，正确应为process_duation。通过登录数据库（IP:部署网络端口，用户名root，密码infini_rag_flow），将两个表中该字段名修改正确后，系统功能恢复正常。这个拼写错误会导致知识库文档无法显示和搜索功能失效。

2025-08-27 22:26:46 271

原创 OpenCV之轮廓层级

OpenCV轮廓层级结构通过hierarchy数组描述轮廓间的嵌套关系，包含Next、Previous、First_Child和Parent四个字段，分别表示同级轮廓索引和父子关系。不同检索模式（RETR_EXTERNAL、RETR_LIST、RETR_TREE）影响层级信息的完整程度：EXTERNAL仅保留最外层轮廓，LIST平铺所有轮廓忽略关系，TREE则完整记录嵌套结构。实际应用中，可通过解析hierarchy数组来识别轮廓间的父子、兄弟等拓扑关系，适用于孔洞检测、嵌套物体分析等场景。代码实现时需注意

2025-08-27 09:24:34 1213

原创 Tesseract OCR之单词识别与字符分类器

摘要：本文提出两种单词分割方法，分别针对固定间距和非固定间距文本。固定间距文本采用基于字符宽度的统计学特征进行均匀切分，而非固定间距文本则结合间隙分析和语言模型校验实现动态分割。字符分类部分通过提取多边形轮廓特征，结合原型聚类匹配和动态分段优化，提升分类准确率。数学公式量化了切分决策和字符分类概率，综合几何特征与语言规则进行加权判断。实验案例表明该方法能有效处理打印文本和手写体的字符分割与识别任务。

2025-08-26 21:30:00 874

原创 Tesseract OCR之基线拟合和单词检测

找到文本行的虚拟基准线（如英文中字母底部对齐的线），即使字符存在断裂、倾斜或噪声干扰。：对间隙分布直方图找两个峰（字符内间隙/单词间间隙），取谷底作为阈值。：确认哪些Blob属于同一行（本例只有一行，省略DBSCAN聚类）。如何区分字符间间隙（同一单词）与单词间间隙？的底部是19，导致基线偏高（不准确）。（成功分离两个单词）

2025-08-26 17:00:00 1018

原创 Tesseract OCR之页面布局分析

本文介绍了文档图像布局分析的核心目标与方法，通过投影分析和制表位检测将文档划分为逻辑区域（如文本栏、表格）。水平投影统计行像素密度定位文本行，垂直投影识别列边界。XY-Cut算法递归分割空白区域，实现文档结构的自动划分。标点符号可辅助边界判断，连字符需特殊处理。该方法为文档分析提供基础，相关研究可参考XY-Cut算法及CVPR 2023的改进方案。

2025-08-26 00:02:54 707

原创 Otsu算法

Otsu算法是一种自动图像二值化方法，通过最大化类间方差确定最佳阈值。该算法统计灰度直方图，遍历0-255所有阈值，计算前景/背景的类内概率和均值，选择使类间方差最大的阈值。优点包括自动化、计算高效，适用于双峰直方图；缺点是对噪声敏感且仅适合单目标分割。OpenCV中可通过cv2.threshold()结合THRESH_OTSU标志实现。

2025-08-25 08:39:43 423

原创 AI大模型-提示词工程

《AI提示词：优化大语言模型交互的关键技术》摘要 AI提示词是引导AI系统生成特定输出的指令或问题，其形式从简单查询到复杂任务不等。理解大语言模型(LLM)基于上下文预测token的工作原理是优化提示词的基础。本文提出四项核心技巧：1)角色设定，通过专业术语压缩背景信息；2)示例引导(One-shot/Few-shot)，提供样本优化输出格式；3)任务拆解，将复杂问题分步处理；4)思维链技术，要求模型展示推理过程。这些方法的本质都是通过提供更丰富的上下文信息，帮助LLM更准确地预测后续内容。

2025-08-10 20:58:44 754

原创 dify更新python环境

完成以上步骤后，你的dify环境中就新增了新的python依赖。不过目前测试发现，重启dify，会导致dify环境中的依赖消失。（4）将下载好的依赖包放在宿主机的挂载路径上，这样容器中对应路径就有了依赖包。之后进入容器，通过pip命令来安装依赖包。（1）首先进入sendbox对应的容器，查看容器中的python版本。经过往上搜索以及自行探索，在联网和离线情况下的导入方法。（3）确定要安装的依赖包，去官网下载。dify代码执行中如何安装缺少的包。python依赖包下载。

2025-06-23 15:33:08 2322 1

原创 Dify安装插件实战：如何离线安装dify插件

dify1.4.2插件安装

2025-06-17 10:59:55 984

原创 linux学习 vi/vim

Vim 是从 vi 发展出来的一个文本编辑器。代码补全、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛使用。简单的来说， vi 是老式的字处理器，不过功能已经很齐全了，但是还是有可以进步的地方。vim 则可以说是程序开发者的一项很好用的工具。连 vim 的官方网站 () 自己也说 vim 是一个程序开发工具而不是文字处理软件。

2025-04-29 17:00:00 837

原创 YOLO数据处理

YOLO（You Only Look Once）的数据处理流程是为了解决目标检测领域的核心挑战，核心目标是为模型训练和推理提供高效、规范化的数据输入。

2025-04-23 20:00:00 1436

原创常见的神经网络权重文件格式及其详细说明

常见的神经网络权重文件格式及其详细说明

2025-04-22 20:30:00 825

原创 Git，本地上传项目到github

Git，本地上传项目到github

2025-04-22 14:23:57 646

原创 docker desktop 的安装和使用

是一款专为开发者设计的工具，可以在本地计算机（Windows/macOS）上快速运行和管理容器（Container）环境。

2025-04-11 08:34:45 2187

原创安装和使用pandoc

支持 Markdown、DOCX、LaTeX、HTML、PDF、EPUB 等 60+ 种格式的互相转换

2025-04-10 12:55:53 4202

原创使用pyinstaller打包py文件

PyInstaller 打包单个，多个py文件

2025-03-18 22:00:00 2130

原创 SVN学习

SVN（Subversion）是一个开源的版本控制系统，用于跟踪文件和目录的更改

2025-03-18 14:33:06 397

原创 OpenCV练习（2）图像校正

创建一个目标点数组。

2024-06-20 00:49:24 2111

原创 OpenCV练习（1）签名修复

在学校的学习过程中，需要递交许多材料，且每份材料上都需要对应负责人签名，有时候找别人要签名，然后自己粘贴的话，会出现签名模糊，背景不是纯白透明。可以看到，几乎多有的小黑块都被填充完毕，但是出现意料外的情况。在“图”字中，外面的口和里面的冬连在了一起，因为本身原图片中这两个结构就挨得很近，且为了最大限度地填充小黑块，进行膨胀时就容易粘连在一起了。但是高斯滤波后，笔画流畅了字迹却又模糊了，且中值滤波效果不大。可以看到，字迹有一定的填充，担任存在一些小的空洞，这个就需要用到闭运算了，来消除白色区域中的小黑块。

2024-06-15 01:26:19 1220 1

原创 OpenCV学习(4.15) 基于 GrabCut 算法的交互式前景提取

但在某些情况下，分割的不是那么理想，比如说，它可能把一些前景区域标成了背景，或者反过来。如果发生了这样的情况，用户需要进行仔细的修正。“划一下”基本的意思是说，*"嘿，这个区域应该是前景，你标记它为背景，在下一次迭代中更正它。在新的掩模图像中，像素将标记有四个标记，表示背景/前景，如上所述。在画中使用画笔工具，我在这个新图层上标记了不需要的白色背景（如徽标，地面等）以及黑色的前景（头发，鞋子，球等）。GrabCut算法的优点是它能够处理较为复杂的场景，并且用户交互简单，可以快速得到满意的分割结果。

2024-06-14 22:53:49 1339

原创 OpenCV学习(4.14) 基于分水岭算法的图像分割

为此，我们扩大了结果。在图像处理中，分水岭算法将图像看作地形图，图像中的亮度或灰度值表示地形的高度，目标是找到汇水盆地（即图像中的连通区域）的边界，这些边界被称为分水岭线。用一种颜色（或强度）标记我们确定为前景或对象的区域，用另一种颜色标记我们确定为背景或非对象的区域，最后标记我们不确定任何内容的区域，用 0 标记它。我们确切知道的区域（无论是前景还是背景）都标有任何正整数，但不同的整数，我们不确定的区域只是保留为零。随着水的上升，取决于附近的峰值（梯度），来自不同山谷的水，明显具有不同的颜色将开始融合。

2024-06-13 22:00:00 1148

原创 OpenCV学习(4.13) 霍夫变换

概率Hough变换相比于标准Hough变换的优点是它更快，因为它不需要为每个边缘点计算和投票所有的参数空间。此外，它通常能够给出更准确的结果，因为它考虑了边缘点之间的局部关系。这种方法的缺点是它可能不会检测到图像中所有的直线，特别是当直线的支持点较少时。因此，概率Hough变换适用于直线较为密集的场景，而在直线稀疏的情况下可能不如标准Hough变换有效。在霍夫变换中，你可以发现即使是一条仅有两个参数的直线，也需要用到大量的计算。概率霍夫变换是我们已知的，针对霍夫变换的优化方案。

2024-06-13 17:41:29 1617

原创 OpenCV学习(4.12) 模板匹配

它只是在输入图像上滑动模板图像（如在 2D 卷积中），并比较模板图像下的模板和输入图像的补丁。在OpenCV中，模板匹配是一种用于在较大图像中寻找模板图像位置的方法。这种方法基于滑动窗口机制，通过在输入图像上滑动模板图像并在每个位置计算模板与图像子区域的相似度来确定最佳匹配位置。如果输入图像的大小（WxH）且模板图像的大小（wxh），则输出图像的大小为（W-w + 1，H-h + 1）。在上一节中，我们搜索了梅西的脸部图像，该图像仅在图中出现一次。模板匹配是一种在较大图像中搜索和查找模板图像位置的方法。

2024-06-12 23:58:55 876

原创 OpenCV学习(4.11) OpenCV中的图像转换

对于正弦信号，$x(t)=Asin(2\pi ft)$ ，我们可以说 $f$ 是信号的频率，如果采用其频域，我们可以在 $f$ 处看到一个尖峰。如果信号进行采样，以形成离散信号，我们得到了相同的频域，但在范围周期性 $[-π，π]$ 或 $[0,2\pi]$（或 $[0,N]$ 用于N点DFT）。在上一部分中，我们创建了一个HPF，这次我们将看到如何去除图像中的高频内容，即我们将LPF应用于图像。因此，您已经进行了频率变换，您可以在频域中执行一些操作，例如高通滤波和重建图像，若进行逆DFT。

2024-06-12 23:45:58 1412 2

原创 OpenCV学习(4.10) OpenCV中的直方图

然后，我们将该直方图“反向投影”到需要找到对象的测试图像上，换句话说，我们计算出属于地面的每个像素的概率并将其显示出来。例如，较亮的图像会将所有像素限制在较高的值。即 $B(x，y)= R [h(x，y)，s(x，y)]$ 其中h是色调，s是像素在(x，y)的饱和度。这是因为它的直方图不像我们在前面的案例中所看到的那样局限于特定区域(尝试绘制输入图像的直方图，您将获得更多的直觉)。另一个重要特征是，即使图像是较暗的图像(而不是我们使用的较亮的图像)，在均衡后，我们将获得与获得的图像几乎相同的图像。

2024-06-12 17:08:13 1074

原创 OpenCV学习(4.9) OpenCV中的轮廓

通常我们使用函数来检测图像中的对象，对吗？有时对象位于不同的位置。但是在某些情况下，某些形状位于其他形状内。就像嵌套的数字一样。在这种情况下，我们将外部的一个称为父级，将内部的一个称为子级。这样，图像中的轮廓彼此之间就具有某种关系。并且我们可以指定一个轮廓如何相互连接，例如是其他轮廓的子轮廓，还是父轮廓等。这种关系的表示称为层次结构。

2024-06-10 10:40:14 1521 1

原创 OpenCV学习(4.8) 图像金字塔

通过去除较低级别图像（较高分辨率）中的连续行和列来形成高斯金字塔中的较高级别图像（较低分辨率）。较高级别图像的每个像素值由低一级别图像的 5 个像素值高斯加权得到,由此图像面积减少到原来的四分之一。例如，在搜索图像中的某些内容如脸部信息时，并不确定该内容在图像中占据的大小。例如，一个分辨率为1024x768的图像意味着图像在水平方向上有1024个像素，在垂直方向上有768个像素。原始图像的分辨率通常指的是图像在水平和垂直方向上的像素数量。这是图像的一个重要属性，因为它决定了图像的清晰度和细节水平。

2024-06-08 22:28:46 1268 1

原创 OpenCV学习(4.7) Canndy边缘检测

它的基本原理是在图像的每个像素点上，如果该点的像素值不是在其梯度方向上的最大值，那么这个点的像素值将被抑制或设置为0。渐变方向与边缘垂直。一般而言，图像边缘意味着亮度的剧烈变化，可以通过图像的二阶导也就是梯度来衡量，不过再此之前需要清楚噪声，因为噪声的周围亮度也存在变化，会影响边缘检测效果。双阈值处理（Double Thresholding）是Canny边缘检测算法中的一个关键步骤，它用于确定哪些边缘是真正的边缘，哪些可能是由噪声引起的假边缘。：使用双阈值和边缘梯度方向，进行边缘跟踪，得到最终的边缘图像。

2024-06-08 17:59:30 1048

原创 OpenCV学习(4.6) 图像梯度

1.目标图像梯度是图像处理中的一个基本概念，它用于测量。在数学上，梯度是函数的偏导数，而在图像处理中，梯度通常用于表示。

2024-06-07 23:50:48 620

原创 OpenCV学习(4.5) 图像的形态转换

形态梯度的计算方法是先对图像进行膨胀，然后从膨胀后的图像中减去原始图像。笔者认为，这些噪声由于是散乱分布的，再进行二值化时部分被划为前景，部分被划为背景，但无论是前景还是背景，它们都是孤立的，第一步的腐蚀会去除哪些孤立的前景噪声，第二部。这个是先进行腐蚀再进行膨胀的效果图，腐蚀除了将背景的噪声去除外，一些背景中的纹理也在一定程度的隐去了，而膨胀可以将这些纹理再现出来，甚至比原图还要强。可以看到，用来进行闭运算的核越大，消除黑色小块的能力越强，不过当核过于大的时候，就是前景与背景的分界变得模糊。

2024-06-07 17:35:02 1767

原创多尺度注意力创新

深度之眼17种多尺度注意力创新

2024-06-07 13:58:31 402

原创特征融合热门方法及模型

特征融合方法（由深度之眼整理）https://arxiv.org/abs/1608.06993https://github.com/liuzhuang13/DenseNethttps://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdfhttps://arxiv.org/abs/1511.06062https://arxiv.org/abs/1709.

2024-06-07 13:58:15 734

原创 OpenCV学习(4.4) 平滑图像

有趣的是，在上面的过滤器中，中心元素是一个新计算的值，它可能是图像中的像素值，也可能是一个新值。操作如下：将该内核中心与一个像素对齐，然后将该内核下面的所有 25 个像素相加，取其平均值，并用新的平均值替换这个25x25窗口的中心像素。在图像处理中，平滑图像是一种去噪和模糊技术，用于减少图像中的噪声和细节，使得图像看起来更加平滑。同态滤波是一种增强图像对比度的方法，它通过对图像进行对数变换和频率域滤波，然后再进行指数逆变换，来实现图像的平滑和亮度调整。这是通过用一个归一化的滤波器内核与图像卷积来完成的。

2024-06-06 20:35:54 1302

原创 OpenCV学习(4.3) 图像阈值

请注意，如果您想要使用 OpenCV 的 `cv.threshold` 函数来应用 Otsu 阈值，您应该使用 `cv.threshold(blur, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)`，而不是手动计算阈值。请注意，Otsu 阈值化通常使用 OpenCV 的 `cv.threshold(blur, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)` 函数来实现，而不是手动计算累积分布函数。函数将返回一个包含噪声的图像。

2024-06-05 16:42:34 824

原创 OpenCV学习(4.2) 图像的几何变换

它允许我们从一个特定的视角观察一个物体，就像我们通过窗户看外面的世界，窗户的框架会提供一个不同的视角，即使窗户外的物体是平面的。透视变换（Perspective Transformation）是一种更加一般的变换，它可以将一个平面上的图像映射到另一个平面上，同时保持直线的直线性质，但不保持平行线的平行性。其中，A 是一个 2x2 的矩阵，表示旋转、缩放和剪切，b 是一个 2 元素的向量，表示平移，x 是原始点的坐标，T(x) 是变换后点的坐标。在仿射变换中，原始图像中的所有平行线在输出图像中仍然是平行的。

2024-06-04 23:16:09 1088

原创 OpenCV学习(4.1) 改变颜色空间

对于 HSV, 色调(Hue)范围为 [0,179], 饱和度(Saturation)范围为 [0,255] ，明亮度(Value)为 [0,255]. 不同的软件使用不同的比例. 所以如果你想用 OpenCV 的值与别的软件的值作对比，你需要归一化这些范围。色调（H）的上限是180（在HSV颜色空间中，蓝色的范围是从0到180，然后再次从180到0，所以这里包括了所有的蓝色），饱和度（S）的上限是200，亮度（V）的上限是255（最大值）。的函数，它将作为回调函数用于处理OpenCV窗口中的鼠标事件。

2024-06-04 17:25:06 1385

图像处理，OCR系列文章，5篇

从最传统的outs、基线检测、单词分类识别到神经网络CTPN、CRNN到transformer

2025-08-26

cozeworkfolws工作流

收集的200多个工作流

2025-08-26

dify1.4.2 插件junjiem-mcp-compat-dify-tools-0.1.1-offline.difypkg

dify1.4.2 插件junjiem-mcp_compat_dify_tools_0.1.1-offline.difypkg

2025-06-17

dify1.4.2 插件hjlarry-mcp-server-0.0.3-offline.difypkg

dify1.4.2 插件hjlarry-mcp-server_0.0.3-offline.difypkg

2025-06-17

dify1.4.2，插件hjlarry-agent-0.0.1-offline.difypkg

dify1.4.2，插件hjlarry-agent_0.0.1-offline.difypkg

2025-06-17

插件langgenius-openai-api-compatible-0.0.16

适配python3.12的环境，dify对应版本为1.4.2

2025-06-17

docker-compose-linux-x86-64

docker-compose-linux-x86_64

2025-06-09

docker 28.0.0

docker 28.0.0安装包，x86-64

2025-06-09

【自然语言处理】大型语言模型的检索增强生成技术综述：从Naive RAG到Modular RAG的发展与应用

内容概要：本文综述了检索增强生成（RAG）技术在大规模语言模型（LLMs）中的应用和发展。文章首先介绍了LLMs面临的挑战，如幻觉、知识过时及推理过程不透明，随后阐述了RAG如何通过引入外部知识库来提升LLMs的表现。RAG的发展经历了三个阶段：朴素RAG、高级RAG和模块化RAG。每个阶段都对检索、生成和增强技术进行了优化。此外，文章详细探讨了RAG在不同应用场景下的具体实现方法，包括查询优化、嵌入模型选择、适配器集成等。最后，文章提出了当前RAG技术面临的挑战以及未来的研究方向，强调了多模态RAG的应用前景。适用人群：从事自然语言处理、机器学习及相关领域的研究人员和工程师，特别是关注LLMs和信息检索技术的人士。使用场景及目标：①了解RAG技术的基本概念及其在LLMs中的应用；②掌握RAG从早期到模块化的演进历程；③学习RAG在不同任务中的具体实现方法和技术细节；④探索RAG面临的挑战和未来的潜在发展方向。其他说明：本文不仅提供了对RAG技术的全面概述，还深入分析了其核心技术组件，如检索、生成和增强，并讨论了评估框架和基准测试。此外，文中还涉及了RAG与微调（Fine-tuning）技术的比较，以及RAG在多模态数据处理中的扩展应用。对于希望深入了解RAG技术及其未来趋势的研究人员来说，这是一篇极具价值的参考文献。

2025-05-23

【信息检索领域】基于假设文档嵌入的无监督零样本密集检索模型HyDE：无需相关性标签的跨任务与多语言高效检索

内容概要：本文介绍了一种全新的零样本稠密检索模型——Hypothetical Document Embeddings（HyDE），旨在解决没有相关性标签时的高效检索问题。HyDE利用指令跟随的语言模型（如InstructGPT）生成假设文档，再通过无监督对比编码器（如Contriever）将这些文档转换为向量表示，从而在语料库中找到相似的真实文档。实验表明，HyDE在多种任务（如网页搜索、问答、事实验证）和语言（如斯瓦希里语、韩语、日语）上显著优于现有的无监督稠密检索模型，甚至接近微调模型的表现。适合人群：对信息检索、自然语言处理、机器学习等领域感兴趣的研究人员和技术人员，尤其是希望了解零样本学习和无监督学习方法的人群。使用场景及目标：①在缺乏标注数据的情况下进行高效的信息检索；②适用于多种语言和任务的跨领域应用；③提高低资源语言和任务的检索性能。其他说明：HyDE的核心思想是将相关性建模从表示学习模型转移到自然语言生成模型，避免了直接计算查询与文档之间的相似度。此外，研究还探讨了不同大小的语言模型和微调编码器对HyDE性能的影响。实验结果显示，HyDE不仅在无监督设置下表现出色，在某些情况下还能进一步提升有监督模型的效果。

2025-05-23

【自然语言处理领域】基于检索增强生成（RAG）模型的综述：多模态信息融合与应用挑战分析

内容概要：本文全面综述了自然语言处理(NLP)领域中的检索增强生成(RAG)模型，探讨了其原理、架构及应用。RAG模型结合了信息检索与文本生成的优势，通过引入外部知识源（如大规模文本语料库）来增强生成响应的质量和准确性。文章首先介绍了RAG的基本概念及其相对于传统生成模型的优势，特别是在处理需要领域知识的任务时。接着详细讨论了RAG的核心技术，包括稀疏和密集检索方法、融合机制以及注意力机制等。此外，还探讨了RAG在开放域问答、文本摘要、对话系统等任务中的具体应用场景，并指出了当前面临的主要挑战，如检索质量、信息整合、可扩展性和伦理问题。最后展望了未来的研究方向，强调了改进检索技术、增强信息融合、提升效率及解决公平性和透明度的重要性。适合人群：对自然语言处理感兴趣的研究人员和技术从业者，尤其是那些希望深入了解RAG模型及其潜在应用的人士。使用场景及目标：①理解如何将信息检索与文本生成相结合，以提高生成内容的相关性和准确性；②探索RAG模型在不同NLP任务中的实际应用案例；③识别并应对RAG模型实施过程中可能遇到的技术和伦理挑战。其他说明：本文为非同行评审版本，提供了关于RAG模型的最新进展和未来趋势的深入见解，对于推动该领域的进一步发展具有重要意义。

2025-05-23

【自然语言处理】大型语言模型的检索增强生成技术综述：发展历程、关键技术与未来方向了检索增强生成### 文章总结：Generate-Then-Read：利用大型语言模型生成上下文文档以解决知识密集型任务

内容概要：本文全面回顾了检索增强生成（RAG）技术的发展历程及其在大型语言模型（LLMs）中的应用。RAG旨在通过从外部数据库检索相关信息来增强LLMs的表现，解决其幻觉、知识过时和推理不透明等问题。文章详细介绍了RAG的三个主要发展阶段：朴素RAG、高级RAG和模块化RAG，并深入探讨了其核心技术组件——检索、生成和增强的具体实现方法。此外，文中还讨论了RAG与其他优化方法如微调的区别与结合方式，以及RAG在多模态领域的扩展应用。最后，文章提出了RAG面临的挑战和发展前景。适用人群：对自然语言处理、机器学习和大型语言模型感兴趣的科研人员和技术开发者。使用场景及目标：①理解RAG的基本概念内容及其在不同阶段概要的技术演进；：本文提出了一②掌握R种名为“generate-then-read”的AG的核心技术，新方法，用于包括检索、生成和增强的具体实现解决知识密集型任务，如开放；③评估领域问答（QARAG与其他优化方法（如微）、事实核查和对话系统。该调）之间的异方法用大型语言同；④模型生成与问题探索RAG在相关的上下文文档多模态数据来替代传统的从处理中的应用潜力外部语料库。其他说明：（如维基百科）检索文档本文不仅为读者提供了关于RAG的方式。通过这种方法技术的详尽，模型首先根据综述，还给定的问题生成指出了当前研究背景文档，然后中的不足之处及阅读这些生成的未来的研究方向。文档以推断随着LLMs能力最终答案。实验表明，在TriviaQA的不断增强，RAG技术将继续发挥重要作用，特别是在处理和WebQ数据集上，该复杂、知识密集方法分别达到了7型任务方面。1.6和同时，文章强调54.4了构建标准化评估的精确匹配得分框架的重要性，以，显著优于当前的检索-阅读确保RAG系统的模型（如D性能能够得到准确评价。PR-FiD）。

2025-05-23

消除大模型幻觉，加速大模型在企业落地

2024-04-13

细粒度图像分类上 Vision Transformer 的发展综述

主要根据模型结构全面综述了基于 ViT 的FGIC 算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容，对每种算法进行总结，并分析它们的优缺点。

2024-01-07

读取并重写csv文件，重写时每八个数据进行一次换行操作 python

2023-11-07

The Oxford Handbook of Affective Computing

《The Oxford Handbook of Affective Computing》是一本关于情感计算的权威手册，它涵盖了情感计算的各个方面，包括理论、方法、应用等。情感计算是人工智能领域的一个重要分支，它旨在让计算机具备识别、理解、表达和模拟人类情感的能力。这本手册由著名的情感计算专家Rafael A. Calvo、Sidney K. D'Mello、Jonathan Gratch和Arvid Kappas共同编写，收录了来自世界各地的专家学者的文章，是情感计算领域的重要参考资料。

2023-10-25

一篇关于计算机视觉和人类视觉之间关系的综述性文章

《From Human Attention to Computational Attention: A Multidisciplinary Approach》是一篇关于计算机视觉和人类视觉之间关系的综述性文章。该文章探讨了计算机视觉如何模拟人类视觉，以及如何将人类视觉的特点应用于计算机视觉中。文章提出了一种多学科的方法，将计算机科学、心理学、神经科学和认知科学等领域的知识结合起来，以更好地理解和模拟人类视觉。该文章对于研究计算机视觉和人类视觉之间关系的人员具有重要的参考价值。

2023-10-25

一篇关于人类对视觉信息感知的文章

人类对视觉信息的感知是一个复杂的过程，它涉及到大脑、眼睛和环境等多个方面。数据可视化是一种将数据转换为图形或图像的方法，以便人们更容易地理解和分析数据。在数据可视化中，人类感知视觉信息的能力是至关重要的。通过使用颜色、形状、大小、位置等视觉元素，数据可视化可以帮助人们更好地理解数据。同时，数据可视化也需要考虑人类视觉系统的局限性，例如颜色盲、空间感知等问题。因此，数据可视化需要结合人类视觉系统的特点来设计和实现。

2023-10-25

Multi-Label Image Recognition with Graph Convolutional Networks

在我们最初的会议论文中，我们报告了使用GAP进行比较的基线分类结果，因为GAP是ResNet系列中特征聚合的默认选择。在我们的实验中，我们发现用GMP代替GAP可以提高性能，因此在我们的GCN方法中采用了GMP——我们将GMP视为我们方法的一部分。为了澄清，我们重新运行了基线，并在下表中报告了相应的结果。 Method COCO NUS-WIDE VOC2007 Res-101 GAP 77.3 56.9 91.7 Res-101 GMP 81.9 59.7 93.0 Ours 83.0 62.5 94.0

2023-10-18

abstract图像情感数据集

简介：使用了三个数据集:国际情感图像系统(IAPS)；一组来自照片分享网站的艺术照片(调查艺术家有意识地使用颜色和纹理是否能改善分类)；和一组同龄人评分的抽象画，以调查特征和评分对无上下文内容的图片的影响。离散情感八分类：Amusement、Anger、Awe、Contentment、Disgust、Excitement、Fear、Sadness。

2023-10-18

图像情感分析英文论文十篇

01 Multi-level Region-based Convolutional Neural Network for Image 02 Multiscale_Emotion_Representation_Learning_for_Affective_Image_Recognition 03 Weakly_Supervised_Emotion_Intensity_Prediction_for_Recognition_of_Emotions_in_Imag 04 Multi-scale_blocks_based_image_emotion_classification_using_multiple_instance_learninges 05 Learning multi-level representations for affective image recognition 06 Joint Image Emotion Classification and Distribution Learning 07 Adaptive_Deep_Metric_Learning_for_Affe

2023-10-18

图像情感分类数据集Emotion6

Emotion6是一个情感诱发图像数据集，包含了Paul Ekman的6种基本情绪和中立情绪，共7个情感分布bin，每个bin包含330张图片。每张图片都有VA值对诱发情绪评分的ground truth，同时作者还进行了情感风格迁移，在不改变高层语义的情况下，通过改变源图像的底层特征，从而实现迁移图像情感向目标图像的迁移。EmotionROI是在Emotion6的基础上，添加了情感诱发区域ESM标注（Emotion Stimuli Maps），情感诱发区域不等同于对象区域，也不等同于显著性区域。

2023-10-18

损失函数 LDAM (详细代码，亲测可运行)

论文：Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss](https://arxiv.org/pdf/1906.07413.pdf) in PyTorch. Abstract 当训练数据集存在严重的类不平衡时，深度学习算法的表现可能会很差，但测试标准需要对不太频繁的类进行良好的泛化。我们设计了两种新的方法来提高这种情况下的性能。首先，我们提出了一个理论上的标签分布感知边际损失(LDAM)，其动机是最小化基于边际的泛化边界。在训练过程中，这种损失取代了标准的交叉熵目标，并可以应用于先前的训练策略，如重加权或重采样类不平衡。其次，我们提出了一个简单而有效的训练计划，将重新加权推迟到初始阶段之后，允许模型学习初始表示，同时避免了与重新加权或重新抽样相关的一些复杂性。我们在几个基准视觉任务上测试了我们的方法，包括真实世界的不平衡数据集iNaturalist 2018。我们的实验表明，这两种方法中的任何一种都可以比现有的技术有所改进，它们的结合甚至可以获得更好的性能增益。 ——————————————

2023-10-18

深度学习 + Resnet + 详解

import torch import torch.nn as nn # --------------------------------# # 从torch官方可以下载resnet50的权重 # --------------------------------# model_urls = { 'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth', } # -----------------------------------------------# # 此处为定义3*3的卷积，即为指此次卷积的卷积核的大小为3*3 # -----------------------------------------------# def conv3x3(in_planes, out_planes, stride=1, groups=1, dilation=1): return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=s

2023-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

图像处理，OCR系列文章，5篇

cozeworkfolws工作流

dify1.4.2 插件junjiem-mcp-compat-dify-tools-0.1.1-offline.difypkg

dify1.4.2 插件hjlarry-mcp-server-0.0.3-offline.difypkg

dify1.4.2，插件hjlarry-agent-0.0.1-offline.difypkg

插件langgenius-openai-api-compatible-0.0.16

docker-compose-linux-x86-64

docker 28.0.0

【自然语言处理】大型语言模型的检索增强生成技术综述：从Naive RAG到Modular RAG的发展与应用

【信息检索领域】基于假设文档嵌入的无监督零样本密集检索模型HyDE：无需相关性标签的跨任务与多语言高效检索

【自然语言处理领域】基于检索增强生成（RAG）模型的综述：多模态信息融合与应用挑战分析

【自然语言处理】大型语言模型的检索增强生成技术综述：发展历程、关键技术与未来方向了检索增强生成### 文章总结：Generate-Then-Read：利用大型语言模型生成上下文文档以解决知识密集型任务

消除大模型幻觉，加速大模型在企业落地

细粒度图像分类上 Vision Transformer 的发展综述

读取并重写csv文件，重写时每八个数据进行一次换行操作 python

The Oxford Handbook of Affective Computing

一篇关于计算机视觉和人类视觉之间关系的综述性文章

一篇关于人类对视觉信息感知的文章

Multi-Label Image Recognition with Graph Convolutional Networks

abstract图像情感数据集

图像情感分析 英文论文十篇

图像情感分类数据集Emotion6

损失函数 LDAM (详细代码，亲测可运行)

深度学习 + Resnet + 详解

空空如也

图像情感分析英文论文十篇