- 博客(9)
- 收藏
- 关注
原创 影刀小红书数据批量抓取全攻略
今天要批量抓取的是小红书的笔记数据,首先打开小红书页面。元素库中捕获新元素,出现【影刀RPA】上述操作完之后显示这个东西。
2025-05-26 20:23:09
1447
3
原创 PyTorch
PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由C++实现,应用于人工智能领域,如计算机视觉和自然语言处理。PyTorch 最初由 Meta Platforms 的人工智能研究团队开发,现在属 于Linux 基金会的一部分。PyTorch在设计上取了一些大胆的决定,其中最重要的一项就是选择动态计算图(Dynamic Computation Graph)作为其核心。
2025-05-22 17:05:47
843
原创 模态表示、多模态融合、跨模态对齐
模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为计算机可理解和处理的形式,以便进行后续的计算、分析和融合。
2025-05-19 14:00:58
1066
原创 LLaMA-Factory微调gemma3多模态数据集构建
将数据集tsv文件转变成gemma3模型所适用的格式,tsv文件包含ID、Title、Content、Image Paths列,其中Image Paths列包含图片的名称,还有一个图片存储的文件夹。首先遍历一个本地文件夹中的所有图片,对它们按需进行等比例缩放、可选高斯模糊处理,并以指定质量保存到另一个目录,同时保持原有的子目录结构。将自己数据集的json文件添加到data文件夹下,同时在dataset_info.json中添加数据集的信息。将数据集中使用的图片全部存放在gemma3_demo_data。
2025-05-16 09:00:00
879
原创 深度学习常见名词概念:Sota、Benchmark、Baseline、端到端模型、迁移学习等的定义
传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。举个例子:一张图片模型之前没有见过,但是这张图片与TrainDataSet在同一分布,并满足iid,模型可以很好的预测这张图,这就是模型的泛化,在测试集中,模型预测新数据的准确率越高,就可以说是模型的泛化能力越好。
2025-05-15 11:10:49
1237
原创 Windows本地安装 LLaMA Factory
本文介绍了如何在Windows平台上安装和配置LLaMA-Factory项目。首先,通过git clone命令克隆项目,并使用pip install -e ".[torch,metrics]"安装依赖。安装完成后,可以通过llamafactory-cli version命令验证安装是否成功。对于Windows用户,需要手动安装GPU版本的PyTorch,并测试CUDA是否可用。此外,若需开启量化LoRA(QLoRA),需安装预编译的bitsandbytes库。若启用FlashAttent
2025-05-14 16:08:46
871
原创 多模态大模型-主要技术
多模态大语言模型(LLM)能够处理多种输入模态(如音频、文本、图像和视频)并生成文本输出。构建此类模型的主要方法有两种:统一嵌入解码器架构(方法A)和跨模态注意力架构(方法B)。方法A通过将图像转换为与文本token相同维度的嵌入,使LLM能够同时处理文本和图像。方法B则利用交叉注意力机制,将图像和文本嵌入直接集成到注意力层中,通常计算效率更高。训练多模态LLM通常包括预训练和教学微调两个阶段,其中图像编码器如CLIP常用且通常保持冻结。两种方法各有优劣,选择取决于具体应用需求和计算资源。
2025-05-10 14:46:32
1194
原创 多模态大模型的基本概念、整体架构
多模态大模型(LMMs)是能够处理多种数据形式(如图像、视频、音频等)的AI模型,其核心在于多模态理解与生成。多模态理解涉及编码器、输入投影和大模型主干,而多模态生成则包括输出投影和生成器。训练过程中,主要优化输入和输出投影,而编码器、生成器和大模型参数通常固定。多模态编码器负责将不同模态的数据映射到特征空间,输入投影则将这些特征对齐到文本模态空间。大模型主干负责语义理解和决策输出,输出投影将信号映射到生成器特征空间。多模态生成器使用潜在扩散模型生成不同模态的输出。训练分为MMPT和MMIT两个阶段,分别优
2025-05-09 15:20:57
1184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人