
深度学习
文章平均质量分 57
坠金
写博客一是记录,二是交流分享,欢迎批评
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阿里云rerank模型调用
文本排序模型 (Text ReRank Model),通常用于语义检索场景,模型可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (Documents),会根据与查询的语义相关性从高到低对候选文本进行排序。原创 2025-04-21 14:42:23 · 473 阅读 · 0 评论 -
【大模型】训练-知识蒸馏
因此,我们可以先训练好一个teacher网络,然后将teacher的网络的输出结果 q作为student网络的目标,训练student网络,使得student网络的结果p 接近 q。软标签蒸馏:教师模型生成的预测概率分布(软标签)用于指导学生模型的训练,而不仅仅是原始的硬标签。思想:用大模型指导小模型训练,将大模型的知识迁移到小模型上,使得小模型减少即使算资源的同时尽量接近大模型的性能。关系蒸馏:教师模型的样本之间的关系用于指导学生模型的训练。特征蒸馏:教师模型的中间层特征用于指导学生模型的训练。原创 2024-11-06 15:43:33 · 371 阅读 · 0 评论 -
efficient teacher
如果我们只保留分数高于某个阈值的伪标签,这可能导致模型越来越偏向于生成高分数的伪标签,因为这些高分数的伪标签在训练过程中会得到强化(它们被认为是"正确"的)。而单阶段的检测器,这种基于学生-教师相互学习的机制会导致其在整个训练过程中难以稳定的训练,即教师模型生成的伪标签的数量和质量波动很大,其产生的不合格伪标签便会持续误导模型的更新。这个过程中,我们也少量标注了一些新的验证集来验证半监督训练的效果,原因是半监督训练往往不太影响模型在原有验证集上的表现,而是加强模型在分布外验证集上的效果。原创 2024-11-06 15:43:06 · 1265 阅读 · 0 评论 -
ctgan代码实现
【代码】ctgan代码实现。原创 2024-11-06 15:26:23 · 237 阅读 · 0 评论 -
机器学习/深度学习中模型冻结-pytoch
模型冻结的定义,为什么需要冻结。原创 2024-11-06 15:23:07 · 236 阅读 · 0 评论 -
runner,hook介绍
当涉及到深度学习框架,例如 MMDetection 或其他 MM 系列工具,runner可以看作是训练过程的核心管理器,它负责模型的训练循环、评估以及与训练相关的各种事务。简单来说,当 runner“运行”,它会开始一个训练循环,迭代数据,前向传播、后向传播并更新模型权重。原创 2024-11-04 10:22:51 · 111 阅读 · 0 评论 -
扩散模型 diffusion model
希望得到这样一个模型,输入第 t 步加噪结果和时间步 t,预测从第 t-1 步到第 t 步噪声值。因为噪声值和输入图的分辨率是一致的,而 UNet 模型常用于图像分割任务,输入输出的分辨率相同,使用 UNet 来完成这个任务再合适不过了。每一步的加噪结果仅依赖于上一步的加噪结果和一个加噪过程,而这个加噪过程依赖于当前时间步 t,因此整个加噪过程可以看成参数化的马尔科夫链。马尔可夫链:数学模型,用于描述随机事件的序列,其中每个事件的概率仅取决于上一个事件的状态,而与过去的事件无关。随机生成一个高斯噪声。原创 2024-11-04 10:12:43 · 515 阅读 · 0 评论 -
池化/采样层pooling
常见的Pooling操作:max pooling, average pooling。降采样,以牺牲不重要信息作为代价,减小信息量。采样层本质:特征选择。原创 2023-04-04 13:22:59 · 104 阅读 · 0 评论 -
全连接层FC
上图是lenet中的fc层直观上看,fc的作用是将二维矩阵变成一维列向量,假设输入是m*m的矩阵,则可以把全连接看作m*1的矩阵。原创 2023-04-16 20:57:39 · 1083 阅读 · 0 评论 -
神经网络-入门1-直观感受
交流一些对神经网络的入门理解,同时提出一些我还不懂问题,问题用土色标出,若有错欢迎指出~ 一起学习~~首先安利一个用来学习的很好的网站,来点教程:一个很好的网站//////////////////////////////////////////////////////////////////正则化到此可以看出,正则化的作用:降低模型复杂度,避免过拟合假如没有正则化,同时模型比较复杂(比如下图的简单数据选择了x^2这种高次幂),会导致过拟合,直观就是一条线可以划分开,...原创 2021-08-19 22:30:39 · 214 阅读 · 0 评论 -
GNN
区别是消息传递机制不同,然而无论是哪种机制,其核心目的都是转化原始图,获得能够更好体现图的表示。例如,我们可以使用独热编码来表示性别和兴趣爱好,将其转换为二进制向量形式。可以看到,原始的向量表示,不能体现节点与其他节点之间的连接关系,因此我们希望进一步处理来获取能够体现他们相似性的表示。更新(Update);GNN 是可以直接应用于图形的神经网络,并提供了一种执行节点级、边缘级和图级预测任务的简单方法。上面的例子类似最简单的原始gnn,原始gnn采用sum求和传递机制。gnn输入是图,输出是更新后的图。原创 2024-10-31 14:22:08 · 331 阅读 · 0 评论 -
伪标签学习
(34条消息) 讯飞人脸关键点检测大赛--打卡2--伪标签学习与蒸馏学习_知识蒸馏 伪标签_orient2019的博客-CSDN博客原创 2024-10-31 11:47:36 · 43 阅读 · 0 评论 -
目标检测一阶段模型
不需要产生候选框,只需一次提取特征即可实现目标检测。直接将目标框定位的问题转化为回归(Regression)问题处理(Process)。首先由算法(algorithm)生成一系列作为样本的候选框,再通过卷积神经网络进行分类。常见的算法有 R-CNN、Fast R-CNN、Faster R-CNN 等等。目标检测的基本思路:定位localization+识别recognition。一阶段模型将目标检测看作端到端的回归问题,输入图片,输出五个结果。常见的算法有YOLO、SSD等等。原创 2024-10-30 17:11:50 · 557 阅读 · 0 评论 -
meta learning元学习
在few-shot learning的术语中,把公司提供的50个人的数据集叫做Support Set,把51个类别叫做51-way,把公司提供的1-2张照片叫做1-shot或2-shot,把做人脸识别实时采集到的图片数据集叫做 query set。为了达到这个目的,MAML在训练过程中基于meta-learning思想,利用训练集的task学习一个初始化参数,使这个参数在未见过的任务上finetune几轮,就能达到较好的效果。测试过程中的loss体现所设置的超参数的优劣,以及超参的可迁移性。原创 2024-10-30 16:46:38 · 899 阅读 · 0 评论 -
Retinanet论文解读
迄今为止,精度最高的目标检测器基于由 R-CNN 推广的两阶段方法,其中将分类器应用于一组稀疏的候选目标位置。相比之下,应用于可能对象位置的常规密集采样的单级检测器具有更快和更简单的潜力,但迄今为止已经落后于两级检测器的准确性。在本文中,我们调查了为什么会出现这种情况。我们发现,密集检测器训练过程中遇到的极端前景 - 背景类别不平衡是主要原因。我们建议通过重塑标准交叉熵损失来解决此类不平衡问题,使其降低分配给分类良好样本的损失的权重。原创 2022-10-13 16:12:51 · 648 阅读 · 0 评论