自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 持续学习入门笔记

需要识别新数据。灾难性遗忘。模型学习了新的知识之后,几乎彻底遗忘掉之前训练的内容。Task-IL:任务增量学习,无论是训练阶段还是测试阶段,模型都被告知了当前的任务ID。Domain-IL:相较于Task-IL在测试阶段增加了新的限制,即在预测阶段并不会告知任务的ID。模型需要在不知道任务ID的情况下,将数据正确的分类。Class-IL:新的类别不断地到来,模型需要正确地将输入分类到其对应地类别当中去。

2025-07-02 16:17:54 937

原创 大模型AI4S综述阅读—— From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

在研究的最后阶段,LLMs可以对实验得出的主张和结论提供反馈或验证。

2025-06-27 21:14:57 1126

原创 【步态识别】GaitCSV(Causal Intervention for Sparse-View Gait Recognition)论文阅读

实验室环境视角又全又固定,真实环境数据集视角随机,稀疏视角训练误导了模型。正面视角下的“肩宽”和侧面视角下的“步长”是跨视角识别中的无效特征0°和90°视角的差异本来就很大。

2025-04-18 20:52:01 1189 1

原创 【说话人日志】快速跑通项目实战—3D-Speaker说话人分离

快速跑通项目实战—3D-Speaker说话人分离

2025-03-27 11:07:50 1724

原创 【步态识别】论文阅读 Parsing is All You Need for Accurate Gait Recognition in the Wild

因为二值轮廓或2D/3D关键点的信息熵过低,无法有效编码行走过程中人体的形状和动态。因此,有必要探索一种具有更高信息熵的表示方法,以用于野外步态识别。尽管这些方法在广泛使用的实验室步态识别数据集(如CASIA-B和OU-MVLP)上取得了成功,但在最近的野外数据集(如GREW和Gait3D)上表现不佳。这也是由于二值轮廓的信息熵过低,仅包含整个身体的全局轮廓,而缺乏细粒度身体部位的细节。因此,我们旨在通过部位级步态表示来建模行走过程中细粒度身体部位的形状和动态。

2025-03-18 11:41:40 785 1

原创 【分裂阵波束合成】分裂阵波束合成理论

能够提供阵增益和目标方位估计,是声呐系统用于测向的主要方法。不同应用实例是根据各自应用需求对相位差信息进行后置处理,提取满足声呐使用需求的特征信息。方法是 2 种高分辨率的分裂阵波束形成方法,其共同点是,不同点在于对左右波束形成的处理。

2025-03-18 10:25:50 826

原创 基阵理论基础——常见阵列与均匀线列阵(UniformLinearArray,ULA)

常见阵列与均匀线列阵(UniformLinearArray,ULA)

2025-02-26 22:03:20 1735

原创 【说话人日志】说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么

说话人日志实验指标 日志错误率(DER)、Jaccard错误率(JER)和拼接最小排列词错误率(cpWER)是什么

2025-02-25 09:47:37 1057

原创 【说话人日志】说话人日志(分割)综述与研究进展

说话人日志(分割)综述与研究进展

2025-02-24 09:38:28 1733

原创 【说话人日志】《3D-Speaker-Toolkit: An Open-Source Toolkit forMultimodal Speaker》阿里通义多模态说话人开源项目3D-Speaker

该项目由阿里通义团队开源,提供解决“谁在何时说话纯音频说话人日志:由多个模块组成,包括重叠检测(可选)、语音活动检测、语音分段、说话人特征提取和说话人聚类。多模态说话人日志:融合音频和视频图像输入以生成更精确的结果。项目github链接视频介绍论文地址我们介绍了3D-Speaker-Toolkit,一个开源的多模态说话人验证和日志工具包,旨在满足学术研究者和工业从业者的需求。3D-Speaker-Toolkit巧妙地结合了音频、语义和视觉数据的优势,无缝融合这些模态以提供强大的说话人识别能力。

2025-02-23 13:34:47 1367

原创 【说话人分离】多说话人分离基础知识—鸡尾酒会问题

本文介绍了多说话人分离的基础知识—鸡尾酒会效应

2025-02-20 16:03:12 535

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除