自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (1)
  • 收藏
  • 关注

原创 量化感知训练(QAT)流程

的自动量化),这些模块在qat阶段需要手动实现或替换为可量化版本,而不是直接调用tensorflow等写好的包,以确保量化代码能识别这些参数并正确插入伪量化节点并进行量化训练。,将权重和激活模拟为低精度(如 int8)格式,同时仍然使用高精度(如 float32)进行反向传播和参数更新,使得模型在训练时适应量化误差的存在,从而在实际部署时保证性能。step2: 伪量化权重(float32->量化->int8->反量化->float32)引入量化误差。对需要量化的层打上标记,并通过。它的核心思想是:通过。

2025-07-27 00:25:23 361

原创 【高效Transformer】未完待续

原文:有大量“X-former”模型被提出,这些模型在计算和内存效率方面改进了原始Transformer架构。该文章提供了一个有全面的现有工作和模型概述,涵盖语言、视觉和强化学习等多个领域。

2025-07-11 18:24:39 858

原创 【模型量化】入门学习笔记

此外,尾数存在一个 隐含的前置值 1,即实际尾数为1+小数部分,因此,尾数的有效范围为 [1.0,1.99999988],即在 [1, 2) 之间。在模型训练及保存阶段,参数常以float32的形式存在,具备较高的数据精度及训练稳定性,但float32的模型占用空间较大,且高精度在推理阶段对模型性能的提升往往有限。具体来说,指数值的范围从原本的 [0, 255](即 8 位二进制的最大值)被转换为 [-126, 127],使得最终的数值范围可以覆盖更大的数量级,从而扩展到[精度降低后的模型大小。

2025-04-24 15:17:37 542

原创 【Masked Spectrogram Prediction for Unsupervised Domain Adaptation in Speech Enhancement】

domain adaptation

2024-09-08 21:59:57 155

原创 【self-supervised learning for speech enhancement】

自监督/无监督/域自适应语音增强方法

2024-09-08 21:56:11 185

原创 【import error, version ‘GLIBCXX_3.4.26‘ not found】

在导入librosa时报错,本来我以为是torchaudio和librosa版本冲突,因为我发现两者只要是先导入torchaudio再导入librosa就回报这个错,如果调换顺序先导入librosa再导入torchaudio或者只导入librosa就不会有这个问题,因此我首先换了一个环境来找到torchaudio和librosa同时导入而不会报错的版本,并把当前环境的两个包的版本都替换了,但仍然在报错。但是我并不明白为什么重装scipy就可以解决,对原理不太懂,有知道的大佬可以解答一下。

2024-06-29 23:45:47 389

原创 【comet_ml报错COMET ERROR: Run will not be logged】

出现错误的原因是comet和服务器握手失败,可以通过修改为本地实验避开这个问题。然后所有信息会保存到本地。

2024-06-15 21:43:57 703

原创 【conda虚拟环境误删!!!】

今天想给虚拟环境重命名,中途混淆了conda命令,差点以为自己将虚拟环境全部删掉了,记录这次小乌龙,给虚拟环境导出并备份是很重要的!!

2024-06-12 23:44:34 1093

原创 REMIXED2REMIXED: DOMAIN ADAPTATION FOR SPEECH ENHANCEMENT BY NOISE2NOISE LEARNING WITH REMIXING

本文提出了一种基于域适应的语音增强方法Remixed2Remixed。该方法采用Noise2NOise(N2N)学习使在人工合成的数据(out-of-domain,OOD,域外数据)上训练的模型更好地该方法采用Noise2Noise ( N2N )学习来适应在人工生成的带噪-干净语音对( out-of-domain:OOD )数据上训练的模型更好地分离真实带噪语音(in-domain,域内数据)。

2024-04-28 20:23:42 895 2

原创 【语音增强评价指标】

语音增强指标介绍

2023-10-16 21:24:14 3575 1

原创 【MetricGAN系列】

MetricGAN系列

2023-08-31 12:00:01 719 1

原创 无监督语音分离MixIT

在已经有模型能分离出目标数目(假设为2)的语音的条件下,使输出语音顺序固定,计算出Ground truth所有可能的排列,将每个排列内的语音和输出语音一一对应计算距离作为该组排列的loss,计算出每组排列的loss,最小loss的作为最终答案更新网络。对于speaker separation来说,假设输入语音包含两个说话人,那么输出应是两条分开的语音,而ground truth也是两条语音,他们都没有特定的顺序,那么如何对齐训练后输出语音和ground truth呢?提出时间: 2017。

2023-07-23 20:31:49 699

原创 【SELF-SUPERVISED LEARNING-BASED SOURCE SEPARATION FOR MEETING DATA】论文翻译

个性化语音分离

2023-07-16 11:33:30 385 1

原创 语音自监督模型总结【持续更新】

自监督模型整理

2023-07-14 16:17:33 1699 1

原创 【tmux vim窗口被锁】

linux下vim窗口被锁定的解决方法

2023-07-03 10:47:32 498 1

原创 rust与numpy

rust读取npy文件,及其数据类型转换

2023-06-10 12:57:34 482

原创 VSCode报错 stream did not contain valid UTF-8

vscode linux 编码错误

2023-06-08 15:32:50 3041

原创 segment fault(core dumped)

segment torch

2023-06-07 20:29:01 764 1

原创 语音增强数据集总结【持续更新】

语音增强数据集

2023-06-01 00:22:09 11714 11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除