
深度学习
文章平均质量分 84
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HugNLP发布,集成多种NLP任务,可训ChatGPT类模型
HugNLP框架发布,集成大量NLP任务,可训练ChatGPT类模型,开源地址:https://github.com/HugAILab/HugNLP原创 2023-05-08 10:49:02 · 765 阅读 · 0 评论 -
详谈大模型训练和推理优化技术
本文介绍大模型的训练和推理优化技术,包括混合精度训练、分布式训练DeepSpeed、INT8模型量化、参数有效性学习、混合专家训练、梯度检查点、梯度累积、Flash Attention等。原创 2023-05-19 18:03:31 · 18941 阅读 · 2 评论 -
论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts
介绍promptbert用于解决预训练语言模型对句子表征存在的各项异性问题。原创 2022-06-29 20:36:55 · 3055 阅读 · 0 评论 -
论文解读:Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Proje
小样本实体识别(Few-shot NER)旨在给定目标domain非常少的标注数据(例如符合 N-way K-shot 规则的support set)的前提下,能够识别出文本中指定类型的所有实体。而通常实体识别是视为一种序列标注(sequence labeling)任务。目前与实体识别相似的任务还有槽位填充(Slot Tagging)。本文介绍ACL2020的一篇工作试图解决基于Few-shot的序列标注问题。...原创 2022-06-29 19:52:06 · 1411 阅读 · 0 评论 -
论文解读:Example-Based Named Entity Recognition
Example-based NER指给定support set少量的样本,对应的所有entity type只有很少的实体。给定一个query时,模型会分别根据support set中的entity type寻找query对应的实体。原创 2022-06-28 16:34:43 · 989 阅读 · 0 评论 -
NLP常用损失函数代码实现——SoftMax/Contrastive/Triplet/Similarity
NLP常用损失函数代码实现 NLP常用的损失函数主要包括多类分类(SoftMax + CrossEntropy)、对比学习(Contrastive Learning)、三元组损失(Triplet Loss)和文本相似度(Sentence Similarity)。其中分类和文本相似度是非常常用的两个损失函数,对比学习和三元组损失则是近两年比较新颖的自监督损失函数。 本文不是对损失函数的理论讲解,只是简单对这四个损失函数进行了实现,方便在模型实验中快速嵌入损失函数模块。为了能够快速直观地看到损失函数的执原创 2022-03-23 20:19:13 · 4327 阅读 · 2 评论 -
NLP几种常用的对抗训练方法
NLP几种常用的对抗训练方法 对抗训练本质是为了提高模型的鲁棒性,一般情况下在传统训练的基础上,添加了对抗训练是可以进一步提升效果的,在比赛打榜、调参时是非常重要的一个trick。对抗训练在CV领域内非常常用,那么在NLP领域如何使用呢?本文简单总结几种常用的对抗训练方法。 对抗训练旨在对原始输入样本 xxx 上施加扰动 radvr_{adv}radv,得到对抗样本后用其进行训练:公式理解:最大化扰动:挑选一个能使得模型产生更大损失(梯度较大)的扰动量,作为攻击;最小化损失:根据最大原创 2022-02-07 15:27:58 · 8155 阅读 · 5 评论 -
Pytorch单机多卡GPU的实现(原理概述、基本框架、常见报错)
简单介绍pytorch如何基于DDP实现单机多卡GPU并行训练。本文提供简单的数据并行的原理概述,并通过MNIST任务样例给出如何DDP,同时给出DDP的框架。最后给出DDP常见的一些报错(持续更新)。原创 2022-01-21 19:09:50 · 6511 阅读 · 0 评论 -
论文解读:Global Attention Decoder for Chinese Spelling Error Correction
论文解读:Global Attention Decoder for Chinese Spelling Error Correction(ACL2021)简要信息:序号属性值1模型名称GAD2所属领域自然语言处理、中文拼写纠错3研究内容中文拼写纠错4核心内容Global Attention Decoder5GitHub源码6论文PDFhttps://aclanthology.org/2021.findings-acl.122.pd原创 2021-11-28 19:51:29 · 1428 阅读 · 0 评论 -
论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training
论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training(ACL2021) 中文拼写纠错CSC任务具有挑战性,目前的SOTA方法是仅使用语言模型,或将语音信息作为外部知识;本文将提出一种新的端到端的CSC模型,将phonetic(拼音)特征融入到预训练和微调部分:我们在预训练阶段,每次随机将某个token替换为sound-alike的词;提出adaptive weighted联合训练detection和correction原创 2021-11-25 14:26:42 · 3308 阅读 · 0 评论 -
论文解读:Spelling Error Correction with Soft-Masked BERT
论文解读:Spelling Error Correction with Soft-Masked BERT(2020ACL) 拼写错误纠错是一个比较重要且挑战的任务,非常依赖于人类的语言理解能力。本文关注中文的拼写错误纠错任务(Chinese Spelling Error Correction)。目前SOTA的方法是给予BERT模型,为句子中的每一个词,从候选的字符列表中挑选一个作为纠错的结果,然而这类方法容易陷入局部最优。然而,因为 BERT 没有足够的能力来检测每个位置是否有错误,显然是由于使用掩码语原创 2021-11-25 14:03:25 · 1819 阅读 · 0 评论 -
博主的EMNLP2021合作工作已公开:TransPrompt——基于Prompt和迁移学习的小样本文本分类,欢迎阅读与引用
博主近期参与的校企合作项目,并于2021年5月17日前投稿EMNLP2021,论文题目为TransPrompt: Towards an Automatic Transferable Prompting Framework for Few-shot Text Classification主要工作内容简介为:目前BERT、GPT等语言模型在下游任务微调时,需要额外在head部分添加参数,当样本数量少的时候,由于引入了新的参数,而导致过拟合问题;GPT3的提出,引入了基于prompt的in-contex原创 2021-09-14 10:29:31 · 2049 阅读 · 10 评论 -
CTC算法
CTC算法 在语音识别或文字识别任务上,输入的语音或图像与输出的文字很难构建精准的映射关系。形式化的描述如下: CTC算法旨在解决输入与输出对应对齐的问题。1、CTC对齐方法直接去重 输入一段语音或图像,RNN输出预测每个位置的预测单词的概率分布,例如输出ccaaat,可直接去重,得到cat。该方法简单,但容易将本来有的重复字母也去重了,例如helllooo去重为helo。引入空位符 为了解决上述问题,CTC算法引入的一个新的占位符用于输出对齐的结果。这个占位符称为空白占位符,通常使原创 2021-06-05 12:10:29 · 2909 阅读 · 0 评论 -
目标检测经典算法集锦
目标检测经典论文集锦 目标检测目前有 one-stage 和 two-stage 两种,two-stage 指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,比如R-CNN系列;与之相对的是 one-stage 检测,可以理解为一步到位,不需要单独寻找候选区域,典型的有SSD/YOLO。 本文为结合相关参考博客以及原始论文进行的整理总结,相关参考引用详见文末。一、two-stage 检测1、基于滑动窗口的目标检测 属于暴力方法,从上到下、从左到右,使用滑动窗口,并对窗口内图原创 2021-06-05 12:01:19 · 7602 阅读 · 0 评论 -
论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction
论文解读:Answering while Summarizing: Multi-task Learning for Multi-hop QA with Evidence Extraction (2019ACL) 在文本上进行QA也别称为机器阅读理解。本文关注的是可解释的多跳QA,其需要系统能够同时返回答案以及相关依据句子。本文提出QFE模型用于对evidence进行抽取,并采用多任务学习进行训练。相比现有的方法,我们并不是独立地抽取evidence sentence,而是使用RNN和注意力机制进行抽取,原创 2021-06-05 11:27:10 · 472 阅读 · 0 评论 -
论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap
论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap本篇文章也是企图将passage构建为一张图结构,根据图结构获得global evidence,并给予该图实现multi-hop reasoning。注意:本文所述的multi-hop reading comprehension(MHRC)是指根据多个passage寻找答案一、动机multi-hop原创 2021-06-05 11:04:42 · 326 阅读 · 0 评论 -
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML) 通常的,元学习可以被在多个任务(task)上训练以期望能够泛化到一个新的task。然而当在现有的task上过度地学习(过拟合),在新的task泛化能力会变差。换句话说,初始的meta-learner在现有的task上会学习到有偏的知识(bias),特别是样本数量非常少的情况下。为了避免在样本数量非常少时,meta-learner会学习到有偏的信息,本文提出一种Task-Agnosti原创 2021-04-26 10:07:35 · 1712 阅读 · 0 评论 -
论文解读:Making Pre-trained Language Models Better Few-shot Learners(LM-BFF)
Making Pre-trained Language Models Better Few-shot Learners 陈丹琦团队提出的一种改进GPT-3的模型,其可以扩展到任意的预训练模型上,并可以在小样本情景下更好的进行微调。1、动机GPT-3在小样本上进行微调获得了很大的效果,但其参数太多,不适用于真实场景,因此受到GPT-3的启发,我们提出一种LM-BFF(小样本微调预训练模型),主要包括:(1)基于提示(prompt)的微调方法,且提出自动生成提示模板的方法;(2)动态选择样本示例。原创 2021-04-12 21:30:21 · 7888 阅读 · 2 评论 -
论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning
论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning (2018 ACL)简要信息:序号属性值1模型名称Deep Dyna-Q (DDQ)2所属领域问答系统,强化学习3研究内容任务型多轮对话4核心内容Dyna架构,Q学习5GitHub源码https:// github.com/MiuLab/DDQ6论文PDFhtt原创 2021-03-14 23:23:11 · 939 阅读 · 0 评论 -
论文解读:Graph Transformer for Graph-to-Sequence Learning
论文解读:Graph Transformer for Graph-to-Sequence Learning 图神经网络在深度学习领域内得到十分广泛的应用,其可以对拓扑结构的数据进行表征。现阶段传统的以GNN及其相关变体在进行表征时普遍做法是将结点多跳范围内的邻居结点通过平均或加权等方式进行聚合,但这类方式存在一些不足之处,本篇文章提出的Graph Transformer模型主要解决含有关系以及在有限跳数范围内部分结点之间信息无法得到交互的问题,并应用到graph-to-sequence类问题上。一、简原创 2020-12-07 22:12:37 · 7449 阅读 · 3 评论 -
机器阅读理解算法集锦
机器阅读理解算法集锦 机器阅读理解(Machine Reading Comprehension, MRC) 是一项基于文本的问答任务(Text-QA),也是非常重要和经典的自然语言处理任务之一。机器阅读理解旨在对自然语言文本进行语义理解和推理,并以此完成一些下游的任务。具体地讲,机器阅读理解的任务定义是:给定一个问句(question) qqq,以及对应的一个或多个文本段落(passage) ppp,通过学习一个模型 fθf_\thetafθ ,使得其可以返回一个具体的答案,记做 a=fθ(q,p原创 2020-11-29 14:14:49 · 2654 阅读 · 0 评论 -
论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings
论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings 知识库问答(KBQA/KGQA)是指给定一个自然语言问句和对应的知识库,试图从知识库中返回对应正确的答案。现如今一些方法是通过对问句中的候选实体在知识库中对齐,并获得一定跳数范围内的子图,通过排序算法或TopK算法等获得有可能的答案。但是有时候知识库是不充分的,某些目标答案需要经过非常长的推理路径才能获得,而在原创 2020-08-20 16:02:26 · 6379 阅读 · 5 评论 -
论文解读:Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question
论文解读:Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question 知识图谱问答的任务目标是在给定一个自然问句以及对应的知识库下,找到正确的答案(实体)。本文则通过多任务学习的框架,利用多视角注意力机制完成知识图谱问答任务。1、什么是知识图谱? 知识图谱是近年来非常热门的研究内容,现如今可以和自然语言处理、计算机视觉一并作为一个新的研究领域。知识图谱通常可以抽象为知识原创 2020-08-14 21:11:38 · 1399 阅读 · 0 评论 -
论文解读:Graph Convolutional Networks for Text Classifification
论文解读:Graph Convolutional Networks for Text Classifification 先前的文本分类方法是基于CNN或RNN进行的,只能单独的对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩,将图引入文本分类是新的思路。一、简要信息序号属性值1模型名称Text-GCN2所属领域自然语言处理3研究内容文本分类4核心内容Text Classification,原创 2020-08-06 14:31:47 · 1765 阅读 · 0 评论 -
对话生成的新探索——从模仿学习到逆强化学习
论文解读:Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning 对话生成是一个常见的自然语言处理任务,其在工业界广泛应用与智能客服,闲聊机器人等。现如今主要研究于如何提高对话的质量,多样性。本文则采用先进的技术试图解决这个问题。一、简要信息序号属性值1模型名称DG-AIRL2所属领域自然语言处理3研究内容对话生成4核心内容Dialogue G原创 2020-08-02 16:09:19 · 2137 阅读 · 2 评论 -
手写数字识别Mnist的Pytorch实现
手写数字识别Mnist的Pytorch实现注:该内容为校内课程实验,仅供参考,请勿抄袭!源码地址:一、引言(Introduction) 手写数字识别时经典的图像分类任务,也是经典的有监督学习任务,经常被用于测试图像的特征提取效果、分类器性能度量等方面,本文将通过应用机器学习和深度学习算法实现手写数字识别。 图像分类任务是指给定一张图像来对其进行分类,常见的图像分类任务有手写数字识别、猫狗分类、物品识别等,图像分类也是计算机视觉基本的分类任务。而对于手写数字识别任务来说,可以当做图像分类问题,也原创 2020-07-02 23:20:09 · 7089 阅读 · 1 评论 -
论文解读:Reinforcement Learning for Relation Classification from Noisy Data
论文解读:Reinforcement Learning for Relation Classification from Noisy Data 本文是一篇以强化学习来解决远程监督关系抽取中噪声的问题。强化学习作为一个比较新的机器学习,能够很好的处理一些半监督类问题,强化学习是一种从经验中学习的方法,通过定义策略、状态、动作以及收益来训练智能体与环境的交互,在游戏博弈等场景中很受欢迎。本文则将其...原创 2020-04-06 16:41:44 · 2534 阅读 · 2 评论 -
Pytorch使用LSTM实现Movie Review数据集情感分析
Pytorch使用LSTM实现Movie Review数据集情感分析 入门Pytorch一周时间,周六试着手写情感分类代码。学过Tensorflow的都知道,其需先生成计算图,还得通过placeholder喂入数据,十分的麻烦,也不容易调试,而pytorch真心是简单上手,最开心的就是Tensorflow不能随时打印中间结果,而Pytorch完美实现了~~啰嗦两句,很建议大家先学习tensor...原创 2020-03-29 01:00:21 · 4209 阅读 · 6 评论 -
论文解读:Denoising Distant Supervision for Relation Extraction via Instance-Level Adversarial Training
论文解读:Denoising Distant Supervision for Relation Extraction via Instance-Level Adversarial Training 本文是一篇以生成对抗网络为出发点的远程监督关系抽取文章,其使用GAN来完成噪声数据的过滤,其相比普通的multi-instance能够更有效的过滤出噪声,避免multi-instance的at-le...原创 2020-03-26 12:29:02 · 1016 阅读 · 1 评论 -
生成对抗网络(GAN)之 Basic Theory 学习笔记
生成对抗网络(GAN)之 Basic Theory 学习笔记 前言:最近学习了李宏毅生成对抗网络篇(2018年)的视频(视频地址:李宏毅对抗生成网络(GAN)国语教程(2018)),因为截止今天(3.23),2020版还未讲到生成对抗网络,因此选择18年。本次学习笔记主要为Basic Theory部分,主要讲解GAN的数学原理。 GAN又称生成对抗网络,是由Ian Goodfellow等人...原创 2020-03-23 16:55:00 · 1230 阅读 · 1 评论 -
论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction
论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn 远程监督关系抽取一直存在一个问题就是噪声,现如今有诸多工作来解决噪声问题,本文创新点在于结合了远程监督和普通监督学习来实现降噪。一、简...原创 2020-03-15 17:22:18 · 884 阅读 · 0 评论 -
论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...
论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information KB-QA任务的第二作,其是对上一篇(Question Answering over Freebase with Multi-Column Convolutional Neural Ne...原创 2020-03-08 11:30:47 · 1540 阅读 · 0 评论 -
论文解读:Question Answering over Freebase with Multi-Column Convolutional Neural Networks
论文解读:Question Answering over Freebase with Multi-Column Convolutional Neural Networks KB-QA是一种问答系统任务,其是基于知识库进行的问答。给定一个知识库,其包含若干个实体和边,每两个实体和相连的边为一个三元组。实体分为客观实体和属性,客观实体就是客观存在的一般实体,例如人名地名机构名,属性则是一种特殊的实...原创 2020-03-02 23:04:21 · 1010 阅读 · 0 评论 -
论文解读:Semantic Neural Machine Translation using AMR
论文解读:Semantic Neural Machine Translation using AMR 机器翻译主要得益于语义表征能力,为了缓解数据的稀疏性,作者提出一种神经机器翻译方法,利用AMR(Abstract Meaning Representation)作为语义增强,结合LSTM进行端到端的学习。此模型较为简单,因此做简单介绍。一、相关背景 绝大多数的机器翻译工作中,通常使用RN...原创 2020-02-05 12:04:12 · 1028 阅读 · 0 评论 -
论文解读:Selective Attention for Context-aware Neural Machine Translation
论文解读:Selective Attention for Context-aware Neural Machine Translation 当前诸多的神经机器翻译工作着力于句子级别(sentence-level)的sequence2sequence,很少考虑到整个文档级别(document-level)的上下文信息,本文作者Sameen Maruf、Andre F. T. Martins和Gh...原创 2020-02-02 14:48:42 · 1318 阅读 · 2 评论 -
论文解读:Multimodal Machine Translation with Embedding Prediction
论文解读:Multimodal Machine Translation with Embedding Prediction 机器翻译中有一个非常重要的问题即是对未知词(unknown word)和罕见词(rare word)的预测。有许多工作着重解决对于未知词和罕见词的翻译问题。对于未知词,其表示在翻译过程中在原始句子(source sentence)中发现一个在预训练词向量中不存在的词,一般...原创 2019-10-31 10:32:51 · 1245 阅读 · 0 评论 -
论文解读:Sequence to Sequence Mixture Model for Diverse Machine Translation
论文解读:Sequence to Sequence Mixture Model for Diverse Machine Translation 机器翻译是自然语言处理中比较热门的研究任务,在深度学习背景下,通过神经网络搭建的机器翻译也称为当今主流方式。在解决机器翻译过程中需要解决诸多问题,例如原始句子的语义表征、句子对齐、集束搜索、未知词、漏译过译等。而对于这种序列到序列的任务中,通常有诸多策...原创 2019-10-27 13:27:01 · 777 阅读 · 0 评论 -
论文解读:On The Alignment Problem In Multi-Head Attention-Based Neural Machine Translation
论文解读:On The Alignment Problem In Multi-Head Attention-Based Neural Machine Translation 机器翻译是自然语言处理的任务之一。基于transformer和multi-head attention在机器翻译中的应用十分广泛。注意力机制在神经机器翻译(NMT)模型中通常扮演着统计机器翻译(SMT)中的对齐机制(Ali...原创 2019-10-26 17:34:02 · 1193 阅读 · 0 评论 -
基于深度学习的知识图谱综述
随着现如今计算机设备的更新,计算能力的不断提高促使深度学习再一度推上热门技术,深度学习已经广泛应用于图像处理、文本挖掘、自然语言处理等方面,在医学、交通、教育、旅游等行业发挥极大地作用。知识图谱也在深度学习的技术下得到了很大的发展。原创 2018-11-22 18:42:54 · 17487 阅读 · 9 评论 -
Tensorflow实现BP神经网络
Tensorflow实现BP神经网络摘要:深度学习中基本模型为BP深度神经网络,其包括输入层、隐含层和输出层。输入层的神经元个数取决于数据集属性特征的个数,输出层神经元个数取决于划分类标的个数。BP神经网络通过梯度下降法不断调整权重矩阵和偏向进行调参,实现神经网络的训练。 本人为初学者,自己尝试编写了tensorflow实现BP神经网络,输入层为三个神经元。隐含层为四个神经元、输出层为两个神...原创 2018-11-26 20:08:29 · 5564 阅读 · 1 评论