- 博客(8)
- 收藏
- 关注
原创 RoPE旋转编码以及在LLAMA中的应用
补充说明:LayerNorm,Pre-Norm,Post-Norm,RMSNorm,DeepNormLayerNorm:在单个样本的整个序列上的全部特征做归一化BatchNorm:在一个批次的样本整个序列上每个特征做归一化为什么transformer使用LayerNorm而不是BatchNorm?因为在做归一化时,我们需要确保参与归一化的数据点在本质上是可比的。
2024-12-28 19:54:05
1050
原创 Transformer面试高频模型: GPT,XLNet,RoBERTa,T5,DeBERTa 和 BART
T5将所有的自然语言处理任务都转化为文本到文本的转换任务,以Text-to-Text为预训练任务,通过多种预训练任务(如翻译、问答、摘要等),让模型学会在不同任务间共享知识。和BERT对比时,BERT专注于编码任务,擅长理解文本上下文,可以应用于文本表示领域如文本分类,情感分析,问答系统,命名实体识别等,需要在下游任务上做微调;T5应用于所有可以转化为文本生成的任务,在多任务学习上存在优势,如机器翻译,问答,文本摘要等。
2024-12-28 11:41:22
1308
原创 Deberta代码详解
c2p_pos的[i][j]代表从i到j的相对位置索引;对于[i][j]位置的最终值有以下几个部分:c2p:c2p_att倒数第一维代表content每个位置对于每个相对位置的分数,每个位置对应2*seq_length个值,在gather时取i位置的对于每个相对位置的分数数组,再以[i][j]为索引取数组值作为[i][j]的分数。(因此公式中为Q_i)
2024-12-27 00:08:02
962
原创 前端面试经验(四)JavaScript
1.输出windows.alert 窗口警告console.log 控制台输出document.getElementById("XXX").innerHTML("XXXX")document.write()用在外部script将会覆盖,如果用在内部script在页面加载时一同加载,将会添加在页面标签后。2.变量重新声明某一javascript变量,变量的值不会丢失。new关键字声明变量类型。3.对象方法如果要访问对象方法属性,它将作为一个定义函数的字符串返回。4.函数
2022-01-13 09:46:54
157
原创 前端面试经验(三)
1.img与background-image的区别1)解析机制:img作为html标签解析,在html加载时加载,加载失败会显示撕裂的小图标;background-image作为属性在html加载完毕后再加载,加载失败不作显示。2)本质区别:img占位,可以作为document对象操作;background-image不可以被操作。img属于内容型,background-image属于样式型。3)长宽设置:img设置width或者height其中之一时会自适应,同时设置容易变形,backgrou
2022-01-08 15:31:30
186
原创 前端面试经验(二)
css:1.导入导入样式文件的四种方法:行内式、嵌入式、链接式、导入式link与@import的区别:1.link属于链接式,与页面同步加载;而@import属于导入式,在页面加载完毕后再去加载css,容易造成延时。2.link是标签,用在head标签内;@import是规则,先于其他所有规则加载,用在style标签内,style标签用在head标签内。3.link不存在兼容问题,而@import是css2.1提出的,只能被ie5以上识别。4.在非模块开发中尽量不使用@import,当有多个独
2022-01-05 13:42:34
180
原创 前端面试经验(一) html
1. DOCTYPE : web文档顶部,标记语言的文档类型声明,指示web浏览器关于页面使用的是哪个html版本编写。影响:1.代码验证 2.决定浏览器最终如何显示web文档存在的意义:浏览器在发展过程中实现CSS遵循的标准不同,大部分不符合W3C标准。严格模式的排版和js运行模式以浏览器支持的最高标准运行。如果只存在严格模式,那么很多旧网站站点无法工作。浏览器提供两种模式:混杂模式服务于旧式规则,严格模式服务于标准规则。W3C标准:结构化标准语言(XML,XHTML),表现标准语言(CS
2022-01-03 16:29:20
467
原创 JVM学习笔记(一)
JVM的组成:1.java代码执行2.内存管理3.线程资源同步与交互机制2.1 JVM后台运行的系统线程:1)虚拟机线程:安全点JVM进行垃圾回收是一个非常复杂的过程,如何进行垃圾标记、什么时候进行垃圾、如果进行垃圾回收等等都非常复杂,当前主流测JVM在垃圾回收时都会进行STW(stop the world),即使宣称非常快的CMS垃圾回收期早期也会STW标记垃圾状态。那么这里有个问题,什么时候进行标记对象是否可以被回收呢?CPU在执行运算过程时需要把数据从内存中载入到寄存器
2021-12-30 20:07:35
116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人