文章目录
面试情况
基本都答出来了,代码题10分钟不到秒了。
1、对简历项目提问:
1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化,具体做法,为什么这么做?
1.2、标注问题,如何标注?
1.3、如何设计prompt让chatgpt得到高质量标注?
1.4、类目比较多,如何优化?
1.5、类目分类里有无对比其他模型?效果如何?
1.6、聚类算法kmeans, dbscan原理,他们的区别不仅仅是因为是否需要预先设定类别数k,为何组合他们来做归一化?
1.7、t5模型介绍,bert模型介绍,他们之间的区别?
2、八股基础提问
2.1、bert的预训练任务,mask机制介绍,为何要mask15%,15%里为何又要80%mask,10%随机替换别的token,10%不动。
- 所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单