一、LLM模型
chatglm2模型
ChatGLM2-6B 训练参数解释
ChatGLM-6B 的部署与微调以及过程中涉及知识总结(7.26更新)
ChatGLM P-Tuning v2 避坑指南
小样本(100条)微调,建议 num_train_epochs(最大迭代轮数) =20 才能稳定拟合任务要求
ps:百度文心千帆平台微调建议,100条数据时, Epoch为15,1000条数据时, Epoch为10,10000条数据时, Epoch为2。
chatglm130b模型
不同于 BERT、GPT-3 以及 T5 的架构,是一个包含多目标函数的自回归预训练模型。该模型有一些独特的优势:
双语:同时支持中文和英文。
高精度(英文):在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM