2025全球机器学习技术大会-摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索
2025年全球机器学习技术大会集中于探讨摩尔线程全功能GPU在大规模语言模型分布式训练性能优化方面的新进展。在这次技术大会上,张辰,摩尔线程资深算法工程师及前腾讯高级算法研究员,分享了他在分布式训练领域的研究成果和经验。张辰拥有十年以上的NLP(自然语言处理)从业经验,专精于NLP算法、分布式训练和大规模性能优化。他曾参与腾讯搜一搜业务优化,并带领团队参加CLUE大模型基准测评,即使使用10亿参数以下的小模型,也取得了TOP 10的佳绩。作为深度学习领域的资深专家和MXNet.cpp的贡献者,张辰通过演讲《摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索》向行业展示了摩尔线程全功能GPU在应对大规模语言模型时的优化策略和性能提升。 MT Megatron作为一个支持各种训练策略和FP8混合精度训练的团队,在性能优化方面拥有丰富经验。张辰的演讲详细探讨了llama3 8B模型的性能优化,以及在密集型模型方面的优化效果。在模型性能优化环节,他深入分析了Device Limited Loss、Device Limited Router、Sequence Aux loss和Comm Balance Loss等性能瓶颈问题,并介绍了在token drop策略、Node Limited Routing、Aux Free Routing、post/pre-Normalized routing score方面的优化措施。 在性能优化的具体方法上,张辰介绍了模型建模、损失函数对齐、性能分析、性能瓶颈估算、自动并行化、性能估算、以及优化流程等方面的内容。在优化过程中,使用MT Profiler获得基线数据,采用MT HTA工具进行冷静分析,准确估算出瓶颈收益,并基于性能分析结果进行优化,以尽可能地符合性能估算,从而达到最佳的性能优化效果。 张辰还展示了如何利用Simumax进行性能评估和自动并行化处理。这包括根据性能分析结果进行性能评估,优化流程以完全遵循性能评估结果,并最终实现性能优化。 在技术大会中,张辰还详细介绍了DeepSeek性能优化的各个组成部分,如设备限制损失、设备限制路由器、序列辅助损失、通信平衡损失、节点限制路由、辅助自由路由等。他强调了一套完整的精度对齐流程和比较工具的重要性,以及使用MT Profiler获取基线数据,利用MT HTA工具进行冷静分析,准确估算瓶颈收益。 此外,张辰还介绍了如何基于性能分析结果进行性能估算,并优化流程以完全遵循性能估算,最终实现性能优化。张辰在技术大会上的分享,展示了摩尔线程全功能GPU在大规模语言模型分布式训练中的性能优化潜力,为机器学习技术的发展提供了新的视角和方向。



































剩余26页未读,继续阅读


- 粉丝: 22
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 2019年网络技术部工作总结.doc
- 单位工程监理存档资料分类目录.doc
- 得汇集团股权机构设计咨询方案.ppt
- 6-平面的投影.ppt
- 香料基础化学第10章重氮化与重氮盐的转化.ppt
- 敦煌大剧院二次结构植筋施工方案.docx
- 春季电子商务概论课程第次作业.doc
- PLC控制技术优秀教学课件.doc
- 青少年校外体育活动中心招标文件.doc
- 工程造价管理-6章-.pdf
- 地下室抹灰施工技术交底记录.doc
- 2022年新零售大数据分析平台建设方案2.pptx
- 焊接专业雨季施工.doc
- 第三章-建筑工程计算规则3.ppt
- 2015年水利设施信息采集系统工程招标文件.doc
- 某炼油厂水处理车间地坪防腐施工工艺.doc


