以数据为中心的大模型并行训练系统
讲座名称:以数据为中心的大模型并行训练系统
讲座人:李诚 副教授
讲座时间:7月11日10:00-11:30
地点:南校区网安大楼A501会议室
讲座人介绍:
李诚,德国马普学会软件系统所(MPI-SWS)博士,中国科学技术大学计算机学院/国家高性能计算中心(合肥)长聘副教授,博导,合肥综合性国家科学中心人工智能研究院信息计算平台主任,安徽省青年教学名师、教坛新秀。聚焦大模型基础系统软件研究,在 SOSP、OSDI、EuroSys、ATC、FAST、ASPLOS、SC、HPCA等计算机系统领域著名国际会议上发表论文40余篇。长期参与SOSP、OSDI、FAST、EuroSys等会议的程序委员会。获2024年世界人工智能大会青年优秀论文奖(全球10篇)、2023世界人工智能大会云帆奖璀璨明星(全球10人)、2023年阿里巴巴优秀合作项目奖(全国15个)、2022 AI 2000 计算机系统领域最具影响力学者提名、2022 CCF分布式专委杰出青年学者、2021 ACM中国新星提名等10项科研奖励。主讲《编译原理和技术》课程入选第二批国家级线下一流课程,获安徽省第五届青教赛工科组一等奖等10余项教学奖励,主编安徽省精品教材。
讲座内容:
随着深度学习和自然语言处理等领域的迅速发展,大模型如GPT-3和其后继者已经成为人工智能研究的重要驱动力。然而,大模型计算需要庞大的计算、存储和网络资源,因此需要软硬协同的专门设计来满足其日益增长的算力需求。本报告介绍国家高性能计算中心(合肥)、合肥综合性国家科学中心人工智能研究院科研团队研发的分布式并行训练系统,从数据流动视角出发,提出内存、存储、通信与计算的协同优化,解决大模型训练的“内存墙”、“存储墙”和“通信墙”问题,提升了大规模并行计算的效率。该系统及关键技术已应用在微软、趋动科技、OPPO、华为、中科类脑、百度等公司的预训练和微调业务中。
主办单位:计算机科学与技术学院