点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息发布“源2.0-M32”开源大模型
首页> 科技频道> 人工智能 > 正文

浪潮信息发布“源2.0-M32”开源大模型

来源:光明网2024-05-29 14:58

  5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

  在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

  在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

  基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。

  源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

  浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。

  据悉,源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 浙江建德:“以花为媒” 打造春日消费新场景

  • 乌鲁木齐社区文化丰富居民生活

独家策划

推荐阅读
可上九天揽月,可下五洋捉鳖,人类探索地球的征程离不开载人潜水器的技术创新。海底两万里,书写新传奇。
2025-03-24 12:09
3月20日至23日在海南三亚举办的2025种子大会暨南繁硅谷论坛上,智慧育种成为焦点议题,业内人士期待智慧育种破译“基因密码”,开启种业创新的新赛道。
2025-03-24 08:53
中关村论坛重大成果、《国家创新指数报告》和2024年度“中国科学十大进展”等一批科技成果、创新政策和权威报告也将在论坛年会期间发布。
2025-03-24 08:49
今年3月23日是第65个世界气象日,中国气象局、中国气象学会当日在京启动2025年世界气象日活动,发布2024年度“中国十大气象科技进展”。
2025-03-24 04:55
多模态跨尺度生物医学成像设施日前在北京怀柔科学城通过国家验收。该设施是“十三五”国家重大科技基础设施建设项目,将为生命科学研究和重大疾病诊治提供全尺度、
2025-03-24 04:55
青藏高原湖泊既对全球气候变化非常敏感,也对其有重要影响。我国科学家研究评估了近36年间气候变化给青藏高原湖泊带来的影响,结果发现,青藏高原湖泊对气候变化响应显著,
2025-03-24 04:55
记者22日从中国石化胜利油田获悉,我国油气勘探领域迎来重大突破——中国石化胜利油田济阳页岩油新兴油田亿吨级探明储量正式通过自然资源部储量评审备案。位于山东省淄博市高青县内的新兴油田樊页平1区块,页岩层系石油探明地质储量达1.4亿多吨,技术可采储量达1135.99万吨。这是首个通过自然资源部评审备案的探明地质储量达亿吨级的页岩油田。
2025-03-24 05:25
国家能源局20日发布的全国电力工业统计数据显示,截至2025年2月底,全国累计发电装机容量34.0亿千瓦,同比增长14.5%。
2025-03-21 03:40
今年前两个月,我国装备制造业和高技术制造业增加值同比分别增长10.6%和9.1%,有力支撑工业经济实现稳步向新向好发展。
2025-03-21 03:40
2024年12月16日,中国在海南文昌航天发射场使用长征五号乙运载火箭/远征二号上面级,成功将卫星互联网低轨01组卫星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
2025-03-21 10:12
一颗青梅、一杯酸奶、一碟陈醋、一缸酸菜……中国人的餐桌上,常能看到酸味的身影。夏季气候炎热,人体出汗较多、胃口可能变差,适量食用酸味食物可以起到开胃、收敛止汗的作用。
2025-03-21 10:11
阿卜杜拉国王科技大学的一项开创性研究首次直接观察到了DNA开始解旋的瞬间,揭示了使细胞能够准确复制其遗传物质的基本机制。
2025-03-21 10:09
根据新一期《自然》杂志发表的气候科学研究,2023/24年海洋表面温度的大幅上升虽然是异常现象,但用气候模型预测时并不全然意外。
2025-03-21 10:07
液体粉笔的研发让师生免受粉尘之扰,如今湖北应城市黄滩镇刘垸村粉笔年销售额超过1亿元,村民眼中的夕阳产业焕发新生。实践证明,深耕技术创新,用好技术赋能,不仅能提高生产效率、降低成本,还能提高产品品质和性能,打造差异化竞争优势。
2025-03-20 09:54
今年春节刚过,中国农业科学院蜜蜂研究所研究员黄家兴就跨越3000多公里,从北京来到云南沧源佤族自治县,开启新一年的追花之旅。跟着帮扶团队,蜂农李光强学到了真本事:以前有蜜就割,蜜蜂饿肚子出逃;现在留蜜补蜜,提高采蜜效率。
2025-03-20 09:53
对人性温度的感知,对多元价值的判断,对公共利益的坚守,这些人类独有的认知维度,是AI无法替代的核心价值。
2025-03-20 09:52
从燧人氏钻木取火,到墨子提出“光沿直线传播”的朴素理论,再到牛顿用棱镜分解白光揭示光谱的奥秘,光始终是科学与技术演进的见证者。进入21世纪,这场跨越千年的对话迎来了全新维度——光经济。
2025-03-20 09:49
春分,是二十四节气中的第四个节气。在国家卫生健康委19日举行的“时令节气与健康”发布会上,专家提醒,春分时节,昼夜平分,公众要注重规律起居、保证睡眠、均衡寒热饮食、适时添减衣物。
2025-03-20 09:40
近日,国内首款碳-14核电池原型机“烛龙一号”发布,这标志着中国在核能技术领域与微型核电池领域取得重要突破。
2025-03-19 10:24
世界知识产权组织近日公布2024年全球知识产权申报统计数据。中国申请量为70160件,同比增长0.9%,仍是申请量最大的来源国。
2025-03-19 10:20
加载更多