点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

6月29日,2026“众智”大模型开放智算生态协同高级别研讨会上,中国信息通信研究院正式发布AISHPerf人工智能软硬件基准体系3.0版本,包含AISHPerf-智算运维智能体评测基准与AISHPerf-算子生成智能体评测基准两项AI Infra领域核心标准。其中,AISHPerf智算运维智能体评测基准是我国首个面向AI基础设施的运维智能体权威评测基准。

本次研讨会由中国信通院人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办,两大评测基准由国内AI原生基础设施服务商无问芯穹及清华大学团队提供重点技术支持,从底层算力优化到上层集群运维,共同为智算产业的标准化升级与高质量发展提供了统一的能力参照框架。
AISHPerf是中国信通院联合人工智能大模型及软硬件评测工业和信息化部重点实验室,依托国家信创园人工智能软硬件协同创新与适配验证中心打造的人工智能软硬件基准体系。该体系通过多维度指标设计,考察端到端方案对模型与应用场景的真实承载能力,系统评估软硬件协同优化水平、兼容适配能力与整体交付效能。
当前,AI产业已从“堆算力、拼规模”的规模扩张阶段,迈入以“Token效能”为核心的效率提升阶段。算力与电力投入逐步成为基础设施的“基础常量”,而运维能力直接决定算力利用效率与Token产出水平,成为影响产业投产效益的“核心变量”。但行业内对运维智能体的评估长期停留在语言问答、知识复述的“笔试型”层面,缺乏真实生产场景的实操考核,无法反映智能体实际解决问题的能力,难以支撑运维智能化的规模化落地。
针对这一行业痛点,AISHPerf-智算运维智能体评测基准锚定真实生产场景构建实操化评测体系。该基准以无问芯穹沉淀的近百亿条真实运维数据为底座,经资深运维专家脱敏、标注与筛选,提炼形成103条高保真典型评测用例,覆盖5大技术栈、44种问题现象、22个细分故障领域,设置易、中、难3种难度层级,纳入6种国内外芯片(含5款国产芯片),打通了从底层硬件到用户侧软件的全链路故障问题场景。

评测采用实景化闭环设计:全程不预设故障根因,仅向智能体提供真实集群环境与有限的现象描述,要求智能体自主完成环境探索、根因定位、故障修复的完整流程。最终从故障解决率、处理时延、Token消耗、工具调用效率等维度输出量化结果,客观评估运维智能体在真实生产环境中的端到端问题解决能力。
作为基准的核心亮点,该体系在国内同类评测中率先实现对国产芯片运维场景的深度覆盖。近年来国产AI加速卡产业快速发展,据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模进入快速扩容期。但相较于成熟的通用GPU生态,国产芯片在硬件架构、驱动体系、通信协议、框架适配等方面存在显著技术差异,运维复杂度更高,直接制约国产算力的效能释放。
为此,评测基准专项纳入天数、壁仞、沐曦、摩尔线程、昇腾5种国产芯片的集群运维场景与典型问题测例,覆盖硬件故障、驱动适配、框架兼容、通信协议等国产算力运维核心痛点,首次建立起统一、可量化的国产智算运维智能体评估标尺,为国产算力从“规模落地”向“效能释放”进阶提供标准支撑。
业内人士表示,运维智能体的深度应用正在推动AI基础设施向自主自治形态升级。未来的AI基础设施将具备自我感知、自我修复、自我迭代能力,内置运维智能体将实现资源自动调度与系统自动优化,推动算法与基础设施深度协同。
据了解,无问芯穹已在实际训练与推理业务中部署运维智能体,实现工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降约30%,验证了智能运维对Token产能的提升价值。
目前,AISHPerf开放评测工作区已在Gitee平台开源,同步开放故障模拟器、运维数据集与评测框架源码,面向全行业共享共建。(记者 战钊)
