点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

4月24日,在人形机器人产业生态训练和测评基地启动仪式上,赛迪研究院联合清华大学、复旦大学、哈尔滨工业大学、香港中文大学等多所顶尖高校,共同发布“具身图灵测评基准体系ET-Benchmark”,并推出首个能力套件“ET-Benchmark Manipulation CS”操作能力套件。ET-Benchmark是国内首个具身智能领域的系统性测评基准体系,包含系列能力套件(Capability Suite),每个套件聚焦一类特定的“身”或一类特定的“能力”进行评测。


本次发布的ET-Benchmark Manipulation CS,类比于人类的通识教育水平、专业能力水平和职业发展水平构建三层评测体系架构,树立全球具身智能评价标杆。

第一层:通用基础能力层。
打造五阶能力魔方,将核心能力层划分为动作执行能力、物理认知能力与环境抗扰能力三大维度进行综合评价。其中,动作执行(M1-M5)代表了机器人的“身体技能”,物理认知(T1-T5)构成了其“大脑智慧”,而环境抗扰(E1-E5)则充当了保障系统鲁棒性的“免疫系统”,这三个维度相辅相成,通过标准化的分级体系,清晰地界定了具身智能从自动化设备向全自主通用机器人进化的技术路径,评价结果可有效帮助追溯定位具身模型基础能力短板。

第二层:为专业任务能力层。
采用六维雷达图评价方式,衡量具身智能在完整任务周期的整体运行质量,更好地反映出模型和本体性能水平和突出性能表现。

第三层:岗位职业技能层。
采用五级职业发展水平分级评价方式,评测具身智能在细分岗位应用场景中与人协作的可用性与价值。

ET-Benchmark采用“实物+虚拟仿真”双考场融合机制,形成完整的能力评估闭环。实物考场侧重检验系统在真实物理环境中的执行效果与落地表现,虚拟仿真考场侧重对复杂场景、长尾场景的测试。

ET-Benchmark重要价值在于:一是打造一套统一的“通用语言”和“标准试卷”,让不同机器人在同一把尺下客观衡量,终结行业乱象,使技术进展真正可测量、可复现。
二是告别“黑盒判断”,构建分层诊断体系,让能力可拆解。ET-Benchmark的设计能像“X光”一样,诊断出是“身体”不协调(动作执行弱)、“大脑”不够用(认知能力差),还是“免疫系统”有问题(环境抗扰低),为技术研发提供明确的方向指引,让短板可溯源。
三是跨越“鸿沟”,连接技术与产业,让进步可落地。ET-Benchmark既兼顾了学术界对顶尖技术的需求,又兼顾了产业界需要得到“到底能不能用、值不值得用”的答案,一套体系,两端服务,让学术进步有方向,让产业选型有依据。
ET-Benchmark将前置服务于世界人形机器人运动会,通过基地构建标准化的“训练场”与“测评关”,为参赛者提供从研发、训练、测评、调优的全流程技术支撑,帮助参赛者在训练过程中更精准地提升短板弱项,推动技术和产品加速从实验室走向产业应用。
另一方面,赛后,ET-Benchmark将作为基地的“生态桥梁”,ET-Benchmark的测评数据将成为一份权威的“产品说明书”和“选型目录”,能够为更多的需求方快速筛选出能力达标、成熟度高的产品,实现从“赛场优胜”到“市场应用”的无缝衔接,真正形成“以赛促用”的产业闭环。
下一步,赛迪研究院将联合各方共建ET-Benchmark生态,将ET-Benchmark评价体系深度融入世界人形机器人运动会的场景赛题设计,打造引领全球的赛事标准体系,逐步形成行业共识,树立具身智能领域技术发展和产业落地的标杆。(记者 战钊)
