点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:InfoQ发布2025推理模型评测报告
首页> 科技频道> 人工智能 > 正文

InfoQ发布2025推理模型评测报告

来源:光明网2025-05-30 11:06

  5月29日,极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示,文心X1 Turbo以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

  InfoQ研究中心指出,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。

  根据报告,文心X1 Turbo是本次评测中“单项冠军数量最多”的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心X1 Turbo以80.56%的得分位列第一,领先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心X1 Turbo以70.31%的得分位列第一,领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo紧跟其后,位居国内第一。

  报告认为,作为国产推理模型代表,文心X1 Turbo其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。

  随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。(战钊)

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 在世界人工智能大会 感受科技之美

  • 引江济淮工程实现“双线引江”功能

独家策划

推荐阅读
上海开普勒机器人有限公司专注于将人形机器人应用于智能制造、仓储物流、智慧巡检等工业场景,以满足实际生产需求。展望未来,人形机器人将提高生产力,与人类高效合作,可能为许多行业带来革命性变革,创造新的价值定位和商业模式。
2025-07-28 09:28
智元机器人联合创始人、首席技术官彭志辉就带着机器人进行了一场别开生面的“人机对话”,展望了具身智能时代的人机关系。
2025-07-28 09:28
在产品研制阶段,科研人员重点针对能量高效汇聚—传输、月壤致密化输运等问题,开展了关键技术攻关。
2025-07-28 09:27
当日下午抵达位于青海省境内的长江源区通天河直门达河段,进行了多学科采样观测,这意味着2025年江源综合科考正式启动。
2025-07-28 09:25
英国《自然》周刊网站指出,招募研究人员和高技能人才是中国推动经济社会发展和实现科技自立自强的核心。经济合作与发展组织3月发布的报告显示,2023年中国研发投入已超过7800亿美元,达到美国96%的水平,10年前这一比例为72%。
2025-07-28 09:24
艾玛口中的“邦邦车”,是一台由中国企业邦邦机器人独立生产研发的智能辅助出行机器人。爬坡、颠簸路况行进、刹车制动……走进位于江苏省常州市天宁区的邦邦机器人研发中心,不少新产品正在进行多环节测试。
2025-07-28 09:24
盛夏时节,数千名科技精英正在浙江湖州西塞科学谷潜心攻关。作为湖州“五谷丰登”计划的首个“创谷”项目,西塞科学谷开园3年来累计引进省内外科技团队近40个、汇聚科技人才2600余名,成功入选全国首批“科创中国”创新基地。
2025-07-25 10:05
一台银灰色人形机器人在汽车生产车间内沉稳行进。2024年,深圳机器人产业集群企业数量达74032家,机器人上市企业34家、独角兽企业9家。
2025-07-25 10:05
24日中午12时许,“新舟”60民用搜救机顺利起飞,经过1小时20分飞行并完成预定验证科目后,平稳降落在西安阎良机场,顺利完成首次飞行。
2025-07-25 10:01
2016年4月,习近平总书记在安徽调研时强调:“当今世界科技革命和产业变革方兴未艾,我们要增强使命感,把创新作为最大政策,奋起直追,迎头赶上。”
2025-07-25 02:55
在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的驱动下,人工智能正在对经济社会发展、国家治理等产生重大而深远的影响。
2025-07-25 02:55
近日,中国科学院南京地质古生物研究所科研人员对约4.36亿年前的志留纪早期腕足动物化石居群展开深入研究,首次揭示了这些远古海洋底栖生物如何利用刚毛来维持彼此间的“社交距离”
2025-07-24 03:15
在广袤的田野上,每一抔泥土都隐藏着一个微观的奇妙世界——数量庞大、种类繁多的微生物。
2025-07-24 03:15
雄伟的跨海大桥、海中的钻井平台……人类的脚步正延伸向深海。
2025-07-24 03:15
“孙女给我请了一个24小时‘家庭药师’,就在我的手机里。边聊天,边指导我用药,省心安心、方便管用!”视频中的高奶奶高兴地说。
2025-07-24 03:15
“中试”即中间试验,是科研成果从实验室跨越至生产线的关键桥梁。中试成功与否,对科技成果的转化和产业化具有重要意义。
2025-07-24 03:15
8月1日—8月30日,为市民带来国防科普与沉浸式军事体验的盛宴。
2025-07-23 15:19
如果未来20年我们能造出通用量子计算机,它将提供一种革命性的计算能力。
2025-07-23 09:20
在广州,年过八旬的老太太小心地穿上助行外骨骼机器人,在设备辅助下轻松登上楼梯。曾经科幻电影中的场景,正发生在我们今天的生活中。
2025-07-23 02:40
“智能电网可接纳高比例新能源”“地下空间深度开发与空中慢交通系统立体分流”“太空超大型设备实现在轨制造”“生态标签农产品比例提至40%以上”“脑机接口技术为脑功能损伤患者的康复带来福音”……
2025-07-23 02:40
加载更多