点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:InfoQ发布2025推理模型评测报告
首页> 科技频道> 人工智能 > 正文

InfoQ发布2025推理模型评测报告

来源:光明网2025-05-30 11:06

  5月29日,极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示,文心X1 Turbo以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

  InfoQ研究中心指出,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。

  根据报告,文心X1 Turbo是本次评测中“单项冠军数量最多”的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心X1 Turbo以80.56%的得分位列第一,领先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心X1 Turbo以70.31%的得分位列第一,领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo紧跟其后,位居国内第一。

  报告认为,作为国产推理模型代表,文心X1 Turbo其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。

  随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。(战钊)

[ 责编:张佳兴 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 北京刑警举行“五四青年节辩论赛”

  • 2026年“中华美食荟”活动启动

独家策划

推荐阅读
2010年,舒易来获得赴美国哈佛大学麻省眼耳医院联合培养的机会,在该院陈正一教授课题组继续开展耳聋治疗研究。2014年,舒易来带着最前沿的基因编辑理念回到复旦大学附属眼耳鼻喉科医院,继续探索耳聋治疗的新方法。
2026-04-29 10:43
一张4厘米见方、6微米厚的薄膜贴附于大脑功能区表面的硬脑膜外,就能采集到大脑信号。“北脑一号”已在研究者发起的临床研究中完成7例患者植入手术,器械在人体内累计工作时长超4.5万小时,初步验证产品的安全有效性。
2026-04-29 10:38
生物医药基础科研水平大幅提升。据统计,2023年,中国学者在生物医药领域三家全球顶尖学术刊物《细胞》《自然》《科学》发表的文章数量,跃升至全球第二,仅次于美国。在评选出的“2024年医疗界十大临床突破”中,有四项来自中国。
2026-04-29 10:33
乘坐自动扶梯时,很多人有“左行右立”的习惯:右侧站立,左侧留给赶路行人。可如果“左行”撞到了“右立”,还造成了一定损失,要担责吗?近期,上海铁路运输法院审结了一起相关案件。
2026-04-29 10:27
4月27日,农业法修订草案提交十四届全国人大常委会第二十二次会议审议。为突出耕地等农业资源保护和农业绿色发展,草案将现行农业法第八章“农业资源与农业环境保护”分为“土地等农业资源保护”“农业绿色发展”两章。
2026-04-29 10:13
教育部今天(28日)发布《普通高等学校本科专业目录(2026年)》,共新增38种普通高校本科新专业。本次获批申办高校可纳入2026年高考招生。
2026-04-28 11:22
目前,本科专业目录共涵盖13个门类、92个专业类、883种专业。
2026-04-28 11:20
中国农业科学院作物科学研究所小麦基因资源发掘与利用创新团队近日成功克隆了调控小麦分枝与主茎之间角度的关键基因,并揭示了其平衡调控小麦“站姿”的分子机制。
2026-04-28 10:01
作为牵头用户,生态环境部已有8颗环境和大气系列卫星在轨运行,还可统筹调用140余颗民商卫星数据资源。
2026-04-28 10:00
西南大学徐洛浩、刘海平教授团队联合德国科学院院士阿克塞尔·迈尔开展攻关,成功破解相关科学难题。
2026-04-28 09:59
人工智能的崛起为人类社会开启了变革的新纪元,深刻重塑着我们生活与生产的各个方面。而作为文明传承与思维锻造的核心路径,阅读在这一浪潮中经历着前所未有的影响与重构。
2026-04-28 09:57
透视农业农村经济“开门红”,其背后是国家战略引领、政策有力支持和市场社会力量的协同发力。
2026-04-28 09:46
外商投资安全审查工作机制办公室(国家发展改革委)依法依规对外资收购Manus项目作出禁止投资决定,要求当事人撤销该收购交易。
2026-04-27 16:54
当前,具身智能产业站在商业落地的临界点,一场从“炫技”到“干活”的务实转向正在悄然发生。
2026-04-27 15:39
以往以机械素质、品牌底蕴为核心卖点的外资车企,纷纷将智能化作为参展的核心主线。
2026-04-27 14:48
这里是淳安国家储备林示范基地,587亩山林经过精心打造,早已不是传统意义上的林场。480多亩杉木林完成阔叶化改造,浙江楠、浙江樟等珍贵树种错落生长;430亩“有路、有房、有水、有轨、有网、有电、有眼”的“七有”林业标准地里,黄精、白芨、三叶青等中药材长势旺盛,菌菇悄悄破土;30多亩梅花观光园内,880株梅花迎春绽放,成为游客青睐的打卡地。
2026-04-27 13:53
近年来,科普视频越来越多地成为公众获取科技知识的重要渠道。
2026-04-27 13:35
中国科协在中国科学家博物馆举行“全民阅读活动周·科学家精神故事会”暨科学家精神主题丛书发布活动。
2026-04-27 12:53
今年4月25日是第四十个“全国儿童预防接种日”,主题是“预防接种,苗助健康,全民行动”。
2026-04-27 10:05
从古人立竿测影、夜观北斗辨识方向,到北斗卫星导航系统提供全天候、高精度的时空信息服务——科技发展沧海桑田,但人类对“我在哪里、我要去哪、如何到达”的追问从未停歇,其指向始终是更好地认识世界、利用资源、服务发展。
2026-04-27 10:03
加载更多