点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

当前,AI大模型已深度融入各行各业,应用日益成熟,但在实际落地中仍会面临诸多现实瓶颈:数据过载、长上下文推理时显存占用激增、缓存无法高效共享导致内存利用率偏低等问题,制约了大模型的推理效率与规模化部署。
针对这些普遍存在的技术难题,中国工程院院士郑纬民团队立足真实场景、聚焦核心痛点,自主研发出全新系统Mooncake。该系统通过跨请求共享KV缓存、优化内存分页管理、减少显存碎片等创新设计,有效破解了大模型推理中显存资源紧张、多会话并发易触发内存溢出、推理效率与部署成本难以兼顾等行业痛点,显著提升了GPU显存利用率与系统吞吐量,为大模型规模化落地应用大幅降低成本。
在郑纬民看来,真正的科研智慧,从来不在纸上谈兵,而在直面问题,把实际遇到的问题变成值得深挖的课题,以实干破解困局,以创新服务产业。(记者 田新宇)
