点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“AI+运维”打造光链路智能运维新攻略
首页> 科技频道> 人工智能 > 正文

“AI+运维”打造光链路智能运维新攻略

来源:光明网2025-11-26 13:43

  当下,AI正在焕醒全行业的创新视角,智算系统的连续、稳定运行至关重要。一份关于LLaMA 3的官方论文报告显示:万卡集群平均每3小时故障一次,其中10%的故障因网络引起,而由光模块/光纤引起故障的概率达到8%。但网络系统故障原因“盘根错节”,排障往往需要耗费数小时甚至数天,这导致AI时代下的网络运维工作更加复杂。

  如何让网络运维跟紧智能化演进步伐?如何对故障率较高的光模块/光纤状态进行监测和预警?如何端到端提升AI网络效率?

  智能运管平台ICE集成了元脉网络自研“光链路监测小模型”,该模型以完整的“本端光模块-光纤-对端光模块”监测链条为基础。并通过神经网络预测、削顶双高斯混合数学建模、时间序列分析等多种方式进行联合决策,实现对光纤/光模块部件的全局监控。打破被动防御的桎梏,是业界首个具备光链路主动守护能力的纯软件监测模型,无需其他硬件、测试仪器等设备的辅助,部署更容易、资源占用更少、响应速度更快。

  一是信息多维度采集,预测结论更精准。ICE通过收集光模块的收发光功率、电压、电流、温度、纠前BER(Raw Physical BER)、纠后误码数(Effective Physical Error)、高阶(13阶及以上)FEC Symbol Error等参数进行分析,提高预测结论的精准度,为智算系统的连续运行提供保障。

  二是独创轻量化算法模型,运维工作更稳妥。ICE内置80KB的自研轻量化“光链路监测小模型”,使运维工作不依赖外网环境,也可在不中断业务的前提下完成在线升级,摆脱外部模型资源牵制,节约算力成本,让AI网络运维工作“轻装上阵”。

  三是独立全景图界面,故障分析更立体。在界面展示设计上,ICE采用“全景图”的设计思路,可动态展示光模块的健康状态、故障位置、故障原因等信息,真正实现运维工作的全面可视。

  四是预警分级提示,障前干预更即时。ICE可提前对光模块异常原因进行分级,并在全景图中以不同等级的“告警标识”进行提示,方便用户依据优先级进行提前干预,提高运维效率,降低运维成本。帮助客户实现从“被动修”到“主动防”的转型,大幅提升智算系统的有效训练时间比(ETTR)。(记者 战钊)

[ 责编:田新宇 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 广西南宁:黄花风铃木盛放

  • 浙江桐庐:元宵民俗大踩街

独家策划

推荐阅读
国家统计局2月28日公布《2025年国民经济和社会发展统计公报》。
2026-02-28 17:21
人们常说“眼见为实”,但如果今天再问一个问题:照片还能算现实的记录吗?答案或许已经不像过去那么简单。
2026-02-28 10:27
国家能源局27日发布的数据显示,目前,全国已有84个绿电直连项目完成审批,新能源总装机规模3259万千瓦。
2026-02-28 10:25
“具身天工3.0”刚刚发布——首届机器人半马赛事冠军正在加紧训练,成绩有望大幅提升;朱雀三号重复使用火箭蓄势待发,计划二季度再次挑战回收复用;小米汽车超级工厂的生产线一片繁忙,累计交付量已突破60万辆……
2026-02-28 10:23
今年以来,水利部指导督促各地抢抓河湖枯水期、施工影响小的窗口期,不断推动国家水网联网、补网、强链。
2026-02-28 10:22
几十年来,关于月球早期磁场是强是弱,科学界一直争论不休。如今,英国牛津大学科学家通过分析阿波罗任务带回的样本,发现月球曾拥有极强磁场,强度甚至一度超过地球磁场。
2026-02-28 10:19
发现分数量子反常霍尔效应和里德堡莫尔激子态,解决超导量子计算难题,攻克国产无液氦稀释制冷机和极高场全超导磁体等关键实验技术……
2026-02-27 09:39
2026年伊始,从美国拉斯维加斯消费电子展(CES)到中国春晚,中国自主研发的人形机器人频频“破圈”,多家中国企业的产品和应用不仅在海外业界引发热议,更是在全球社交媒体平台和国际媒体不断“刷屏”。
2026-02-27 09:36
中国人的“果盘子”里,苹果占据着举足轻重的地位。产业端加速向“数管+机器换人”转型,直播带货、跨境电商等新业态的兴起,也让中国苹果加速走向全球。
2026-02-27 09:35
随着2022年北京冬奥会的成功举办和“带动三亿人参与冰雪运动”目标的实现,中国滑雪装备产业正迎来前所未有的发展机遇。从笨重单调到轻便智能,从依赖进口到本土品牌崛起,滑雪装备的变迁不仅折射出中国冰雪运动的普及,更勾勒出一个新兴消费市场的崛起轨迹。
2026-02-27 09:32
记者从西北大学获悉,该校生命科学学院灵长类行为与进化发育研究团队的研究,揭示了亚洲叶猴物种表型的演化之谜。
2026-02-27 09:30
中国科学院近代物理研究所核结构研究团队与合作者通过高精度实验,明确了一种钼同位素释放其储存能量的关键机制,在原子核能量可控释放研究领域取得重要进展。
2026-02-26 09:46
电感器如同现代电子设备的“心脏”,让电流有序流动、设备稳定工作。
2026-02-26 09:35
“AI保姆”“智能教育助手”等产品,正以前所未有的速度和深度涌入未成年人的世界。不少家长感叹,这位无所不能、无时不在的“数字家教”成了解放自己的好帮手。
2026-02-26 13:44
全球人工智能技术迭代创新按下“快进键”,与各行业各领域的融合应用持续拓展深化。
2026-02-26 13:44
AI操控的机器人虽难以完全替代实验科学家,但AI系统已开始接管人类的数据分析师、研究编码员等工作。
2026-02-26 10:04
截至2025年,我国发明专利申请量已连续多年位居全球第一,成为名副其实的专利大国。
2026-02-26 09:55
他们走过了一段从弱到强、从“备胎”到“主角”的孤勇之路,实现了国内超低温大型制冷机市场从被国外100%垄断到国产化替代的“跨越式发展”。
2026-02-26 09:49
人工智能技术及其应用的跨领域、跨层级、跨主体特征,决定了其安全治理天然具有高度复杂性和协同需求。最后,面对人工智能技术快速迭代、应用场景动态迁移、风险形态持续演化的鲜明特点,制度体系必须具备敏捷响应与动态调适的智慧与弹性。
2026-02-25 09:45
曾经只存在于科幻电影中的“太空采矿”,正逐渐从文艺作品中的构想走进现实。
2026-02-25 09:49
加载更多