热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >AI时代Chiplet设计中不可或缺的可观测性层

AI时代Chiplet设计中不可或缺的可观测性层

来源:互联网 更新时间:2026-07-02 07:54

随着高性能系统越来越复杂,芯片内部的可观测性——说白了,就是能不能看清芯片内部到底发生了什么——已经成了一个绕不开的关键问题。《半导体工程》杂志专门组织了一场圆桌讨论,请来了Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys、Vinci等多家公司的技术专家,一起聊聊片上数据分析与系统韧性的那些事。以下是这次讨论的核心内容。

AI在可观测性数据中的应用现状

AI已经全面渗透到芯片设计流程中,从设计验证、规则检查到仿真加速,几乎无处不在。举个例子,在数据中心里,靠着多种监控器采集的海量数据,AI模型已经能精准预测硅片的失效时间,甚至能精确到某一天。

但在数据采集阶段,业界的态度相当谨慎——大家普遍倾向于保留传统方式,确保捕获过程是确定性的。毕竟,谁也不想关键时刻,智能监控器“自作主张”放弃抓取错误信息,那麻烦就大了。

到了分析阶段,AI的价值就完全释放出来了:高维遥测数据的异常检测、现场故障的聚类分析,还有从测试数据中揪出问题设备的早期细微规律,这些都是它的强项。

不过在执行阶段,目前还是基于规则的方式占主导。当然,AI辅助控制器正在逐步普及,但必须在明确的安全边界内运行,不能乱来。

与此同时,小型语言模型(TinyML)也在悄无声息地嵌入芯片内部,在极小的硬件面积上完成片上数据分析。不过,这方面的公开资料还很有限,很多细节还藏在幕后。

再往远看,智能体AI很有可能会接手数据中心基础设施的统一编排与管理。数据量在爆炸式增长,人工介入实时决策只会越来越不现实,自动化管理是唯一的选择。

Chiplet架构下的可观测性扩展挑战

当系统从单芯片走向多裸片和Chiplet架构时,可观测性面临的核心挑战就变成了:如何跨过裸片边界,依然能拿到对系统行为的整体、一致性视图。

扩展性最好的方案,是把可观测性与通信互联架构本身对齐,沿着数据实际传输的路径去观测。AI当然能帮上忙——从大规模系统级遥测数据里挖掘规律、指导优化——但它没法替代底层的架构设计。如果可见性不一致、没有跟互联架构对齐,AI再强也无从下手。

可编程性和软件可访问性同样至关重要。在靠近传感器的地方做数据处理和压缩,对于控制数据移动开销、实现系统规模扩展,是关键中的关键。

标准化也是热议的话题。超大规模数据中心运营商希望至少在遥测层面实现标准化,而随着多家供应商的多种IP方案被塞进同一个大型系统,统一的数据格式标准已经成了刚需。一致的遥测Schema与访问框架,不仅能帮集成商跨裸片、封装及互联域定位故障,还能有效保护敏感运营数据。

可观测性机制对系统性能的影响

设计得当的话,可观测性对系统性能的影响其实可以压到极低。业界公认的最佳实践包括:让观测路径跟主数据路径保持独立,用过滤机制限制采集范围,避免不必要的侵入式模式,以及在可观测性基础设施与功能运算之间做到彻底隔离。

监控机制通常采用分层设计:一个始终运行的低开销层,专门负责健康监控数据和聚合计数器;另一个丰富的调试追踪层,只在特定诊断场景下按需启用。

形式化验证在这里也能派上大用场——通过形式化证明,可以确认新增的可观测性逻辑不会破坏系统的关键属性(比如无死锁、安全性等),还能量化评估性能开销与可诊断性之间的权衡。

必须承认,监控基础设施确实会带来一定的额外开销。但它的价值往往远超成本。想想看,在超大规模数据中心里,训练集群一旦因为单个节点故障而中断,损失可能高达数千美元。而精准的遥测,恰恰能帮你避开这种灾难性故障。

可观测性的未来发展方向

与会专家总结了当前可观测性机制的主要局限,并指出了几个值得关注的方向:

属性感知遥测

:现在的监控器主要暴露温度、电压、计数器这类底层数据。未来的方向应该是直接从形式化属性出发推导监控指标,让遥测数据更有可操作性。

硅片遥测与形式化模型的双向联动

:把真实的流量规律、边界场景序列和观测到的故障模式反馈到形式化验证环境里,同时让形式化工具反过来揭示当前监控体系的盲区。这才是真正的良性循环。

无声数据损坏(SDC)检测

:这个问题已经躲不开了。必须从设计之初就把SDC早期症状检测纳入可观测性框架,不能等到出了问题再亡羊补牢。

封装级可见性

:在Chiplet生态里,有些组件单独看电气特性完全正常,但在互联层面可能出故障,根因很难定位——比如凸块或基板的问题。提升跨裸片、封装及互联域的故障隔离能力,是打通真正意义上开放Chiplet市场的关键所在。

安全与隐私保护

:监控数据——包括温度、电压乃至事务级数据——在汽车和数据中心等领域高度敏感。这需要建立跨厂商的一致性保护机制,谁也不能掉链子。

Q&A

Q1:为什么在Chiplet架构下,芯片可观测性变得更加复杂?

A:在Chiplet多裸片架构里,系统行为跨越多个裸片边界,传统的单芯片监控方式根本提供不了整体视图。各裸片可能来自不同供应商,遥测格式不统一,故障定位时很难判断问题到底出在裸片本身、封装基板还是互联层面。再加上数据量随系统规模指数级增长,人工分析已经彻底没戏了。所以,必须在架构层面设计与互联Fabric对齐的可观测性方案,并配上标准化的遥测Schema,才能实现跨裸片的一致性监控。

Q2:AI在芯片可观测性中能发挥哪些作用,目前有哪些局限?

A:AI现在主要用在遥测数据的分析阶段,比如异常检测、故障聚类、预测性维护(甚至能预测硅片失效日期),还有性能优化建议。但AI解决不了数据采集和基础设施标准化的问题——如果底层没有一致的、结构化的遥测数据,AI连可靠的输入都没有。此外,执行层面目前还是基于规则的方式占主导,AI辅助控制器虽然在逐步普及,但必须在明确的安全边界内运行。

Q3:开放Chiplet市场面临哪些主要障碍,可观测性如何帮助解决?

A:开放Chiplet市场的一个主要障碍,是多供应商环境下的故障责任归属问题——系统出问题时,各厂商往往很难明确判断故障根因到底在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化的遥测Schema和访问框架,能帮集成商更早隔离故障来源,减少相互推诿,从而降低系统集成风险,推动真正开放的Chiplet商业生态落地。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc