您的位置：首页 > > 教程攻略 > ai资讯 >AI时代Chiplet设计中不可或缺的可观测性层

AI时代Chiplet设计中不可或缺的可观测性层

来源:互联网 更新时间:2026-07-02 07:54

随着高性能系统越来越复杂，芯片内部的可观测性——说白了，就是能不能看清芯片内部到底发生了什么——已经成了一个绕不开的关键问题。《半导体工程》杂志专门组织了一场圆桌讨论，请来了Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys、Vinci等多家公司的技术专家，一起聊聊片上数据分析与系统韧性的那些事。以下是这次讨论的核心内容。

AI在可观测性数据中的应用现状

AI已经全面渗透到芯片设计流程中，从设计验证、规则检查到仿真加速，几乎无处不在。举个例子，在数据中心里，靠着多种监控器采集的海量数据，AI模型已经能精准预测硅片的失效时间，甚至能精确到某一天。

但在数据采集阶段，业界的态度相当谨慎——大家普遍倾向于保留传统方式，确保捕获过程是确定性的。毕竟，谁也不想关键时刻，智能监控器“自作主张”放弃抓取错误信息，那麻烦就大了。

到了分析阶段，AI的价值就完全释放出来了：高维遥测数据的异常检测、现场故障的聚类分析，还有从测试数据中揪出问题设备的早期细微规律，这些都是它的强项。

不过在执行阶段，目前还是基于规则的方式占主导。当然，AI辅助控制器正在逐步普及，但必须在明确的安全边界内运行，不能乱来。

与此同时，小型语言模型（TinyML）也在悄无声息地嵌入芯片内部，在极小的硬件面积上完成片上数据分析。不过，这方面的公开资料还很有限，很多细节还藏在幕后。

再往远看，智能体AI很有可能会接手数据中心基础设施的统一编排与管理。数据量在爆炸式增长，人工介入实时决策只会越来越不现实，自动化管理是唯一的选择。

Chiplet架构下的可观测性扩展挑战

当系统从单芯片走向多裸片和Chiplet架构时，可观测性面临的核心挑战就变成了：如何跨过裸片边界，依然能拿到对系统行为的整体、一致性视图。

扩展性最好的方案，是把可观测性与通信互联架构本身对齐，沿着数据实际传输的路径去观测。AI当然能帮上忙——从大规模系统级遥测数据里挖掘规律、指导优化——但它没法替代底层的架构设计。如果可见性不一致、没有跟互联架构对齐，AI再强也无从下手。

可编程性和软件可访问性同样至关重要。在靠近传感器的地方做数据处理和压缩，对于控制数据移动开销、实现系统规模扩展，是关键中的关键。

标准化也是热议的话题。超大规模数据中心运营商希望至少在遥测层面实现标准化，而随着多家供应商的多种IP方案被塞进同一个大型系统，统一的数据格式标准已经成了刚需。一致的遥测Schema与访问框架，不仅能帮集成商跨裸片、封装及互联域定位故障，还能有效保护敏感运营数据。

可观测性机制对系统性能的影响

设计得当的话，可观测性对系统性能的影响其实可以压到极低。业界公认的最佳实践包括：让观测路径跟主数据路径保持独立，用过滤机制限制采集范围，避免不必要的侵入式模式，以及在可观测性基础设施与功能运算之间做到彻底隔离。

监控机制通常采用分层设计：一个始终运行的低开销层，专门负责健康监控数据和聚合计数器；另一个丰富的调试追踪层，只在特定诊断场景下按需启用。

形式化验证在这里也能派上大用场——通过形式化证明，可以确认新增的可观测性逻辑不会破坏系统的关键属性（比如无死锁、安全性等），还能量化评估性能开销与可诊断性之间的权衡。

必须承认，监控基础设施确实会带来一定的额外开销。但它的价值往往远超成本。想想看，在超大规模数据中心里，训练集群一旦因为单个节点故障而中断，损失可能高达数千美元。而精准的遥测，恰恰能帮你避开这种灾难性故障。

可观测性的未来发展方向

与会专家总结了当前可观测性机制的主要局限，并指出了几个值得关注的方向：

属性感知遥测

：现在的监控器主要暴露温度、电压、计数器这类底层数据。未来的方向应该是直接从形式化属性出发推导监控指标，让遥测数据更有可操作性。

硅片遥测与形式化模型的双向联动

：把真实的流量规律、边界场景序列和观测到的故障模式反馈到形式化验证环境里，同时让形式化工具反过来揭示当前监控体系的盲区。这才是真正的良性循环。

无声数据损坏（SDC）检测

：这个问题已经躲不开了。必须从设计之初就把SDC早期症状检测纳入可观测性框架，不能等到出了问题再亡羊补牢。

封装级可见性

：在Chiplet生态里，有些组件单独看电气特性完全正常，但在互联层面可能出故障，根因很难定位——比如凸块或基板的问题。提升跨裸片、封装及互联域的故障隔离能力，是打通真正意义上开放Chiplet市场的关键所在。

安全与隐私保护

：监控数据——包括温度、电压乃至事务级数据——在汽车和数据中心等领域高度敏感。这需要建立跨厂商的一致性保护机制，谁也不能掉链子。

Q&A

Q1：为什么在Chiplet架构下，芯片可观测性变得更加复杂？

A：在Chiplet多裸片架构里，系统行为跨越多个裸片边界，传统的单芯片监控方式根本提供不了整体视图。各裸片可能来自不同供应商，遥测格式不统一，故障定位时很难判断问题到底出在裸片本身、封装基板还是互联层面。再加上数据量随系统规模指数级增长，人工分析已经彻底没戏了。所以，必须在架构层面设计与互联Fabric对齐的可观测性方案，并配上标准化的遥测Schema，才能实现跨裸片的一致性监控。

Q2：AI在芯片可观测性中能发挥哪些作用，目前有哪些局限？

A：AI现在主要用在遥测数据的分析阶段，比如异常检测、故障聚类、预测性维护（甚至能预测硅片失效日期），还有性能优化建议。但AI解决不了数据采集和基础设施标准化的问题——如果底层没有一致的、结构化的遥测数据，AI连可靠的输入都没有。此外，执行层面目前还是基于规则的方式占主导，AI辅助控制器虽然在逐步普及，但必须在明确的安全边界内运行。

Q3：开放Chiplet市场面临哪些主要障碍，可观测性如何帮助解决？

A：开放Chiplet市场的一个主要障碍，是多供应商环境下的故障责任归属问题——系统出问题时，各厂商往往很难明确判断故障根因到底在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化的遥测Schema和访问框架，能帮集成商更早隔离故障来源，减少相互推诿，从而降低系统集成风险，推动真正开放的Chiplet商业生态落地。