您的位置：首页 > > 教程攻略 > ai资讯 >第一季度AI基础设施（AI Infra）解决方案报告

第一季度AI基础设施（AI Infra）解决方案报告

来源:互联网 更新时间:2026-06-01 17:28

AI基础设施选型指南：从工作负载到供应商全景解析

工作负载的多样性和成本优化，才是真正值得琢磨的事儿。AI其实已经悄悄来了——如果你的企业还没准备好给它配上专用的计算、存储和网络，那真不建议草率“上车”。这就引出了一个关键概念：AI基础设施。它要解决的，正是AI的三大核心工作负载：

数据准备、模型训练与模型推理

。

无论是要训练定制模型来建立竞争优势，还是直接调用开源的生成式AI模型，企业的技术决策者都得在AI基础设施上精打细算。这远不只是“上云还是部署本地”的二元选择——关键在于，如何把AI基础设施的投资，和企业整体的基础设施战略缝合在一起，从而优化成本，平衡多方需求。

那么，基于当前的市场趋势，寻求AI基础设施的企业应该重点考察哪些提供商？先来看几个核心判断标准。

最大化核心AI工作负载性能

前面提到的三大核心工作负载——数据准备、训练和推理——每个对吞吐量、延迟、容错性和成本的要求都大相径庭。更棘手的是，即便在同一类工作负载内部，差异也很明显。比如，预测性AI的数据准备，主要关注结构化数据的查询、访问和转换；而生成式AI面对的，则是海量非结构化数据。深度学习，尤其是计算机视觉或大语言模型，离不开GPU（或专门设计的AI芯片）；但预测模型可能完全不需要GPU。好消息是，这次评估中的AI基础设施解决方案，基本都能覆盖这些场景；但企业很可能需要根据不同阶段的需求，引入多家供应商来打配合。比如，数据管理和训练可能放在本地，而推理交给超大规模云服务商，反过来也行。因此，提前梳理并预测好当前和未来的AI工作负载，是每个技术负责人的必修课。

提供管理层以优化成本和管理复杂性

AI基础设施通常都配有一套管理软件，帮助运维人员监控系统、控制访问、分配资源，还能根据需求自动调配或释放基础设施资源，最终目的就是降本增效。要注意的是，这类管理软件和AI/ML平台不是一回事儿——后者主要帮AI团队构建应用，而非管理底层基础设施。部分供应商会同时提供这两者，这就带来了功能重叠和深度集成的优势。作为买家，需要搞清楚供应商提供的AI基础设施管理层，和公司现有的管理工具、政策以及ITOps流程能否无缝衔接。如果你已经选定某家供应商作为整个基础设施的标准化合作伙伴，那么选择它的AI基础设施，管理层面的吸引力自然会更大。

与企业对AI的战略承诺相契合

每家供应商都有自己最擅长的领域。大型AI模型动辄数十亿参数，看起来很吸引人，但你的企业可能根本不需要去训练这么庞大的模型。更常见的做法，是从云服务调用现成的大模型，或者从HuggingFace等平台下载后部署到自己的基础设施上。同时，还得考虑是否有关键用例需要在边缘端进行AI处理——如果供应商只支持云端，那就没法用。如果你的公司是做生物化学研究的，你可能需要一个能和HPC环境深度集成、甚至本身作为其一部分的AI基础设施，来支撑大规模模拟。技术领导者得从全局出发，根据企业的整体AI战略来拍板决策。对有些公司来说，这意味着要同时和多家AI基础设施供应商打交道。

Source: Mike Gualtieri, Sudha Maheshwari, Sarah Morana, Jen Bart; The Forrester Wa ve: AI Infrastructure Solutions, Q1 2024; March 17, 2024

领导者（Leaders）

谷歌

谷歌为AI工作负载提供了近乎一站式的解决方案。AI一直是谷歌众多消费者和商业服务（比如搜索和广告）的核心驱动力。说它在AI领域领先一步，恐怕都低估了它的地位。能在谷歌这种量级的规模上高效运行AI操作，全球没几家能做到。它把这方面的深厚经验导入谷歌云AI，实力自然非同一般。加上对其它业务长期且持续的AI投入，谷歌对企业AI的未来趋势有着非常独到的洞察。它的蓝图和创新举措，都在致力于让谷歌级别的AI能力惠及所有客户——无论是初创公司还是跨国巨头，同时通过易用的工具把复杂操作变得简单。

在本次评估中，谷歌在所有维度上都表现突出，评分最高。唯一需要注意的一点是：客户目前无法在本地部署谷歌的AI基础设施。那些聚焦互联网业务的客户，特别欣赏谷歌强大的弹性伸缩能力，能轻松应对峰值负载并有效控制成本。参考客户对与Vertex AI平台的紧密集成赞不绝口，他们借此能用自定义模型和LLM构建高效的AI方案。因此，谷歌非常适合现有的谷歌云客户，对于那些希望把谷歌云作为战略公共云的既有或新客户，也是全面支持的选择。

微软

微软简化了在云规模下使用超级计算机级AI基础设施的流程。它直接提供了多种规格的GPU优化虚拟机供客户选用。Azure AI组合还包含了一系列面向AI的服务，比如Azure OpenAI Service和Azure AI Studio，帮助客户基于微软的AI基础设施构建自定义应用。微软的战略很清晰：把AI融入每个应用、每个业务流程和每个员工的工作。为了实现这个目标，它一边整合自己的业务和生产力应用，一边提升Azure AI基础设施对开发者的吸引力。对OpenAI的那笔130亿美元的投资，就是这一战略最有力的证明。微软的创新和发展蓝图，正通过将AI嵌入公司所有的业务应用、开发工具和云服务中一步步变成现实。

微软在架构、生态系统、数据准备、模型训练、推理和开发工具方面都表现出色。想进一步提升竞争力，它可以考虑增加专门针对AI的基础设施管理工具，并在Azure Arc上扩展对本地AI工作负载的部署支持。参考客户非常认可微软通过合作伙伴关系提供的数据准备、应用开发、认知服务和OpenAI等预训练模型。因此，微软的AI基础设施特别适合那些已经标准化使用Microsoft Azure，并且需要云规模AI基础设施的客户。

NVIDIA

NVIDIA在全球AI基础设施领域占据了绝对领先地位。可以说，没有它的GPU，现代AI的发展可能完全是另一番景象。除了向这次评估中的大多数其他供应商提供GPU，NVIDIA还通过DGX平台直接向客户提供AI基础设施，支持在云上（DGX Cloud）或本地运行工作负载。相比其他AI芯片厂商，NVIDIA在创新、蓝图和愿景上都更清晰明确，使其保持了极快的发展势头。它直接面向客户的AI基础设施，并非要和众多合作伙伴激烈竞争，而更像是一个先进系统的标杆。

NVIDIA在系统架构、合作伙伴生态系统、配置选项、模型训练和系统管理方面优势显著。在训练方面一如既往地出色，并且在推理上的进步也很快。公司依赖云服务商等合作伙伴来支持可扩展的数据准备工作负载。随着DGX Cloud的推出，客户在部署上有了更大灵活性，能更好地满足实验性或突发性工作负载的需求。参考客户对NVIDIA设计的系统赞赏有加，这些系统既可在本地部署，也可在云端使用。因此，对于那些希望拥有先进本地模型训练系统的客户来说，NVIDIA无疑是一个极具吸引力的选择。

AWS

AWS是一个一站式的AI平台，提供了极其多样化的选择。它拥有非常广泛的AI基础设施组合。AWS的核心思路，就是给客户提供海量选择——从预配置的实例，到在Amazon SageMaker背后抽象出来的训练服务，不一而足，能满足各种AI工作负载的需求。亚马逊的AI基础设施组合，覆盖了基于NVIDIA GPU的高性能计算实例，也包括基于Intel Gaudi芯片的实例。此外，它还推出了基于自家芯片的方案：专门用于推理的AWS Inferentia和用于训练的AWS Trainium。其他配套服务包括AWS Neuron SDK，方便客户利用定制芯片；AWS Elastic Inference，用来优化成本与性能；以及AWS IoT Greengrass，用于边缘端推理。

AWS在解决方案生态系统、数据准备服务、推理和AI开发工具上表现出色。它可以通过增强本地和边缘端的AI工作负载能力，来进一步巩固现有产品地位。客户非常认可AWS在从小规模实验到大规模生产部署的全链路中，都能提供可扩展的AI基础设施。他们对SageMaker的集成工具也同样喜爱。AWS的AI基础设施，特别适合那些训练数据就存储在AWS上，并且依赖其它AWS服务来支撑AI用例的客户。不过，AWS并未参与完整的Forrester Wa ve评估流程。

戴尔

戴尔为各类用户提供了AI架构，但还有进一步发展的空间，比如增加更多的开发工具。运行日益多样化的AI工作负载可能会变得复杂。戴尔想通过发布详尽的参考架构来简化这件事，以适应各种AI工作负载场景。它提供了丰富的选项，包括旗舰级的PowerEdge服务器，以及PowerFlex和PowerScale等众多存储方案。戴尔的愿景，是成为企业本地部署或合作部署下最快、最集成的解决方案提供者。它还可以通过增加更多AI专项工具，来完善自己的发展规划和创新战略。

戴尔在架构（尤其是参考架构）、配置和模型训练方面具备优势。它可以通过设计专门针对AI的基础设施管理工具，并与AI开发工具提供商建立更紧密的合作关系来改进。戴尔在某些AI工作负载组件上已经具备云能力，但在完全托管的AI基础设施方案上还需要加强。参考客户高度认可戴尔在快速设计能与现有IT基础设施集成的定制AI基础设施方面的卓越服务。所以，戴尔特别适合那些希望在本地或合作部署AI基础设施，并且希望与戴尔建立长期伙伴关系、随着业务增长平滑升级基础设施的企业。

强劲表现者（Strong Performers）

HPE

HPE在支持从边缘到云的AI方面表现卓越，但在信息传递上还需要更清晰。HPE提供了从边缘设备到超级计算机的丰富硬件配置，足以支撑各种AI工作负载。客户可以利用HPE GreenLake，把所有工作都以私有云的形式运行。HPE的策略很明确：为本地部署或私有云部署提供完备的AI基础设施。此外，它还配备了专为AI工作负载设计的资源管理软件。虽然HPE的AI基础设施吸引了很多复杂的AI研究人员，但它需要把信息传递的范围扩大到越来越多的企业AI开发者。为此，HPE需要通过针对AI的特殊优化来完善发展规划，不能只是简单地迭代下一代GPU。

HPE在配置、数据准备、管理软件以及部署地点（云和本地）上都优势显著。它可以通过扩展解决方案生态系统并进一步优化模型训练来持续提升竞争力。HPE的客户非常欣赏它从边缘到云的广泛部署选项，以及AI基础设施与其他HPE基础设施的无缝集成。因此，HPE非常适合那些希望在自有数据中心和云中同时运行AI工作负载的客户。不过，HPE并未参与完整的Forrester Wa ve评估流程。

IBM

IBM为关键任务工作负载量身打造了AI基础设施。这套基础设施融合了IBM存储、IBM云、IBM Power和IBM Z的强大功能。IBM的愿景就是成为云和本地关键任务工作负载领域值得信赖的AI基础设施提供商。为此，它提供了本地、云和混合云的多种方案。IBM Z主机继续处理着全球最核心、延迟最低的交易，因此对于依赖这些数据和低延迟推理的AI应用客户来说，IBM自然是首选。不过，IBM的云业务正面临着来自谷歌、微软和AWS三大主流公共云的激烈竞争。为了和它们抗衡，IBM需要改进发展规划，更好地整合客户在其生态系统中无缝购买和使用AI基础设施的体验。

IBM在解决方案生态系统、配置、数据准备、部署地点（云和本地）以及AI开发工具方面都优势显著。它可以通过增加更多的训练工作负载优化和统一管理工具来进一步提升竞争力。参考客户对可以在本地或云端自由选择的灵活性非常欣赏，也对能利用他们在IBM存储和IBM Z上的现有投资感到满意。因此，IBM的AI基础设施特别适合现有的IBM客户，无论是在本地还是云端部署。

竞争者（Contenders）

阿里云

阿里云提供了云规模的AI基础设施，但还需要进一步拓展市场。作为总部位于中国的公共云巨头，阿里云提供与其他全球云服务商相媲美的完整云服务。它的AI基础设施涵盖广泛的GPU实例。此外，它还提供了开发工具，旨在简化运行AI工作负载的复杂性。阿里云的策略是提供可扩展、成本效益高且易于使用的AI基础设施。为了吸引全球更多地区的企业，它必须在亚太地区以外进一步拓展市场。如果能更多借鉴超大规模云服务商的经验，阿里云的愿景、创新和路线图会更加完善。

阿里云在数据准备、管理工具、开发工具、容错性和效率方面优势显著。为了进一步优化，它可以加大对模型训练和推理的投入，并扩展解决方案生态系统。阿里巴巴的参考客户对其能扩展AI基础设施以处理大规模工作负载的能力表示赞赏，并称赞它提供了广泛的AI应用部署服务。因此，阿里云非常适合现有的阿里巴巴客户，以及需要在中国运行规模化云端AI工作负载的新客户。

联想

联想提供的AI基础设施覆盖了从便携设备（摩托罗拉）、笔记本电脑（ThinkPad）到服务器（ThinkSystem）、边缘计算（ThinkEdge）和超级计算机，但仍有扩展AI专用工具的空间。它旨在提供从移动设备推理到应对最严苛AI研究的超级计算机所需的所有配置，但还缺一个明确的“为什么选择联想”的理由。为了增强创新，联想可以考虑与提供和其AI基础设施集成的AI/ML平台供应商建立合作关系。

联想在解决方案生态系统和配置选项上表现出色，同时在模型训练、数据、推理、容错性和效率方面也有不错表现。为了进一步提升竞争力，它可以提供专用的AI管理工具，并优化AI工作负载。参考客户对联想在本地和大规模运行AI工作负载的能力表示赞赏。因此，联想非常适合希望在移动设备、本地、边缘计算或私有云中运行AI工作负载的客户。

甲骨文

甲骨文提供了具有成本效益的AI基础设施，但仍需加强工具支持。凭借成熟的公共云、广泛的AI服务配套和高性能硬件，甲骨文已经成为备受青睐的云端AI基础设施提供商。此外，由于其庞大的企业应用业务，很多企业已在甲骨文云中积累了海量训练数据。甲骨文的策略是成为主要云服务提供商的经济实惠的替代选择。为了优化策略，它应该大幅扩展其AI基础设施愿景——不能只提供原始的GPU实例，还要向企业阐明为什么应该和甲骨文云建立长期战略关系。同时，通过增强AI专用开发工具来改进路线图。

甲骨文在数据准备方面表现突出，在模型训练、推理、容错性和效率方面也有不俗表现。为了进一步提升服务，它可以继续优化AI工作负载。参考客户认为，与其他云服务商相比，甲骨文提供了极具竞争力的AI基础设施选择。因此，甲骨文非常适合那些需要在云中获取成本效益高的AI计算能力，或者数据已经存储在甲骨文云中的客户。

挑战者（Challengers）

Cerebras Systems

Cerebras Systems致力于革新AI计算，但尚未完全实现其愿景。这家成立于2015年的硅谷初创公司，专注于从头设计专为AI工作负载打造的半导体。它的关键创新在于一种名为“晶片级引擎”的技术，据称是世界上最大的芯片——尺寸和一个披萨差不多。设计这么大一块芯片，核心理念是减少互联带来的延迟和其他优化开销。该公司利用这款芯片构建了CS-2系统，可在本地、云端或通过定制配置（包括超级计算机集群）提供服务。目前，它的客户主要是科学和生命科学领域有大量AI工作负载的机构。Cerebras的策略是为模型训练提供最优的性价比。因为主要聚焦于训练，它的未来发展依赖于和伙伴共同处理数据准备和推理工作负载。

在训练工作负载、工作负载效率以及部署位置（本地和云端）上，Cerebras优势显著。为了进一步完善，它可以扩展支持的训练工作负载类型，并加强构建更强大的解决方案生态系统，从而在各个方面与本次评估中的其他供应商更接近。参考客户对Cerebras的训练性能非常认可。因此，Cerebras非常适合那些注重其支持的模型训练性能，并且已经拥有稳定的数据准备和推理方案的客户。

Graphcore

Graphcore专注于设计用于AI的芯片，但尚未真正取代GPU的地位。这家总部位于英国的初创公司成立于2016年，致力于为AI工作负载打造半导体。它将这些芯片命名为智能处理单元（IPU）。其最新芯片Bow IPU采用了晶片叠层技术，在特定用例下可提供高达350 teraflops的AI计算能力。Graphcore提供本地系统的Bow PODs和Bow IPU处理器，并与部分云服务商合作提供云端IPU。它的策略是通过创新AI芯片设计实现卓越性能，但还需要扩展愿景、创新和未来发展规划，才能和行业巨头竞争。考虑到AI基础设施需求的迅猛增长，Graphcore可以通过建立合作伙伴关系或加大销售和营销投入来加速市场推广。

在模型训练、推理、开发工具、效率以及部署位置（本地和云端）上，Graphcore的表现与本次评估中的其他供应商相当。为了进一步提升竞争力，它可以开发更先进的管理工具和容错能力，并通过扩大解决方案合作伙伴生态系统来弥补短板。参考客户对Graphcore提供的性价比很满意。因此，Graphcore非常适合那些希望尝试新型AI芯片设计，以求获得更高性价比的客户。