您的位置：首页 > > 教程攻略 > ai资讯 >Google I/O全盘点：两大新模型上线，音频眼镜登台，Gemini接管一切

Google I/O全盘点：两大新模型上线，音频眼镜登台，Gemini接管一切

来源:互联网 更新时间:2026-06-02 20:06

北京时间2026年5月20日凌晨，备受瞩目的Google I/O开发者大会终于拉开帷幕。与往年不同，由于Android 17的主要新功能已通过The Android Show提前发布，AI毫无悬念地成为了本届大会的绝对主角。

但谷歌的AI叙事，从来不只是关于模型本身。手握Gemini、YouTube、搜索引擎和Android等多个生态入口，谷歌此次的核心议题显而易见：

如何让AI深度融入并赋能其庞大的产品矩阵，从而构建一个更智能、更无缝的数字体验。

Gemini Omni与Gemini 3.5：迈向全能的模型进化

模型层面，谷歌正式推出了号称迄今最全能的Gemini Omni。它的核心能力可以用一句话概括：

能够处理任何形式的输入，并生成任何形式的输出。

更重要的是，用户可以在生成过程中通过对话，实时地对内容进行修改。

图片来源：Google

以生成音乐短视频（MV）为例，用户只需提供音乐、视频片段、图片素材以及简单的画面描述，Gemini Omni就能直接合成一段完整的短片。大会现场演示了一个更为震撼的场景：在一张白纸上手绘一个圆圈，辅以文字指令，模型便能生成一个包含该圆圈元素的复杂特效视频。如果对其中某个元素不满意，

只需一句像“把玻璃建筑换成肥皂泡”这样的指令，就能精准替换，

而新生成的肥皂泡甚至拥有逼真的物理碰撞效果。

图片来源：Google

用谷歌自己的比喻来说，

Gemini Omni堪称“视频领域的Nano Banana”。

据悉，Gemini Omni Flash模型将即刻在Gemini App、Google Flow和YouTube Shorts等平台上线，相应的API则会稍后开放。

图片来源：Google

除了这位“全能选手”，Gemini家族也迎来了版本更新——

Gemini 3.5 Flash。

相比前代Gemini 3.1 Pro，新版本在编程、现实环境智能体任务执行以及大规模工具调用等测试中均表现出显著提升。当然，有轻量级的Flash，就必然有更强大的Pro版本。谷歌在会上预告，

Gemini 3.5 Pro将于下个月正式亮相。

总而言之，在模型能力上，谷歌此番可谓将“多、快、好、省”四个字展现得淋漓尽致。

Google Antigra vity与Gemini Spark：更智能、更强大的数字助手

底层模型能力突飞猛进，基于其上构建的AI智能体（Agent）自然也水涨船高。

图片来源：Google

在开发者侧，谷歌的AI开发环境Antigra vity现已集成Gemini 3.5 Flash。一个令人印象深刻的案例是，

借助新模型，Antigra vity仅用12小时就构建了一个操作系统内核，而整个过程的AI API成本还不到一千美元。

图片来源：Google

谷歌甚至利用这套工具重构了搜索的交互界面，提出了

“生成式UI”的新概念。

以往，即便在搜索中启用AI功能，其结果也大多以对话文本框的形式呈现。这对于简单问答足够，但面对“陀飞轮是如何工作的？”这类需要直观演示的复杂问题时，文本的局限性就暴露无遗。

图片来源：Google

为此，谷歌基于Antigra vity的编程能力，打造了一个

能够自适应问题、自动生成交互界面的AI搜索。

简单来说，当遇到复杂查询时，系统会通过“Vibe Coding”即时生成一个可交互的前端网页，让用户通过点击、拖拽等方式直接获得答案。

图片来源：Google

这项功能预计在今年夏季向用户开放，并且作为谷歌搜索的更新，无需订阅Gemini即可使用。同时，Gemini App本身的界面也获得了更新，与Android的新视觉设计更加统一。

得益于Gemini 3.5 Flash的多模态能力，谷歌搜索的预测和输入方式也得到扩展。现在，

用户不仅可以输入文字和图片，还能直接上传视频或文档进行搜索；

而传统的搜索推荐排序，也

升级为基于Gemini 3.5 Flash的AI智能补全。

图片来源：Google

除了前台的交互革新，搜索智能体的“后台能力”也被大幅强化。

全新的搜索Agent可以全天候运行，持续监控用户指定的信息。

例如，用户可以命令它紧盯OpenAI、Anthropic等竞争对手的动态，一旦有重大新闻，便立即通过邮件等方式推送提醒。

说到智能体，谷歌此次还发布了面向个人用户的全新Agent——Gemini Spark。与其他AI助手类似，它能7×24小时接管手机和浏览器。但不同之处在于，

Gemini Spark运行在一个专门的虚拟化环境中，

安全性更高。

图片来源：Google

毫无疑问，Gemini Spark同样由Gemini 3.5 Flash和Antigra vity驱动，支持语音与后台响应。在生态联动上，它不仅能与Google Docs、Calendar、Gmail等自家服务无缝协作，

还能通过MCP协议与外部应用程序互联，实现更广泛的任务自动化。

谷歌未明确公布Gemini Spark的详细适配计划，预计其将通过Gemini App（iOS）和谷歌搜索组件（Android）的形式登陆移动设备。

图片来源：Google

当AI智能体（无论前后台）运行时，

Android系统新增的“Halo”功能会在屏幕左上角常驻一个状态标记，

方便用户随时查看或跳转，其设计逻辑类似于当前的摄像头或麦克风使用提示。这看似微小的改动，实则暗示了智能体地位的根本性提升：

它已不再是普通的应用功能，而是与摄像头、麦克风同等重要的手机核心组件。

图片来源：Google

在电脑端，Gemini Spark将于今年夏季登陆Chrome浏览器。需要注意的是，

Gemini Spark是一项全订阅功能，下周将率先向Google AI Ultra订阅用户开放。

值得一提的是，为了区隔企业用户和高用量个人用户，谷歌在原有的AI Pro（20美元/月）和AI Ultra（250美元/月，限时优惠至200美元/月）之间，新增了一个“青春版”AI Ultra等级，定价为100美元/月。

图片来源：Google

这一定价策略的变化透露出一个明确信号：

即便是谷歌这样的巨头，也难以长期承受全面AI化带来的巨额算力成本。

AI的尽头是算力，算力的尽头是硬件，而硬件的尽头，终究是资金。在AI时代，互联网公司依靠硬件销售或基础服务订阅来覆盖AI成本的传统模式正面临挑战。

甚至可以预见，随着AI Agent能力不断扩展，

为高级AI服务付费，很可能像如今的手机套餐一样，成为一项普遍的“刚性消费”。

音频眼镜亮相，Gemini生态闭环加速形成

去年，谷歌展示了具备显示功能的AI眼镜原型。今年，其“音频版”智能眼镜也首次登台。需要明确的是，

这款Gemini眼镜并非单纯的耳机替代品，而是配备了摄像头、具备AI视觉与多模态输入能力的智能音频设备。

由于产品要等到今年秋季才发布（很可能为了适配高通骁龙峰会的新芯片），谷歌并未透露重量、传感器型号、续航等具体参数，仅展示了外观设计和核心功能。

图片来源：Google

设计上，谷歌宣布将与三星及Gentle Monster、Warby Parker等知名眼镜品牌合作。功能方面，它与现有的一些AR眼镜类似，

用户可以通过语音或镜腿上的触控板唤醒Gemini。

借助底层模型和Spark智能体的能力，

Gemini眼镜能够将用户的语音指令自动分解为一系列操作，并在手机后台执行。

例如，用户可以直接说“买一杯上次点的咖啡”，手机上的Gemini便会自动打开相应App、添加商品，并在用户

语音确认

（预计采用声纹验证技术）后完成支付。

图片来源：Google

值得一提的是，

谷歌确认Gemini音频眼镜将同时支持Android和iOS平台。

不过，在iOS严格的沙盒机制下，其在iPhone上的功能体验预计将大打折扣。

为了进一步拓展Gemini的能力边界，谷歌办公套件（Google Workspace）也全面接入了AI。用户可以通过语音指令让Gemini查找邮件、辅助写作，甚至生成图像。

图片来源：Google

结合此前曝光的全新高端“Googlebook”笔记本，

谷歌正不遗余力地将Gemini嵌入其所能掌控的每一个硬件生态之中。

主题演讲至此告一段落。或许有人会认为，这不过是谷歌在AI竞赛中后发制人的“画饼”之举。但深入来看，

Google I/O 2026所揭示的，恰恰是谷歌终于找到了打开AI时代大门的正确钥匙。

以“AI能做什么”这个根本问题为例，谷歌直接向其“发家之本”开刀，用生成式UI改变了AIGC“回合制”的单向交互模式。

这种从单向到双向的转变，同样体现在Gemini智能硬件上。

过去，AI硬件赛道长期存在“硬件归硬件，AI归AI”的割裂现象。而如今，Gemini 3.5 Flash的多模态能力，正让音频眼镜等设备成为Gemini感知和交互世界的“物理器官”。

图片来源：Google

更重要的是，

Gemini正利用其在Android系统中的原生优势，构筑起一道其他厂商难以逾越的护城河。

当其他AI智能体还在应用沙盒的边缘艰难尝试跨应用协同时，Gemini已经在Android底层实现了流畅无阻的原生级互通。

回到开头提到的那个事实：谷歌同时掌握着Gemini、YouTube、搜索和Android等多个生态入口。

在Google I/O 2026上，这些四处“开花”的生态，终于迎来了“结果”的季节。

当然，Gemini高度依赖谷歌生态，这对OpenAI、Grok等对手是挑战，

但对国内AI企业而言，或许也意味着机遇。

毫无疑问，

Gemini全家桶在海外再如何所向披靡，其核心生态在国内市场仍面临“水土不服”的困境。

然而，它所展示的“多模态交互+原生系统集成+全天候智能体”这一业务逻辑，为国内同行指明了方向：

海外有谷歌在安卓底层大刀阔斧，

国内厂商同样可以在深度定制的安卓系统内，打造属于自己的“独立王国”。

更何况，中国品牌在智能体本地化落地上的创新速度和接地气程度，往往比原生安卓更为激进。谷歌已经亮出了Gemini的底牌，接下来，就看国内AI巨头与手机厂商如何强强联手，在这场生态之战中破局而出了。

Google I/O全盘点：两大新模型上线，音频眼镜登台，Gemini接管一切

如何让AI深度融入并赋能其庞大的产品矩阵，从而构建一个更智能、更无缝的数字体验。

Gemini Omni与Gemini 3.5：迈向全能的模型进化

Gemini Omni与Gemini 3.5：迈向全能的模型进化

能够处理任何形式的输入，并生成任何形式的输出。

只需一句像“把玻璃建筑换成肥皂泡”这样的指令，就能精准替换，

Gemini Omni堪称“视频领域的Nano Banana”。

Gemini 3.5 Flash。

Gemini 3.5 Pro将于下个月正式亮相。

Google Antigra vity与Gemini Spark：更智能、更强大的数字助手

Google Antigra vity与Gemini Spark：更智能、更强大的数字助手

借助新模型，Antigra vity仅用12小时就构建了一个操作系统内核，而整个过程的AI API成本还不到一千美元。

“生成式UI”的新概念。

能够自适应问题、自动生成交互界面的AI搜索。

用户不仅可以输入文字和图片，还能直接上传视频或文档进行搜索；

升级为基于Gemini 3.5 Flash的AI智能补全。

全新的搜索Agent可以全天候运行，持续监控用户指定的信息。

Gemini Spark运行在一个专门的虚拟化环境中，

还能通过MCP协议与外部应用程序互联，实现更广泛的任务自动化。

Android系统新增的“Halo”功能会在屏幕左上角常驻一个状态标记，

它已不再是普通的应用功能，而是与摄像头、麦克风同等重要的手机核心组件。

Gemini Spark是一项全订阅功能，下周将率先向Google AI Ultra订阅用户开放。

即便是谷歌这样的巨头，也难以长期承受全面AI化带来的巨额算力成本。

为高级AI服务付费，很可能像如今的手机套餐一样，成为一项普遍的“刚性消费”。

音频眼镜亮相，Gemini生态闭环加速形成

音频眼镜亮相，Gemini生态闭环加速形成

这款Gemini眼镜并非单纯的耳机替代品，而是配备了摄像头、具备AI视觉与多模态输入能力的智能音频设备。

用户可以通过语音或镜腿上的触控板唤醒Gemini。

Gemini眼镜能够将用户的语音指令自动分解为一系列操作，并在手机后台执行。

语音确认

谷歌确认Gemini音频眼镜将同时支持Android和iOS平台。

谷歌正不遗余力地将Gemini嵌入其所能掌控的每一个硬件生态之中。

Google I/O 2026所揭示的，恰恰是谷歌终于找到了打开AI时代大门的正确钥匙。

这种从单向到双向的转变，同样体现在Gemini智能硬件上。

Gemini正利用其在Android系统中的原生优势，构筑起一道其他厂商难以逾越的护城河。

在Google I/O 2026上，这些四处“开花”的生态，终于迎来了“结果”的季节。

但对国内AI企业而言，或许也意味着机遇。

Gemini全家桶在海外再如何所向披靡，其核心生态在国内市场仍面临“水土不服”的困境。

国内厂商同样可以在深度定制的安卓系统内，打造属于自己的“独立王国”。

热门资讯

热门手游

相关攻略

热门专题