来源:互联网 更新时间:2026-06-13 15:06
语音交互的体验,又要被改写了。最近,OpenAI 正式向开发者开放了三款全新的实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这可不是一次简单的功能更新,而是直指语音交互领域几个长期存在的“老大难”问题——高延迟、无法自然打断、多语言支持薄弱。看来,AI 巨头这次是打算从技术底层,彻底重塑我们与机器对话的方式。
这次发布的核心,无疑是 GPT-Realtime-2。官方将其定位为目前最智能的 AI 语音模型,更重要的是,它被称作首个具备 GPT-5 级别推理能力的语音工具。这意味着什么?
简单来说,未来的语音助手可能不再是那个你说一句、它干一件的“呆板执行者”了。GPT-Realtime-2 在保持对话极度自然流畅的基础上,核心突破在于能进行复杂的实时逻辑推理,并灵活调用外部工具。比如,你可以在描述一个多步骤任务时随时补充细节或改变主意,它能精准识别你的打断或纠正,并实时调整后续的思考和行动路径。这背后的潜台词是,语音交互正从“简单响应”迈向“深度实时理解与协作”。
当然,强大的能力也对应着相应的成本。GPT-Realtime-2 的音频输入定价为每百万 Token 32 美元(约合软妹币 218 元),输出费用为 64 美元(约合软妹币 436 元)。不过,对于缓存输入的处理,成本则大幅降低至每百万 Token 仅 0.4 美元。
除了核心的推理模型,另外两款功能性产品同样瞄准了具体的痛点场景。
GPT-Realtime-Translate 主打实时翻译,其性能相当强悍。它支持高达 70 种输入语言与 13 种输出语言的即时互译,关键是速度——翻译结果几乎能与说话者的语流同步。这种级别的实时性,让跨国会议、即时商务洽谈等高要求场景的沟通壁垒被大幅削弱。
另一款 GPT-Realtime-Whisper 则专注于流式转录,追求“音随人动”的低延迟体验。它极大压缩了从语音到文本的等待时间,对于需要实时会议记录、即时字幕生成的场景来说,效率提升是显而易见的。
在计费上,这两款模型采取了更灵活的按分钟计费模式,GPT-Realtime-Translate 每分钟 0.034 美元,GPT-Realtime-Whisper 则为每分钟 0.017 美元。
从这一系列动作不难看出,OpenAI 正在系统性地构建其语音交互的技术护城河。当语音 AI 不仅能“听清”、更能“听懂”并“实时思考”时,它所开启的,或许是一个远比我们想象中更自然的、人机协同的新阶段。行业的游戏规则,恐怕又要被重新定义了。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
网络热词聊污是什么意思
抖音最火沙雕男生网名(精选100个)
蒙古上单是什么梗
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
韦一敏是什么梗
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
作家助手如何上传自制封面 作家助手如何设置小说的封面
免费看片软件下载地址推荐
免费看电影的软件推荐
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
有寓意的易经网名男生(精选100个)
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc