【#OpenAI发布三款实时语音模型##OpenAI最智能AI语音模型来了#】OpenAI 发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑,目标解决语音交互中的延迟、打断处理和多语言支持难题。
GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。
定价方面,GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元(IT之家注:现汇率约合 218.1 元人民币),输出为 64 美元(现汇率约合 436.2 元人民币),缓存输入仅需 0.4 美元。
GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。
GPT-Realtime-Whisper 则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟 0.034 美元和 0.017 美元。(IT之家)

发布于:北京
相关推荐
OpenAI发布三款实时语音模型,含推理翻译转录功能
OpenAI语音转录,每10份音频就有8份被“胡编”
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
OpenAI发布GPT5模型,准确性速度推理能力全面突破
业界唯一!科大讯飞发布首个基于全国产算力的深度推理大模型X1!
OpenAI发布GPT-4o,“秀肌肉”给谁看?
Meta发布人工智能模型,支持几十种语言语音互译
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
OpenAI放大招:即将推出AI语音助手,与苹果达成合作
OpenAI大招要来了!AI语音助手狙击谷歌,官宣下周二上新,GPT-5年前
网址: OpenAI发布三款实时语音模型,含推理翻译转录功能 http://m.xishuta.cn/newsview149403.html