分享好友 最新动态首页 最新动态分类 切换频道
刚刚,OpenAI首发语音Agent,智能体实现重大突破
2025-03-24 09:17

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天凌晨1点,OpenAI进行了技术直播发布了三款全新语音模型,专用于开发语音AI Agent。

两个是语音转文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe;一个是文本转语音模型GPT-40 Mini TTS。OpenAI还特意开发了一个新网站来展示新功能。

值得一提的是,开发者可以控制GPT-40 Mini TTS模型的语音情绪和风格,包括兴奋、平静、鼓励、严肃、热闹等,这对于搭建不同业务场景的智能体非常有用。

例如,在教育场景中,Agent可以用鼓励的语气激励学生;在客服场景中,Agent可以用温和、耐心的语气解答用户问题。

图片

API地址:https://platform.openai.com/docs/guides/audio

展示地址:https://www.openai.fm/

完整技术直播视频

三款语音模型简单介绍

GPT-40Transcribe是高性能版本,基于最新的语音模型架构,经过海量音频数据的训练,能够处理复杂的语音信号并将其准确地转换为文本。其训练数据量达到了前所未有的规模,涵盖了多种语言和方言,使得它在不同语言环境下的转录任务中表现出色。

GPT-4Mini Transcribe则是在保持较高转录性能的同时,通过模型压缩技术,将模型大小大幅减小,从而提高了运行速度并降低了资源消耗。这种设计使得它更适合在资源受限的设备上运行,例如,移动设备或嵌入式系统,同时也能满足实时性要求较高的应用场景。

图片

在性能方面,这两款语音模型相比上一代OpenAI的Whisper模型有了明显提升,能够更精准地捕捉语音中的细微差别,减少转录错误。测试结果显示,最新语音模型的词错误率大幅降低,也比同类的模型更好。

GPT-40Mini TTS模型不仅能够将文本内容转换为自然流畅的语音,还允许开发者通过指令控制语音的语调、情感和风格。使得语音Agent能够根据不同的情境和用户需求,调整语音的表达方式,从而更好地传达信息和情感。

图片

GPT-40Mini TTS模型采用了先进的语音合成技术,能够生成高质量的语音输出。它通过模拟人类的发声机制和语音特征,使合成语音听起来更加自然、逼真。

图片

这使得语音Agent在与用户交流时,能够提供更加亲切、生动的语音体验,增强用户的参与感和满意度。该模型也支持多种语言,并且能够生成不同性别、年龄和口音的语音,能够适应不同地区、不同文化背景的用户需求,提供更加个性化的语音服务。

API、SDK重大更新

OpenAI为语音转文本API增添了强大的streaming模式,允许开发者将连续的音频流实时输入模型,模型也能实时返回连续的文本和响应,这种实时交互的特性对于需要即时反馈的应用场景,例如,实时语音对话系统、语音会议转写等,帮助非常大。

而API 集成的噪声消除技术和语义语音活动检测器进一步优化了语音转文本的体验。噪声消除技术能有效过滤掉背景噪音,使模型专注于用户的语音内容;

语义语音活动检测器则可根据模型对用户说话结束的判断,对音频进行合理分块处理,避免处理不完整的语音信息,让开发者无需再为处理复杂的语音数据而烦恼,能够更专注于上层应用的开发。

图片

为了帮助开发者更轻松地构建语音Agent,OpenAI对其SDK进行了重大更新。新的Agents SDK采用了模块化设计,将语音转文本、文本处理和文本转语音等功能模块化,开发者可以根据自己的需求灵活组合这些模块,构建出符合特定应用场景的语音Agent系统。模块化的设计方式不仅提高了开发效率,还增强了系统的可扩展性和可维护性,使得开发者能够更容易地对Agent系统进行升级和优化。

通过Agents SDK,开发者可以利用已有的文本Agent基础,只需添加少量代码,即可实现语音交互功能。SDK提供了丰富的接口和工具,帮助开发者处理语音输入、文本处理和语音输出等各个环节,减少了开发工作量和复杂性。

例如,开发者可以轻松地将语音转文本模型集成到Agent系统中,实现语音指令的实时转录和处理;

图片

同时,也可以方便地将文本转语音模型应用于输出环节,为用户提供语音反馈。新的SDK在性能和可靠性方面进行了优化,确保语音Agent系统能够稳定、高效地运行。支持实时音频流处理,能够快速响应用户的语音指令,提供流畅的语音交互体验。

此外,SDK还集成了噪声消除、语音活动检测等功能,能够有效提高语音识别的准确性和系统的稳定性,即使在嘈杂的环境中,也能够准确地捕捉用户的语音输入并进行处理。

目前,这些语音模型已经可以在API和SDK中使用。

最新文章
手机电池寿命一般几年手机电池一般能用几年「手机电池寿命一般几年」
  智能手机时代,我们的生活离不开手机,电没了就得充,每天一充甚至好几充这是少不了的事,随着时间的推移,电池也在老化,那电池到底能用多久呢,到底需不需要换新呢?  我们都知道现在的手机几乎都是内置电池,那就意味着如果需要更
vue中输入框事件的使用及数值校验方式手机号英文「vue中输入框事件的使用及数值校验方式」
最近做项目,用到vue去监听输入框当中值,并且去校验值的正确性,我们都知道 vue 当中 主要监听输入框的方法有四个:input change blur keyup.enter他们都可以使用@+xxxx=在vue当中定义的方法,去引用实现,然后利用v-model去绑定data当中
提额度、降利率、扩范围!蚌埠公积金优化新政……
为发挥住房公积金制度住房保障作用,更好满足住房公积金缴存人刚性和改善性住房需求,促进房地产市场平稳健康发展,结合我市实际情况,拟进一步优化制定住房公积金使用政策。现将有关事项通知如下:一、降低二次使用住房公积金贷款首付比例
37条干货!市场监管总局出实招
在破除壁垒、推动公平竞争方面,要推动实施《公平竞争审查条例实施办法》,保障各类经营主体公平竞争。完善经营者集中监管规则体系,从增强透明度、健全分类分级审查制度、提高便利度等方面,帮助民营企业更精准地识别竞争合规风险,激发民
A股港股跌幅收窄 | 大鱼财经
4月7日下午,在经历早盘和午盘初期的剧烈下跌后,14:30左右,A股和港股均出现了一定的反弹迹象,跌幅有所收窄。尽管市场整体仍处于下行通道,但午后这一变化引发了投资者的关注。 A股市场方面,早盘一度跌超14%的创业板指在午后跌幅收窄至1
苹果iOS 19适配机型曝光:这几个手机更新不了了
苹果公司即将迎来一年一度的全球开发者大会,本次大会的重头戏无疑是即将亮相的iOS 19操作系统。据多方消息透露,iOS 19在设计语言上将迎来重大变革,深度借鉴苹果Vision Pro的操作系统visionOS的视觉风格,为用户带来耳目一新的使用体验。
宁夏利通区实施农村高额彩礼专项治理行动
近年来,宁夏回族自治区吴忠市利通区聚焦高额彩礼、人情攀比、大操大办等突出问题,实施农村高额彩礼专项治理“八项行动”,通过选树“低、零彩礼”示范户、开展“沾泥土”的移风易俗宣讲、发放惠农补贴、签订移风易俗承诺书等具体举措,推
《无限暖暖》又给开放世界泼了一盆冷水手机玩家「《无限暖暖》又给开放世界泼了一盆冷水」
文 |壹娱观察 大娱乐家当《无限暖暖》以比《黑神话:悟空》更高的IGN的评分登陆各大平台时,似乎预示着这款野心勃勃的换装手游似乎成功转型为了一款真正的开放世界大作。然而,随着游戏上线,玩家开始深入体验,一个尴尬的现实逐渐浮出水面
八成白领患手机依赖症 染上指尖上的“毒瘾”手机依赖症「八成白领患手机依赖症 染上指尖上的“毒瘾”」
无论走到哪里,小简都会将手机握在手里,就连过马路等红灯,吃饭等上菜的空隙,她都要刷几下手机屏幕,看看微信朋友圈有什么动态,QQ有没有留言。在使用智能机前,小简的手机只是用来接打电话或发短信的。“自从用了智能手机,我一定得时刻
手机显示剪贴板怎么回事手机剪贴板「手机显示剪贴板怎么回事」
因为你长按复制过文字或者消息什么的,只要你点击了输入框就会提示你粘贴手机剪贴板可按如下操作清空:1、长按信息文本输入框位置,会出现粘贴和剪贴板选项,2、点击剪贴板,有清除字样,3、点击清除即可全部清除剪贴板中的内容。(若剪贴
相关文章
推荐文章
发表评论
0评