首页 资讯 民生 科技 财经 汽车 房产 娱乐 文化 能源 公益 时尚 健康 图片

上海

旗下栏目: 北京 上海 广东 河北 天津 海南 山西 吉林 江苏 浙江 安徽 福建 江西

喜马拉雅珠峰语音生成技术实现5秒极速克隆 亮相云栖大会

来源:东方网 作者:复兴网上海 发布时间:2023-11-23
摘要:据悉,喜马拉雅珠峰语音生成式大模型是一项创新性技术,具备快速实现语音音色和风格定制的能力。据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍,喜马拉雅语音生成式大模型目前已经取得了显著的突破,在音色定制方面实现了5秒内的极速克隆声音;该智能语音交互

聚集全球科技和数字领域的精英,共同探讨云计算和人工智能的未来发展趋势,2023云栖大会于2023年10月31日至11月2日举行。喜马拉雅将在本次大会上展示其最新的自研语音技术成果,包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互系统,为参会者展示AIGC与文娱音频产业深度融合的最新成果。

 

 

据悉,喜马拉雅珠峰语音生成式大模型是一项创新性技术,具备快速实现语音音色和风格定制的能力。这一技术支持丰富场景下的音色实时转换,为声音赋予了创造性的”变声"能力,宛如给声音涂上不同的“画皮”。此前,喜马拉雅珠峰实验室团队已通过AIGC方式创作了超过3.7万部有声书专辑,而AIGC作品的每日播放时长已超过250万小时。

据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍,“喜马拉雅语音生成式大模型目前已经取得了显著的突破,在音色定制方面实现了5秒内的‘极速克隆’声音。通过极少量的数据,该模型能够克隆出具有90%相似度的基本音色,并在短短的10秒内快速生成定制音频。未来,这项技术在短视频创作、数字人配音、人机交互对话、名人IP复刻等领域有望发挥出巨大的潜在价值,有效解决商业场景中的沟通需求痛点。”

 

 

喜马拉雅珠峰实验室资深产品专家吕睿韬现场介绍到:该语音大模型采用基于语音向量和语义标记的新型语音编解码器,其中语音向量包含用于高保真语音重建的声学细节,而语义标记(LLM)则侧重于语言建模的语音的语言内容,最终实现高效生成最富有语言表现力和最高保真度的语音(对话)内容。应用场景上,该语音大模型可应用于语音内容生成、口语对话、语音音色实时转换、说话风格迁移、语音到语音跨语种翻译、说话人匿名化等各种任务。

记者了解到,喜马拉雅还将在云栖大会上展示其第二代智能语音交互系统,这一系统以阿里云的“通义千问”大模型为基础,以喜马拉雅儿童形象代言人“波波”为中心,增强了他的自然连贯对话能力,凸显了“波波”这一IP形象的特征。该智能语音交互系统已通过喜马拉雅儿童APP和喜马拉雅提供服务,波波球为家庭亲子用户提供陪伴对话功能。

责任编辑:复兴网上海
关于我们 | 联系我们 | 广告服务 | 法律声明 | 招聘信息 | 网站地图

复兴网版权所有,未经书面授权禁止使用

复兴时报社主办 版权所有:复兴时报社 © 2014-2023 CHINAFXNEWS.com All Rights Reserved.

举报邮箱: chinafxnews@163.com

电脑版 | 移动版