语音大模型MaskGCT开源,赋能短剧游戏数字人新品

   时间:2024-10-25 09:29 来源:ITBEAR作者:沈瑾瑜

趣丸科技与香港中文大学(深圳)联手打造的语音大模型MaskGCT,近日宣布在Amphion系统中开源,供全球用户使用。该模型凭借其独特的技术,在声音克隆、跨语种合成及语音控制等领域展现出显著优势。

MaskGCT采用掩码生成模型与语音表征解耦编码技术,实现了秒级超逼真的声音克隆,仅需3秒音频样本即可复刻各种音色,包括人类、动漫等,同时完整保留语调、风格和情感。该模型还支持更精细可控的语音生成,可灵活调整语音的长度、语速和情绪。

MaskGCT的训练基于香港中文大学(深圳)与趣丸科技等机构联合推出的10万小时数据集Emilia,这是全球最大且最为多样的高质量多语种语音数据集之一,涵盖了中英日韩法德6种语言。

在官方实验中,MaskGCT在语音质量、相似度和可理解性方面均表现出色,优于当前大部分TTS模型。其两阶段模型设计,使得在推理过程中,模型能以并行方式生成指定长度的标记,大幅提高效率。

目前,MaskGCT已在多个领域展现出广泛应用前景,如短剧出海、数字人、智能助手等。趣丸科技基于MaskGCT开发了多语种速译智能视听平台“趣丸千音”,旨在降低翻译成本,缩短制作周期,助力国产内容出海。

《2024年短剧出海白皮书》显示,海外市场规模远超国内市场,短剧出海正成为新蓝海。趣丸千音有望帮助国产短剧以更低成本、更快捷的方式走向世界,提升中国文化内容的出海效率。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群