语音大模型MaskGCT开源，赋能短剧游戏数字人新品-生活家电-虎科技

语音大模型MaskGCT开源，赋能短剧游戏数字人新品

时间：2024-10-25 09:29 来源：ITBEAR作者：沈瑾瑜

趣丸科技与香港中文大学（深圳）联手打造的语音大模型MaskGCT，近日宣布在Amphion系统中开源，供全球用户使用。该模型凭借其独特的技术，在声音克隆、跨语种合成及语音控制等领域展现出显著优势。

MaskGCT采用掩码生成模型与语音表征解耦编码技术，实现了秒级超逼真的声音克隆，仅需3秒音频样本即可复刻各种音色，包括人类、动漫等，同时完整保留语调、风格和情感。该模型还支持更精细可控的语音生成，可灵活调整语音的长度、语速和情绪。

MaskGCT的训练基于香港中文大学（深圳）与趣丸科技等机构联合推出的10万小时数据集Emilia，这是全球最大且最为多样的高质量多语种语音数据集之一，涵盖了中英日韩法德6种语言。

在官方实验中，MaskGCT在语音质量、相似度和可理解性方面均表现出色，优于当前大部分TTS模型。其两阶段模型设计，使得在推理过程中，模型能以并行方式生成指定长度的标记，大幅提高效率。

目前，MaskGCT已在多个领域展现出广泛应用前景，如短剧出海、数字人、智能助手等。趣丸科技基于MaskGCT开发了多语种速译智能视听平台“趣丸千音”，旨在降低翻译成本，缩短制作周期，助力国产内容出海。

《2024年短剧出海白皮书》显示，海外市场规模远超国内市场，短剧出海正成为新蓝海。趣丸千音有望帮助国产短剧以更低成本、更快捷的方式走向世界，提升中国文化内容的出海效率。

更多>同类内容

华为Mate 70系列热销，销量千万指日可待，	华为江淮联手打造尊界S800，百万级轿车增程
深蓝S09来袭！5.2米大型SUV挑战理想L9，智	阿维塔06敞篷版街头亮相，颜值获赞，能否成