MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

一个功能强大的语音合成大模型，它不仅在技术上达到了行业领先水平，还在多语言支持、声音克隆和语音控制等方面表现出色

一、MaskGCT概述

MaskGCT是趣丸科技与香港中文大学（深圳）联合研发的语音大模型，于2024年10月24日在开源系统Amphion中正式开源，面向全球用户开放使用。它是一个大规模的零样本TTS（Text – to – Speech，文本到语音）模型，采用非自回归掩码生成Transformer，在语音合成技术方面有诸多创新，与传统TTS模型有着显著区别。

aa9542604e25778cdaa20ede45b33357

二、MaskGCT的特点

（一）卓越的声音克隆能力

MaskGCT具有秒级超逼真的声音克隆能力，仅需提供3秒音频样本，就能够复刻人类、动漫、耳边细语等任意音色。它不仅能精确捕捉原始声音的音色特点，而且可以完整复刻语调、风格和情感。这一能力无论是在影视制作、游戏开发还是虚拟主播等领域都极具价值，例如在游戏中能够为角色提供更加生动逼真的语音，增强玩家的沉浸感；在影视制作里，可以用于复制演员的声音或者创造独特的动漫角色声音等，大大拓展了创作的可能性。

（二）精细可控的语音生成

长度调整：MaskGCT允许用户根据需求灵活调整生成语音的长度。无论是简短的语音提示，如手机的通知提醒音；还是较长的语音叙述，如长篇有声读物等场景，它都可以准确生成。这在广告制作、有声读物等内容领域中非常实用，能够很好地满足不同内容的长度要求。
语速控制：可以自由控制语音的语速，使其适应不同的场景和受众。在教育领域，对于初学者设定较慢的语速有助于理解知识内容；而在快速播报新闻场景下，则能够加快语速。这使语音输出更贴合用户具体情境需求，增强语音交互体验的灵活性和多样性。
情绪调节：MaskGCT还支持情绪的调整，能够生成具有高兴、悲伤、愤怒等不同情感色彩的语音。这为语音交互带来了更丰富的情感表达，使得机器与人的交流更加自然和贴近人类情感，在提升智能助手的用户体验方面有显著效果，例如让智能语音助手的回答更富有感情，提高用户的满意度和使用频率。

（三）强大的多语种合成能力

MaskGCT训练于香港中文大学（深圳）和趣丸科技等机构联合推出的10万小时数据集Emilia，这是全球最大且最为多样的高质量多语种语音数据集之一。基于此，MaskGCT可实现中英日韩法德6种语言的跨语种合成。在全球化的背景下，这一特性为跨国企业的客服服务、国际交流平台、多语种教育应用等场景提供了便利，打破了语言障碍，促进了信息的全球流通。例如在跨国企业客服场景中，不管是接待哪种语言环境的客户，都可以用相应语言进行沟通交流，从而提升服务质量与效率。

三、MaskGCT的应用领域

（一）短剧出海领域

国产短剧在走向海外市场时，传统的翻译和配音工作往往耗费大量的人力和时间成本。MaskGCT的出现改变了这一现状，通过其高效的语音合成能力，能够快速为短剧生成不同语言的配音，大幅降低了人工翻译成本和制作周期。以趣丸科技基于MaskGCT开发的多语种速译平台趣丸千音为例，它允许用户一键上传视频，并迅速生成多语种版本，功能包括字幕修复、语音翻译及唇音同步等。这使得国产短剧能够以更低成本、更快捷的方式走向国际市场，提升了中国文化内容的出海效率，为中国文化在全球的传播提供了新的途径。

（二）数字人领域

数字人的语音自然度和逼真度对于用户体验非常重要。MaskGCT能够根据数字人的形象和设定，为其定制独特的语音，使数字人的语音与形象更加匹配，从而增强数字人的可信度和亲和力。在虚拟客服、虚拟偶像以及虚拟助手等数字人相关的应用中，MaskGCT提供的高质量语音合成服务都能够让数字人更加生动地与用户进行交互。例如虚拟偶像与粉丝互动时，有了自然流畅且符合形象设定的语音，能够增强粉丝对虚拟偶像的喜爱和认同感，更好地塑造数字人形象。

（三）智能助手领域

在智能助手应用中，MaskGCT可以提供更加自然流畅的语音交互体验。它让用户与智能助手的对话过程更加自然，助手的语音回答也更加符合人类的语言习惯和情感表达。例如像手机上的智能语音助手，使用MaskGCT技术后，语音回答会更像是人与人之间的自然对话，而没有机械感，这有助于提高用户的满意度和使用频率，使智能助手更受欢迎并得到更广泛的使用。

（四）有声读物领域

MaskGCT为有声读物的制作带来了更多的可能性。它能够根据不同的书籍内容和风格，生成多样化的语音朗读。比如对于充满奇幻冒险情节的小说，可以生成富有激情的朗读声音；对于抒情类的散文，则能产生温柔舒缓的朗读声音。这样读者在听书时就能够更好地沉浸在故事当中，享受更加丰富的听觉体验，提升有声读物的品质和吸引力。

（五）辅助教育领域

在教育领域，MaskGCT有着广泛的应用潜力。它可以用于语言学习工具的开发，例如为语言学习者提供标准的发音示范。由于其能够根据学习者的需求调整语速和语调，对帮助学习者更好地掌握语言技能有很大的帮助。同时，MaskGCT也可以用于制作教育课件中的语音讲解，通过更加生动有趣的语音讲解提高教学的趣味性和效果，提升学生的学习兴趣和参与度。

四、MaskGCT的发展历程

关于MaskGCT的早期研发情况并没有非常详尽的从早期概念阶段起步的资料，但可以知道的是，它是由香港中文大学（深圳）和趣丸科技的人工智能联合实验室成员共同完成研发的。随着人工智能技术的发展，语音识别与合成技术也在不断演进，从早期基于规则到统计模型，再到神经网络模型。MaskGCT诞生于以Transformer架构为代表的深度学习方法蓬勃发展的背景下，继承并发展了先辈技术的优点。其发展历程中的一个关键节点是2024年10月24日在Amphion系统中的开源发布，这个开源举动具有重要意义，它为开发者们提供了一个强大的工具，标志着语音合成技术在短剧、游戏、数字人等多领域应用向前迈出了一大步。自开源发布之后，MaskGCT处于实际应用不断拓展与技术优化的发展阶段，如已经在短剧出海等多个实际领域开始产生显著的影响力，推动行业相关应用的变革和创新。