下载客户端

全球AI音乐会，第一次听见中国声音

2024-04-19 15:43

来源：澎湃新闻·澎湃号·湃客

盛夏将至，各条AI赛道也热烈了起来。如果评选一下，近段时间哪个领域的AI应用最为火爆，那么AI音乐创作绝对名列前茅。

一个月之前，海外初创企业Suno发布新版AI音乐生成大模型Suno V3，它可以根据用户自然语言快速生成相关风格音乐，在全球范围内引发热议。而就在不久前，来自前DeepMind团队成员的Udio音乐大模型发布。这款模型可以带来非常逼真的音乐制作效果，并且可以完成多段式、长音乐作品的生成。

AI音乐生成大模型赛道，竞争突然激烈了起来。加上OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等项目，我们似乎在今年迎来了一场全球AI音乐会。一时间异彩纷呈，好不热闹。

但在这场AI音乐会中，有一个现象非常值得重视：这一次，中国科技与全球前沿AI趋势之间没有时差，无缝衔接。我们不再是跟随者与追赶者，而是第一时间加入了这场音乐与AI的盛宴，奏响了属于自己的旋律。

4月2日，由昆仑万维打造的AI音乐生成大模型“天工SkyMusic”开启免费邀测，4月17日更是正式发布。

天工SkyMusic是国内唯一公开可用的AI音乐生成大模型，也是中国首个音乐SOTA模型。

它与震撼全球科技与音乐产业的Suno、Udio保持了时间线上的高度同步，同时多个领域的技术能力更加出色。在与Suno V3的横向测评中，天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐最新SOTA模型。

“中国AI不缺席”，是一段我们期待了很久的旋律。究竟是什么让昆仑万维能够完成这次演奏？天工SkyMusic，以及背后的天工3.0有着怎样的产业与社会价值？

让我们打开这场全球AI音乐会，听懂一首关于“中国AI不缺席”的盛夏奏鸣曲。

天工SkyMusic：东方的AI音乐会

不缺席的中国AI音乐大模型，不仅需要第一时间跻身行业一线，更需要在能力上拿出足够有说服力的答案。

天工SkyMusic在发布之后，获得了各方非常积极的反馈。来自媒体、音乐人与行业专家以及广大用户的声音，证明了其具备加入全球AI音乐大模型竞逐的底气。AI音乐会不仅发生在欧美，同时也奏响在东方。

首先，我们可以具体来看一下天工SkyMusic在技术能力上的特色。

通过采用音乐音频领域类Sora的DiT模型架构，天工SkyMusic在AI音乐大模型的几个核心能力指标上都有不俗的表现。

其中包括高质量的音乐生成能力、高逼真的人声模拟能力、高丰富度的歌词段落控制能力、高规模的音乐风格掌握，以及高灵活的音乐表达。

举例而言，欧美AI音乐风格多以“器”见长，更偏重乐器丰富度参数，但在人声拟合方面往往表现一般。

相较而言，昆仑万维天工SkyMusic则专门在人声自然度、发音可懂度上进行了模型专门训练，使得AI发音清晰、无异响，让大模型生成的音乐足以“以假乱真”。

此外，天工SkyMusic所能够创作的音乐，展现出了对多种不同音乐风格，不同生成诉求的把握。比如神曲改造对流行音乐的把握，古诗词改编对中国传统文化与格律的把握等。

透过广泛的生成案例，我们可以发现天工SkyMusic具有丰富的使用场景与广泛的需求人群，例如：

1.音乐从业者可以借助天工SkyMusic寻找灵感，辅助音乐创作。比如说，创作者可以输入一些“母题”，包括亲情、爱情等。通过天工SkyMusic生成的歌词与旋律来寻找灵感，探索创作边界。

2.短视频创作者和UP主可以通过音乐生成来拓展创作边界，降低音乐方案的创作门槛。比如说，UP主可以用天工SkyMusic改编“网络神曲”，获得新的视频BGM。下面这首神曲，天工SkyMusic就可以为你带来完全不一样的感受。

3.音乐爱好者与粉丝可以获得更多样的音乐乐趣，与自己喜欢的音乐类型、音乐风格进行更加多样性、深层次的互动。比如我们可以换一个声音，把我们喜欢的音乐进行重新演绎。

4.在教育教学场景中，天工SkyMusic可以用来辅助音乐教育，让学习者感受到音乐创作的内在逻辑与丰富技巧。同时还能够助力传统文化、乐器演奏等方面的教育教学。比如说，天工SkyMusic可以基于古诗词生成音乐，让学生更生动准确掌握古典文化的精髓。

在这样的应用价值基础上，我们还必须看到天工SkyMusic作为国内最早，也是目前唯一的AI音乐大模型，在填补产业空白方面的价值是巨大的。它的出现，意味着中国用户有了更加符合华语音乐创作习惯的AI模型，对中文有了更好的支持。同时它完全免费，不限使用次数，无需额外的使用门槛，这都是国外同类AI音乐模型所无法实现的。

而从技术角度上看，天工SkyMusic对比MuseNet、MusicLM、MusicGen等项目也具备独特的技术优势。

除了上文提到的人声合成演唱能力外，在音乐风格上天工SkyMusic更加精巧且多元。它能够通过歌词控制情绪变化，实现如颤音、歌剧、吟唱等多种歌唱技巧，并且可以使生成的音乐作品情感更加丰富且贴合情境。在此基础上，天工SkyMusic支持创作说唱、民谣、放克、古风、电子等多种音乐风格，用户可以根据个人喜好定制音乐风格。

总体来看，天工SkyMusic开创了中国AI音乐大模型的先河，成为中国首个音乐AIGC SOTA，并且大幅提高了AI大模型音乐生成在人声领域的技术表现。

天工 3.0：全球最大规模的开源MOE大模型

天工SkyMusic能够与全球AI音乐会同频奏响，背后必然离不开两点：一是战略方向的敏锐把握，二是技术底座的基石打造。

而天工SkyMusic背后的技术基石，则是刚刚发布的“天工3.0”

天工3.0采用了4000亿级参数MoE混合专家模型，是目前全球模型参数最大、性能最强的MoE模型之一。相较于上一代天工2.0MoE大模型，其在模型语义理解、逻辑推理，以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。

具体来看，天工3.0在四个方向带来了全面升级：

首次是逻辑推理能力的增强。天工3.0强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。例如，在天工3.0AI搜索的研究模式中，能够围绕用户的某个简单指令进行相关问题的延伸，并实时判断该段落信息是否需要联网搜索。在分析某个具体行业的信息时，能够实现总结相关事件、拆解产业链地图等复杂功能，并以结构化或思维导图的形式进行最终展示，让AIGC能力与行业应用更紧密融合。

其次，是语义理解能力的增强。天工3.0能够更好地理解和处理用户自然语言Query中的复杂语义信息，包括隐喻、多义词等。比如说，天工3.0可以对用户Query进行拆解、细化，甚至对用户进行追问，从而在面对不确定知识时表现更好，能够满足用户多样化的需求。

此外，天工3.0新增了专项Agent训练能力。天工3.0可以针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练，使其能够独立生成并调用代码，完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

针对B端产业用户的需求，天工3.0也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领域进行了升级，企业用户可以通过上传知识文档构建专属知识库及Agent，并实现自动调用制定工具、完成复杂指令遵循Agent构建等实用能力。

最后，天工3.0的内容生成能力也得到了全面升级。对比天工2.0，天工3.0群星了全面的内容创作能力增强，能够完成AI音乐生成、AI语音、AI对话、AI二次元漫画生成等内容创作。还可以通过专项Agent训练实现在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力。

总结天工3.0的技术特点，最为关键的一点就是：独立思考。

天工3.0可以将复杂任务进行拆解优化，并在每一步都独立思考，判断每一步是否需要调用不同的工具。也是基于独立思考能力，天工3.0新增了联网能力、文生图、代码能力等优势应用能力，同时增强了AI搜索等能力的表现。

更为值得注意的是，性能强大，技术独创性极强的天工3.0，选择了开源开放的策略。在全球开源大模型极速发展，基于开源生态的AI应用百花齐放的大背景下，天工3.0的开源无疑是给中国AI开源事业注入了强心剂。全面提升了中国开源大模型的整体技术水平与产业底座厚度。

在选择开源开放的同时，天工3.0还搭建了智能体广场，帮助开发者定制化打造智能体。更好的中文适配度，也让天工3.0与中文开发需求更加契合。

全面增强的能力，更加丰富的功能，以及与开发者更紧密地契合，让天工3.0成为一块基石——“中国AI不缺席”的基石。

这一次，中国AI不缺席

过去AI行业内部总是认为，我们与欧美顶级AI企业之间存在着时间差。在新模型、新技术火热之后，中国AI行业才开始跟随和学习。

但在AI音乐大模型的热潮里，情况显然并非如此。为什么我们这次可以不跟随，不焦虑，而是第一时间抵达这个舞台，开始自己的演奏？

事实上，在AI音乐生成这个方向上，昆仑万维一直保持着高度关注。早在2022年12月昆仑万维发布的“昆仑天工”AIGC全系列开源算法与模型中，就包括多模态音乐内容生成大模型。此后，昆仑万维还打造了多个基于AI音乐大模型的合作项目，掌握了丰富的实践经验。昆仑万维关注并且重视AI音乐生成，是天工SkyMusic的战略牵引。

天工3.0与天工SkyMusic的发布展现出来了这样一个价值逻辑：在AI大模型快速发展的产业纪元里，想要提升创新效率，把握战略机遇，需要首先孕育一个底座。这个底座可以融合各种先进的AI技术能力。

昆仑万维集团董事长兼CEO方汉认为，SOTA指的是当前技术在本领域技术指标全球第一。OpenAI是文本大模型和视频生成大模型的SOTA，而昆仑万维目前实现了音乐AIGC的SOTA。

之所以能够实现这一点，有赖于天工3.0提供了底座级别的AI能力，进而实现发展效率与发展质量的统一。

昆仑万维创始人周亚辉认为：“未来三十年，人类社会很大的一个变化，是人类要从感知线，变成表达线，整个人类社会在自我表达侧要翻1000倍；创作和自我表达是未来30年在整个社交和文化领域增长最快的曲线，会有越来越多人表达自我，表达对世界的理解、对社会事物的态度，表达越来越艺术化和趣味化；这种表达在过去很困难，因为工具门槛高，而未来30年是自我表达的30年，我们要用AI把人类创作的门槛降得足够低，让人们更充分地实现自我表达。”

基于昆仑万维“All in AGI 和 AIGC”的战略布局，天工3.0成为集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项前沿技术为一身的AI大模型。基于天工3.0提供的底座能力，昆仑万维可以敏锐步骤发展机会，抓住诸如AI音乐创作这样的产业风口。而广大开发者则可以获得多元且丰富的AI能力，将AI带到千行百业的每个角落。