澎湃Logo
下载客户端

登录

  • +1

英伟达对外展示了一款模型,可以生成音乐和音频

澎湃新闻记者 张静
2024-11-26 11:36
来源:澎湃新闻
未来2% >
字号

当地时间11月25日,芯片巨头英伟达展示了一款用于生成音乐和音频的人工智能模型Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布Fugatto技术。有业内人士对澎湃科技表示,音频模型是AI的常规应用,英伟达推出这一模型更多得是为了展示AI的能力,从而促进其显卡得销售。

据了解,新模型面向音乐、电影和游戏制作商。它可以改变录音的口音和情绪,将钢琴演奏转换成人声歌唱,具体来讲,Fugatto可以分离歌曲中的人声,添加乐器,将钢琴换成歌剧歌手来改变旋律。英伟达表示,新模型可以创造出“从未听过的声音”,比如可以使小号吠叫或者萨克斯发出猫叫声。

Fugatto建立在英伟达团队此前在语音建模、音频编码和音频理解等领域的工作基础上,完整版本使用25亿参数。新模型根据开源数据在包含32个英伟达H100 Tensor Core GPU的NVIDIA DGX超级计算机系统上进行训练。

英伟达表示,为了构建Fugatto模型,研究人员收集数百万个音频样本的数据集并创建指令,扩展了模型可以执行的任务范围,同时实现了更准确的性能,并在不需要额外数据的情况下完成新任务。在推理过程中,模型使用一种称为ComposableART的技术来组合仅在训练期间单独看到的指令,例如提示词组合可以要求用法国口音讲述悲伤的文字,实现用户对文本指令的精细控制。

“如果我们回想一下过去50年的合成音频,现在的音乐听起来不同了,因为有了电脑和合成器。”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)说,生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。

有网友询问何时能使用该模型,但同时也有网友表示担忧,并表示“这是重罪”,“参与这项研究的每个人都应该被关进监狱,原因很明显。不要扰乱艺术、音乐和媒体。”

英伟达表示目前仍在讨论是否以及如何将其公开发布。生成式AI模型的创造者尚未确定如何防止滥用该技术,例如用户生成错误信息或生成受版权保护的角色来侵犯版权。“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们使用的东西。”卡坦扎罗表示,因此需要对此保持谨慎,“这就是为何我们没有立即发布这款模型。”

值得注意的是,除英伟达的Fugatto以外,来自Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具,但其他公司都没有声称能够创造出全新的和闻所未闻的声音。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。

    责任编辑:宦艳红
    图片编辑:沈轲
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈