梦幻诛仙天音加点
最终,谷歌的新一代视频生成大模型Veo2展现出了其卓越的能力,相较于Sora,它更为了解人间烟火气息,电影拍摄技巧也更为娴熟,并能以高达4K的分辨率进行输出——宛若活生生地把影视级视频生成推向了新的高度。
尽管视频生成技术已经取得了显著的进步,但仍然停留在默片的阶段。国内互联网公司却带来了新的变革,让视听同步生成成为了现实。现在,你只需上传一段视频,强大的音乐大模型便能立刻为你打造出一段30秒的精彩MV,而且中文吐词清晰,声音自然,歌词与画面完美贴合,韵律还极具风味。
过去,要实现这样的效果,还需要经过一系列繁琐的步骤,先使用音乐大模型生成音频,再利用剪辑工具将视频与音频进行拼接。而现在,一切都变得如此简单,音乐大模型直接为你生成现成的MV,连提示词都省了。
一键即得的音乐配乐
「天谱乐」全球首创技术亮相
在今年7月,趣丸科技推出了全球首个多模态配乐大模型「天谱乐」,这一创新举措在音频垂直赛道上引起了广泛的关注。
「天谱乐」不仅支持文本生曲,最长可达3.5分钟,而且其能力不仅限于此。它还支持图片生曲、视频生曲,是全球首个实现多模态能力的AI音乐应用。
当用户上传一张图片或一个60秒内的视频时,「天谱乐」便能立刻为其生成与之高度匹配的背景音乐,呈现出30秒的MV效果。
相比之下,Suno的产品直到10月才推出SunoScenes,而「天谱乐」已经展现出其明显的优势。
我们曾为一部剧的上演试了「天谱乐」,仅仅通过一张剧照,它便立刻为我们生成了一首与剧情相匹配的歌曲。而给李子柒的制茶视频配上音乐时,无论是歌词还是曲风都流露出浓厚的国风气息。
在音乐的人声部分,我们知道Suno V3和Udio生成的歌曲有时会带有明显的金属质感和压缩感,尤其在人声部分表现得不尽如人意。「天谱乐」在经过多次技术迭代后,其人声表现已经达到了专业级水准,有效减少了电音感,使得歌曲更加真实动人。
「天谱乐」的技术突破得益于其在长序列音乐语意建模和高质音频空间建模上的进一步突破。它能够高度还原音乐音频在高维空间的连续信号表征,从而实现音乐性和音质的飞跃。
为了达到理想的MV效果,歌曲与内容的高度融合是关键。这意味着音乐模型需要能够理解画面所蕴含的情绪、主题和细节。基于大模型,「天谱乐」能够准确识别出画面的情绪和基调,完成卡点操作,生成与内容相匹配的背景音乐。这种先进的多模态理解与生成能力使「天谱乐」在国内外均达到了领先水平。
目前,「天谱乐」大模型已全面接入趣丸旗下的唱鸭App,实现了在国内的产品化应用。据统计,已有4600万人注册使用唱鸭App或天谱乐,累计创作近1000万首AI歌曲。
零门槛的音乐创作
国产应用崭露头角
在2023年12月底上线的Suno等AI音乐模型迅速成为AI音乐领域的焦点。在国内市场上,趣丸科技的「天谱乐」与字节跳动、昆仑万维的音乐大模型共同构成了三分天下的格局。