万兴科技朱伟：Sora至今没有商业化，视频模型成熟需要周期

作者 | GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行，在大会首日的主会场大模型专场上，万兴科技副总裁朱伟以《音视频多媒体大模型市场洞察与落地实践》为题发表演讲。

当前，大模型正从1.0图文时代进入以音视频多媒体为载体的2.0时代。视频创作需求量巨大，然而长期来视频相关模型仅占极少数，且大模型在音视频领域的应用面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。

万兴科技副总裁朱伟认为，大模型的出现为视频创作带来前所未有的便利和可能性，2024年有望迎来AI视频的元年。在此背景下，万兴科技在4月28日旗下万兴“天幕”音视频多媒体大模型正式公测。

“天幕”大模型于今年1月份发布，聚焦数字创意垂类创作场景，基于15亿创作者及100亿本土化高质量音视频数据沉淀，以音视频生成式AI技术为基础，具有多媒体、垂直解决方案、算力数据及应用本土化三大特色。

这是国内首个专注于数字创意领域的音视频多媒体大模型，已通过中央网信办备案，将支持60秒视频一键生成，并具备视频生视频、文生音乐、文生音效等近百项原子能力，全链条赋能全球创作者。

以下为朱伟的演讲实录：

我们万兴的模型叫“音视频多媒体大模型”，专注于市场及应用方面的情况。公司成立20多年来，一直在音视频、多媒体领域深耕，为音视频内容生产者赋能。我们主要是视频内容生产的工具和服务的厂家。

如今，我们在音视频多媒体领域已有超过20年的积累，当大模型出现后，我们很欣喜，因为它为我们所在的行业和用户提供了更优秀的技术服务。因此，我们希望通过此次分享，向大家介绍音视频多媒体大模型在市场上的一些趋势以及实践经验。

一、大模型开始进入2.0时代，音视频模态入口尚未完全打开

说到大模型，万兴科技在深度学习来临之时就已组建团队进行人工智能（AI）的研究。随着大模型时代来临，我们必然跟随潮流，因为我们相信大模型会为内容制作，特别是视频内容制作，带来更大的驱动力。我们曾提出大模型应该像基础设施一样，赋能各行各业，我们也一直坚信这一观点。

去年，大家都在说“百模大战”，整个大模型领域呈现爆发式增长，许多大型模型相继问世，并且很多模型已经投入商用，特别在文本和图片领域已经形成商业的闭环，给用户带来价值。其中，一些产品一旦接入大模型后，我们发现它获得了十倍甚至几十倍的增长，这让我们深信大模型或将为很多行业带来超乎寻常的改变。此外，我们看到，3月份ChatGPT的访问量已达17亿多，量已经很大了。

不过，我们也同时意识到一些问题，比如增长速度已经开始放缓。

这是为什么呢？特别以文本和图片为主的大模型，用户的使用量没有像去年或者前年底大规模的爆发是为什么？我们认为这可能是因为下一个模态的入口尚未完全打开。

什么意思？我们认为，在AI 2.0时代，大模型也开始进入2.0时代。为什么这么说？大模型正从以图文为主的时代，如果将其定义为1.0时代，今年开始逐渐转向以音视频多媒体为载体的2.0时代。

这个趋势与万兴的业务密切相关，因此我们一直在研究和实践这一领域的技术，并关注市场用户的需求。

从数据上看，互联网流量中，80%是视频流量，这与视频数据体积有一定的关系，但也反映了用户偏好，他们更倾向于视频内容。尤其在大模型进行用户调研时，一些公开资料显示，用户最希望大模型能够生成视频，这是用户需求排名前三的项目之一。

因此，用户迫切希望大模型能够协助他们进行视频创作。而万兴正好是视频创意赛道20多年的深耕者，因此责无旁贷地要做音视频生成领域的事。

过去，视频创作是好莱坞导演、剪辑师们的专利。但随着科技发展、手机摄影设备的普及以及AI能力的提升，这让编辑视频变得越来越容易，创作视频的人也越来越多，需求越来越大。

二、Sora至今没有成功商业化，视频模型应用难度与挑战大

一个问题是，这两年，在文本和图像领域的模型比较多，但是视频领域的模型却较少，从一些行业数据上看，视频模型相对文本、图像来讲少之又少。虽然一些视频模型出来了，但面临的问题比文本、图像严峻得多，比如数据、算法、成本，特别是效果。

事实上，视频大模型效果还有很大的提升空间。今年过年期间发布的Sora，被认为是目前效果最好的视频模型，我相信行业第二梯队跟它的效果比起来，有较大的提升空间。

视频模型占比非常少，但我们也开始在应用了，只是说应用的难度和挑战较大。

那么，视频模型为什么应用难度那么大？就像Sora，在今年过年的时候发布了视频，但至今不仅没有商业化，也没有对公众普遍开放的时间点。所以我们认为，虽然大家都在做视频模型，但离商业化还有距离。

鉴于这些原因，我们不禁思考：为什么视频和多媒体方面的工作没有像文字语言模型那样一出来就被大范围使用？

我们认为视频的场景是比较复杂的，无论是它的信息包含量还是表达方式，甚至还要加入时间维度，这都使得视频的表达变得非常复杂。另外，视频制作本身也是一个漫长的过程。

我们的工具主要针对半专业用户，而非专业用户。半专业用户使用我们的工具和海量数据，制作一个视频需要1.6小时，说明整个视频制作是有一定的门槛。

从AI技术的角度来看，视频模型的成熟和应用肯定需要一定的周期。因此，我们一直认为2024年可能会成为AI视频的元年，也就是说，我们相信今年AI视频会越来越多，甚至会有一个爆发的趋势。在这种趋势下，作为音视频领域的一家公司，尤其是为音视频创作者提供赋能的公司，万兴科技感受到了前所未有的机遇。

三、获取视频数据不难，难在转化成大模型可用的数据

目前，公司在全球200多个国家积累了一大批忠实用户。很多用户都在反馈一个问题：为什么我们的产品还没有AI能力，或者为什么还没有那项AI能力？

尽管我们的产品从几年前就开始陆续增加了一些AI功能，但用户的需求远远超过我们提供的速度和能力。因此，我们既感受到机会，也感受到了压力。

同时，我相信老用户对我们公司的了解。在过去的20多年里，我们一直在不断为用户提供当前时代的技术能力和赋能。随着从最早的PC时代到移动互联网时代，再到如今的AI时代，我们一直致力于为用户提供相应的技术赋能。因此，我认为用户对我们也有期待。

对于全球的视频或多媒体创作者，我们有着比较深刻的认知和理解。我们知道，一个视频创作者在什么时候需要什么样的能力和赋能，以便有利于他去创造视频。除了大模型的能力，我们还积累了许多传统算法方面的能力，这些能力在与大模型相结合时，对赋能创作者起到非常大的作用。

在大模型时代，我们原来的能力起了很大的作用，我们将其称之为“数据生产和管理的能力”，也就是对于数据处理的能力。

获取视频数据并不难，但要将其转化为可用于大模型训练的数据，仍然需要一定的成本、时间和技术能力。这正是拥有这样一个平台的好处，可以更好地处理这个问题。同时，我们对算法基础设施的投资，特别是自研的推理训练平台，也为大模型研发提供了更好的支持。

四、今年1月发布音视频多媒体大模型，三大特点支撑商业化落地

基于多年来的基础积累、用户的期待以及这些多年的数据、算法、技术的积累，和对大模型时代的观察，今年年初，也就是1月底，我们发布了自己的多媒体大模型，即“音视频多媒体大模型”万兴“天幕”。

让我简单介绍一下“天幕”具备什么样的特点。

第一，从多模态到多媒体。

如今大家都在提多模态，我们并没有否认多模态，只是从应用和用户认知的角度来看，对于普通视频剪辑用户来说，多模态这个术语有些过于技术化了。因此，我们想要强调的是，多模态实际上是指文字、图片等各种元素的组合。我们的目标是将所有这些多模态元素很好地融合在一起，最终让用户在剪辑视频时产生高质量的多媒体视频。

此外，我们目前在视频模型方面并没有着手最底层的L0模型，而是在L0.5或往上的层级，我们更多地致力于提供垂类解决方案，更多地希望我们的模型能够给用户带来价值，能够解决用户的实际需求。

举例来说，对于多模态和多媒体这两个概念，我们更强调视频中应包含片头、主题、字幕等多个模态元素的融合，形成一个多媒体视频。我们强调的不是多模态的处理能力，而是每个模态最终形成一个视频的融合能力，这是我们的模型想达到的第一个特点。

第二，从通用模型到垂直解决方案。

通用模型像ChatGPT已经存在了很长时间，访问量增长趋缓。使用ChatGPT询问中医问题时，可能得到的答案并不理想。因此我们认为，如果GPT是一个基础模型，就需要在此基础上进行市场化，并解决用户的实际问题，最终创造商业价值。这必须通过解决某些人的某些问题来实现。

在开发“天幕”大模型时，我们重点强调如何提供垂直的解决方案，以解决用户的具体问题。我们不会将通用能力作为一个产品，而是将其与垂直场景结合，形成可用的功能或解决方案。目前这种做法可能是一个较好的商业化解决方案。

第三，在数据、算力、应用方面进行本土化扩充。

大家可能会说，全球的数据都已经有了，为什么还要做这件事？这其实是我们在研究中的一种感受。我记得在去年10月、11月份的时候，当时我们做了一个名为《女孩的一生》的视频。做出来后，很多朋友问我说，你们那个视频为什么前面看起来像一个东方小女孩，到后面老的时候好像变成一个西方老太太？我想这可能就是数据问题。

我们最近又重新做了《女孩的一生》这个视频，ID的一致性和人的ID属性得到了较好的保持，所以数据完整性非常重要。因此，我们说自己是土生土长的面向全球市场的大模型。