2024年2月16日,人工智能公司OpenAI发布首款文生视频大模型Sora,该模型可以快速生成60秒、准确反映用户提示的视频,再次惊艳全球。
这是在ChatGPT大模型之后,OpenAI带给我们的再次震撼,在这短短的一分钟视频中,文本主题清晰,场景复杂精细,视频逻辑顺畅,标志着文生视频大模型能力进一步提升。
这种超预期能力的展示,也就怪不得微软、英伟达、AMD、超微电脑等人工智能相关公司,在进入2024年以后还有亮眼的表现。
自从2023年下半年以来,从谷歌Gemini增加多模态功能,到Adobe 的Firefly2多模态大模型,再到OpenAI这次发布的Sora大模型,我们看到各大人工智能巨头聚集多模态视频生成领域。
那么,多模态视频生成大模型都有哪些亮点?
作为人工智能大模型,多模态大模型能够处理和理解文本、图像、音频等多种类型的数据,通常具有庞大的参数量和深度学习能力,最终能够按照用户需求生成相应的内容。
近几年以来,文生图的技术已实现大幅的进步,海外公司Stable Diffusion、 Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心一格也已经投入商用。
随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐增加。近3年时间,以Runway为代表的文生视频初创公司不断涌现,谷歌、Meta、微软等互联网巨头同样参与其中,国内目前文生视频技术也紧跟其后。
不过,Sora之前的文本生成视频模型仍然存在许多技术难点,生成效果还无法达到应有的效果,视频模型训练难、数据建模复杂以及文字理解不到位的多种情况都影响了生成视频的最终效果。
现在,得益于DALL·E3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora模型不仅能够生成满足特定要求的视频,而且能够展示出拍摄镜头的成熟运用。
从Sora模型生成的视频效果来观察,我们可以得出一个结论:通过大量视频数据的持续训练,这个视频模型已经理解和学会了现实世界中的许多规律。
当然,现实世界是复杂多变的,当前的模型在模拟复杂场景的效果方面,仍然可能会遇到难题,模型仍然还有继续进步的空间。
不过可以预期的事实是:能够理解和模拟现实世界的模型越来越近了,实现真正的通用人工智能AGI并不遥远。
那么,多模态视频生成模型的发展前景又有多大呢?
对于视频生成模型这个新事物来说,我们一方面震撼于技术的快速进步,另一方面也要考虑市场应用前景如何。
视频制作市场非常庞大,从广告宣传到教育培训再到娱乐媒体等方面都有着足够的市场规模。市场研究显示,全球视频制作市场规模已经超过1000亿美元,而且还在不断增长。
以我们国家为例,2016年到2022年,我国视频制作市场规模分别为19.0亿元、55.3亿元、467.1亿元、1302.4亿元、2051.3亿元、2884.9亿元和3860.7亿元,市场规模增长迅速。
对于视频制作市场来说,无论是全球范围内,还是国内视频制作市场规模,都已经达到数千亿元规模,而且呈现出逐年增长的趋势,可以说市场空间充足。
那么对于视频生成模型来说,能否成功商业化的关键,除了视频效果以外,更重要的因素自然就是视频制作成本是否有优势了。
对于国内市场来说,比较尴尬的普通用户付费意愿偏低,企业端客户的需求高度个性化,会有很多自身定制化的场景,需要业内公司针对不同客户的产品需求去打造相应的生成方案,这对公司实力有很高的要求,长期看大公司可能具备更强的商业化落地场景。
那么,国内都有哪些公司的业务涉及视频生成大模型呢?回顾A股上市公司,万兴科技、因赛集团、当虹科技、东方国信、虹软科技、东虹科技、丝路视觉等公司都有过视频生成方面的消息。不过,我们还是要看谁能真正体现在营收数据中。
万兴科技,公司主营视频创意、绘图创意类软件产品,公司旗下天幕大模型以视频创意类AI技术为核心,拥有音频、图像、视频等多模态内容生成能力。受益于AIGC发展,公司近5年业绩快速增长。2018至2022年公司营收由5.46亿元增长至11.8亿元,年复合增速达21.25%;2023年前三季度实现营收10.96亿元,同比增长30.69%,继续保持快速增长的势头。
1月30日,公司发布了《2023 年度业绩预告》。2023年预计归母净利润实现盈利7500-10000万元,同比增长81.80%-142.39%;扣非归母净利润为7800-10500万元,同比增长636.06%-890.86%。改变了前两年增收不增利的局面。2018年至今,公司综合毛利率稳定在95%左右,属于竞争优势明显的轻资产公司。也正是为了保持行业竞争优势,公司近年来持续保持高研发投入,2023前三季度研发费用为3.0亿元,研发费用率为 27.45%。
2024年1月份,公司以15亿创作者及100亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,发布了“天幕”大模型,聚焦数字创意垂类创作场景,让大模型应用落地更有针对性、更具实效。发布会现场重点展示了包括文生主题视频、文生3D视频、AI歌手、视频AI配乐、数字人播报等在内的多媒体能力,具备商业化可行方案。
发布会当天,公司还宣布和中广天择达成战略合作,与华为云、马投算力(长沙马栏山投资开发建设有限公司)达成算力方面的合作,打通多媒体大模型和算力领域的软硬件战略合作,也为公司大模型应用落地获得了宝贵的算力资源。总的来说,人工智能属于技术密集、资金密集型行业,最终往往是业内大公司更容易坚持到盈利周期的带来,我们也持续关注行业的技术进程。