AI大模型:多模态技术加速,AI商业宏图正启
1.1 多模态是实现通用人工智能的必经之路
按照处理的数据类型数量划分,AI模型可以划分为两类:
(1)单模态:只处理1种类型数据,如文本等;(2)多模态:处理 2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。
多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:
输入端:1)提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升 通用大模型能力;2)提高用户体验:推理侧更低的使用门槛和更少的信息损耗。
输出端:更实用。1)可直接生成综合结果,省去多个模型的使用和后期整合;2)更符合真实世界生产生活需要,从而实现 更大商业价值。
1.2 多模态大模型框架概览
数据:文本、视觉、声音、触觉、气味等。
算法:通过多模态统一建模,增强模型的跨模态语义对齐能力,打通各模态之间的关系,执行标准化的任务。
应用:办公、电商、娱乐、教育等领域。
1.3 数据:高质量多模态数据有限,合成数据发展或能改善
数据存量有限: 1)根据Epochai,在当前大模型高速发展趋势下,高质量语言数据可能在2026 年之前耗尽,而低质量语言/ 视觉数据存量也可能将在2030~2050/2030~2060年耗尽。2)高质量多模态数据集有限:由于不同类型的标注成本差异大, 视觉等模态数据的收集成本比文本数据高,导致多模态数据集,尤其是高质量数据集通常比文本数据集少得多。
AI合成数据或有望改善数据枯竭问题。1) 与实际数据具有相同的预测特性。2)合成数据获取速度更快,为垂直模型的训练 更快定制数据集。3) 适应多模态模型的数据模态组合,能够扩大所有数据模态存量的组合,有效增加数据存量。
1.4 算法:技术要求更高,LLM发展提供突破口
相比单模态,多模态大模型算法和工程难度更大,在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。
预训练为多模态主流训练方式。由于高质量的多模态标注数据较少,基于Transformer结构的多模态预训练模型逐渐成为主流,通过海量无标注 数据进行预训练,再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势,即设计时原生支持多模态,具有处理不同形式数据的能 力,但各环节难度会更高。23年12月谷歌GEMINI即为原生多模态,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有 效性,行业技术取得进一步突破。
这一波大语言模型发展给多模态带来新突破:1)大语言模型LLM可充当大脑,处理各种模态信息,将其它模态信息对齐到LLM的语义空间。2)大 语言模型在训练方式上给多模态模型提供前进方向参考,如自监督、预训练、上下文学习、指令遵循等。
1.5 算力:需求更大,催化产业新机遇
多模态大模型对算力的需求高于单模态。一般在同样信息量情况下,文字数据量<图片数据量<视频数据量,多模态大模型 需处理的数据量更大,再加上训练工程上难点更多,对应算力需求更高。参考前深度学习时代向深度学习时代过渡,以及 从“大炼模型”进入“炼大模型”切换之后,算力需求均有明显提升。根据机器之心,谷歌Gemini有万亿参数,训练动用 的算力是 GPT-4 的五倍。
未来随着算力需求的进一步提升,芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。
1.6 多模态是AI时代真正的商业宏图起点
2B:更符合真实世界生产需要,有望提高电商、营销、金融、教育等行业的生产力,真正为企业降本增效(我们在此前AI应用系 列深度报告中已有较详细分析,此处不多赘述);企业可将节省的成本用于提高产品/服务质量或者技术创新,推动生产力进一步 提升。
2C:多模态大模型发展带来技术平权,C端内容创作达到一个成本与质量更优的均衡点,或出现新的空间更大的UGC平台。过去 UGC平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量会增加十倍,对应平台用户规模 也会大幅增加。图像、视频、音频、3D资产等多模态技术进一步发展有望驱动AIGC时代真正到来。
2.1 视觉模型:数据与算法同步发展,图像生成引领方向
数据与算法往往同步发展,大型高质量数据集是模型突破重要基础,算法突破推动爆款应用出现。
现阶段多模态数据大多需要先用文本标注而非直接用于训练,相比文本数据集,图文对、视频文字对等数据集获取和标注工作量更大,大型高质量数据集的出现将为领域内 算法突破奠定基础。
算法在泛化性(21年CLIP,似GPT3时刻)、可提示性(22年Flamingo,似chatgpt时刻) 、生成质量和稳定性(2021年扩散算法)等突破将推动技术拐点到来及爆款应用出现。
2D图像生成引领视觉模型前进方向。由于2D图像生成在数据、算法、算力等方面是视觉模型中要求相对较低的领域,因此更容易实现技术突破,更早出现爆款应用(如 Midjourney、dalle3),其也为3D资产生成、视频生成等领域提供技术参考。但考虑到后两个方向算法未完全收敛,尚未进入“大炼模型”阶段,距离真正的技术和应用爆发 拐点还需要一定时间。
2.1 视觉模型:数据与算法同步发展,图像生成引领方向
图像模型领域已具备大规模高质量的公开数据集,驱动文生图技术加速发展,也为其他视觉模型提供帮助。2021年LAION-400M数据集发布,大小 接近此前已有的私有图文对数据集CLIP,2022年5B版本发布,是目前已知且开源的最大规模多模态数据集,已用于训练当前最先进的文本-图像 模型,包括Stable Diffusion等。其他类型视觉模型中也会采用图文对数据集进行训练。
视频领域已有上亿规模的高质量数据集,期待加速行业发展;3D领域则仍有待突破。
视频领域:2021年HD-VILA数据集实现规模、质量、多元性突破,数据集包含来自300万个视频中1亿个视频文本对,视频时长合计37万个小时, 所有视频分辨率720p VS 主流视频文本数据集分辨率240p/360p;涵盖YouTube15个最流行的视频类别,如体育、音乐、汽车等。
3D资产领域:数据集规模仍较小,尚未出现上亿规模的数据集,仍待突破。
2.1.1 视觉理解:CLIP模型提供重要泛化能力
视觉理解模型可分为:
(1)双塔模型:浅层语义交互。对文本和图像分别编码后再输入多模态编码器,如CLIP。优点是适合检索任务,可检索大 量文本与图像,缺点是不足以处理复杂分类任务。
(2)单塔模型:深层语义交互。先将文本特征和图像特征连接后统一输入到多模态编码器,如 ViLT,优点是可以充分将多模态信息融合,更擅长分类任务以及需要强交互的多模态理解任务,但不适合检索。
(3)混合模型。
重要模型1——CLIP(2021年发布),第一个可通过零样本和少样本学习推广到多个图像分类任务的模型。传统的视觉数据集创建成本很高,且任 务泛化性差。OPEN AI创建了一个包含4亿图文对数据集,并借助大规模自然语言监督训练CLIP 模型,将不同模式、文本和图像的数据映射到共享 向量空间,实现了可以用自然语言指示进行大量的分类基准,即 “Zero-Shot”能力(将ImageNet上的zero-shot分类精度从11.5%提升到76.2%) 。CLIP可识别图像、生成图像、回答与图像相关的问题,搜索与文字描述相符的图像,且其结构松散耦合,在保证学到多模态表征的基础上可随 意拆分,从而将Encoder模块很好用到其他模型或者任务上,如Flamingo和LLaVa使用CLIP作为图像编码器, DALL-E用CLIP筛选生成的图像。
2.1.1 视觉理解:Flamingo推动预训练+微调 转向 预训练+prompt
重要模型2——Flamingo(2022年发布),在广泛的开放式多模态任务中建立了少样本学习新SOTA。DeepMind发布的Flamingo架构中包括一个预 训练语言模型(DeepMind的Chinchilla)+预训练Vision Encoder(DeepMind NFNet-F6,采用CLIP对比损失在图像文本对数据集上预训练的) +Perceiver Resampler模块实现最终输出固定长度特征。Flamingo可在多种开放式视觉和语言任务中实现快速学习(文本描述补全、VQA / TextVQA、OCR、数学计算、文本描述、物体计数、语言文本混合理解、人物常识等等),不需要微调,同时在大部分多模态任务上能实现和 GPT-3 一 样的 In-context few-shot推理能力。在众多基准测试中,Flamingo 的表现优于在数千倍于特定任务数据的基础上进行微调的模型。根据机器之 心,行业内推测OPEN AI最新发布的多模态模型GPT4-V是一个类似 Flamingo的架构。
2.1.1 视觉理解:SAM,用prompt分割一切重要模型3——SAM(2023年发布),第一个致力于图像分割的基础模型,零样本分割一切。图像分割是 计算机视觉的核心任务之一,是指识别目标、并沿目标边缘进行区域分割的技术,此前方法大致分为: 1)交互式分割,允许分割任何类别的对象,但需要专家通过迭代细化掩码指导该方法。2)自动分割, 允许分割提前定义的特定对象类别,但需要大量手动注释对象训练。SAM 模型的可提示界面允许用户以 灵活方式使用,只需为模型设计正确的提示prompt就可完成范围广泛的分割任务。
META受到语言模型中prompt的启发,训练了基于prompt的视觉 Transformer(ViT)模型,视觉模型是 在一个包含来自1100 万张图像的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的。SAM 可以为任何 prompt(点击、boxes、文本等)返回有效的分割掩码,完成范围广泛的分割任务。
Meta 预计,与专门为一组固定任务训练的系统相比,基于 prompt 工程等技术的可组合系统设计将支 持更广泛的应用,SAM 可成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件,如 SAM 可 以通过 AR 眼镜识别日常物品,为用户提供提示。但由于 SAM 中的 ViT-H 图像编码器参数较大,实际 使用的计算和内存成本还较高。
2.1.2 视觉生成:文生图技术开始收敛至扩散算法,应用有望加速
主流生成算法包括VAE、GAN、Diffusion等,生成算法与视觉理解算法可实现多种组合关系。如OPENAI 经典文生图模型DALLE包括三个独立训练的模 型:dVAE(decoder),Transformer(encoder)和CLIP(筛选)。
目前2D图像生成是相对成熟的应用方向,一方面受益于大规模公开数据集和表征模型等基础环节的进步,另 一方面也受益于生成算法中扩散模型的突破。目前基本大部分文生图模型/应用的decoder环节都用 Diffusion扩散算法,如DALLE 2 & 3(OPENAI)、Stable Diffusion(stability.ai)、Midjourney等。
2.1.2 2D图像生成:开源模型引领生态,闭源应用飞轮加速
海外文生图应用已初显生态,可分为开源模型和闭源应用两类。
基于开源模型stable diffusion的开发者生态百花齐放。Stability.ai的开源模型Stable Diffusion加上LoRA等插件即可实现用少量图片训练文生 图模型。根据智源社区, Stable Diffusion已有超过 20 万开发者下载和获得授权,各渠道累计日活用户超过 1000 万。团队开发的付费在线平台 DreamStudio获得超过 150 万用户,生成超过 1.7 亿图片。很多垂类文生图应用,如专注二次元形象生成的 NovelAI、专注头像生成的 Lensa、AI写 真的妙鸭都是在Stable Diffusion 微调得到。
闭源应用兼顾使用门槛及生成效果,数据飞轮效应开始体现。Midjourney、Dalle、adobe Firefly等应用只需输入prompt即可输出精美图画,无需 微调,做到使用门槛和生成效果的平衡。其中Midjourney是先于Stable Diffusion推出的基于扩散模型的应用,有一定先发优势,通过不断收集用 户反馈数据(每次生成4张图片,用户可以让模型再次修改任意图片),反向推动技术迭代,提供更好的产品体验,实现数据飞轮效应。截至 23/12/13,服务器成员数量超过1700万人,是Discord上最大服务器;根据海外独角兽,其年收入已超过1亿美金。
2.1.2 DALLE3 vs Midjourney vs Firefly vs Imagine测试对比
AI文生图应用测试对比:
DALLE 3:OPEN AI表示“比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像”。我们实测中语义理 解能力优秀(OPENAI强项);但图片细节、构图、精美程度相对较弱。
Midjourney:公司参考 CLIP及Diffusion,抓取公开数据训练的模型。我们实测中画面精美程度和细节表现佳,语义理解能力不如DALLE3。
Adobe Firefly:集成到Photoshop中,支持多人协作、在线评论等。我们实测中语义理解能力最弱;但写实表现优,构图、色彩能力突出。
META Imagine:基于Meta的Emu学习模型, Emu是使用11亿图像-文本对数据集对28亿参数的UNet进行预训练得到,再使用几千张高质量图像进 行质量微调提高模型效果。我们实测中生成效果中等,但产品功能较少难以对同一张图片进行后续调整。注:受测试次数限制,对比结果仅供参考,可能与实际情况存在差异
2.1.2 商业模式:成本仍有优化空间,通用类应用盈利领先
2D图像生成模型训练成本可控,推理成本有下降空间:
训练成本低于通用大模型:Stable Diffusion训练成本60万美元,对比GPT3单次训练成本460万美元;
推理成本:Midjourney生成一张图片成本约0.5美分,未来随着模型成熟及底层硬件迭代,推理成本有望进一步下降。
其他费用:以Midjourney Discord服务器为例,Discord额外收取约10%的手续费。
文生图产品基本采用订阅制变现,但受众差异带来不同的盈利难度。
初步验证模式跑通的是Midjourney,定价模式高于开源模型(完全能覆盖成本),22年8月已实现盈利,主要面向有文生图刚性需求、付费意愿较强的用户,如专业设计师 、电商从业者等。即使是人力成本相对较低的国内,商家找淘宝模特拍一张商品图片成本可能在200-500元左右,相比之下Midjourney更有性价比。– Midjourney技术快速迭代,不断逼近开源模型调优后的表现,同时通过功能扩展给予创作者更大的发挥空间。– Adobe Firefly、DALLE 3等在生态上更胜一筹,未来技术进一步改进后亦有可观前景。
开源模型生态价值>变现价值:Stable Diffusion面向中小创作者或者创业团队,每月价格5-15美金,定价低但客户付费持续性较差,部分客户调优出自己的模型之后会流 失,目前仍处在亏损状态。
众多垂类文生图应用,短期盈利或不是难点,核心问题在于用户留存,如Lensa、妙鸭等垂类文生图应用都在短时间内出现用户数和流水爆发,但较窄的应用范围加上需求
2.1.3 视频生成:可类比图像生成的2021年,期待24年发展
视频生成包括文生视频、图生视频等。相比图像生成,视频生成模型训练面临更多难点:1)算力和存储需求高: 视频比图像更大,训练时需更 大GPU内存,推理时生成大量帧,确保帧间空间和时间一致性会产生长期依赖性,计算成本更高。2)大规模高质量数据集仍较少;3)技术复杂 ,控制难度高。需考虑流畅性、动作、逻辑问题;涉及到更多空间维度,当视频很长时,确保每一帧都协调一致相当复杂;prompt过于简单难以 为每一帧都提供详细的描述。
2023年以来技术加速突破,2024年或有望取得更大发展。1)2021年受GPT3和DALLE启发,行业开始采用Transformer 架构,出现了Make-a-video 等只需prompt即可生成视频的模型;2)2022年扩散模型从图像扩展到视频领域,相关研究论文数量从22年的14篇显著增加至23年前10个月的103 篇,23年GEN-2、PIKA1.0等视频模型效果取得明显突破,开源玩家入场,共同推动视频生成行业加速发展。虽然由于数据、算法等难点,行业技 术仍未收敛,生成效果仍有提升空间(仍有生成痕迹,流畅度/清晰度/时长/动作复杂度不够),但我们认为视频生成的2022-2023年可类比2D图 像生成的2021年(已有上亿规模的数据集、扩散模型取得突破),且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业 或取得更大的发展。
2.1.3 视频生成:W.A.L.T新框架或带来技术突破口
12月12日,李飞飞及其学生团队与谷歌合作,推出AI视频生成模型W.A.L.T(窗口注意力潜在Transformer ,Window Attention Latent Transformer),可以以每秒8帧的速度生成512 x 896分辨率的视频,支持文生视频、图生视频、和3D相机拍摄视频等方式。
W.A.L.T将Transformer 与扩散算法结合,同时改善计算成本和数据集问题。Transformer在处理视频等高维数据时成本过高,W.A.L.T将 Transformer架构与潜在扩散模型(Latent Diffusion Models,LDM)结合,在一个共享潜在空间中压缩图像和视频,一方面降低Transformer 的计算要求,提高训练效率;另一方面能同时在图像和视频数据集上进行训练(W.A.L.T使用来自公共互联网和内部来源约970M文本-图像对, 和约89M文本-视频对的数据集),有望为视频生成模型训练增加可用数据集。
团队基于W.A.L.T训练了三个模型的级联(Cascade),用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型、两个视频超分辨率扩 散模型,实现了无需使用无分类器指导的情况下,在视频生成基准UCF-101和Kinetics-600、图像生成基准ImageNet测试上SOTA 。
2.1.3 视频生成:格局尚早,期待各类玩家共同推动行业前进
目前在视频生成领域表现较好的是runway、pika等独角兽,在语义理解能力、生成的视频画质、精美程度、画面一致性等方面有各自的优劣势。
开源派玩家Stablility ai也推出了开源视频生成模型Stable Video Diffusion,有望推动视频生成领域的开发者生态繁荣。
科技大厂亦加速布局,如META推出Emu Video、李飞飞团队联合谷歌推出的W.A.L.T等;OPENAI虽暂时未有直接布局,但我们认为只是时间问题,未 来其若入局将进一步推动行业加速发展。
2.1.3 视频生成:Runway技术领先,具备商业化潜力
多年深耕AI视觉领域,实现技术领先。Runway成立于2018 年,合伙人是三位来自纽约大学 Tisch艺术学院ITP项目的研究生同学。Runway从创立 之初的ML模型平台到转型成AI Tools工厂,过程中基于视频抠图类的AI Tool打造一套云原生的视频编辑工具,并在寻找图像生成方法时发现 Diffusion模型并构建Stable Diffusion早期版本,后又于23年先后推出视频生成模型Gen-1和Gen-2。Runway既保持对行业前沿技术的敏锐度, 又能坚定自研,从而保持在视觉生成模型领域的相对领先。
随着模型更加成熟,商业化潜力有望进一步释放。Runway目前提供免费试用版和付费版(15~95美金/月),对于专业视频制作方而言,传统视频 后期团队一个资深编辑后期制作费用250 美元/小时,一个只负责抠图的编辑费用60-80 美元/小时, 而Runway可为其节省几个小时甚至几天的 工作;而随着技术更加成熟及算力成本下降, Runway有望吸引更多非专业用户。自11月对Gen-2进行重大更新以来, Runway APP的日活和收入 数据均有明显增长,我们认为其商业化潜力未来有望进一步释放。
2.1.4 3D资产生成:在视觉生成模型中相对早期
3D资产生成具有广阔的应用空间,如智能3D打印生成、虚拟现实设备、元宇宙生成等。目前3D生成技术包括NeRF(神经辐射场) 、GAN、 DIFFUSION等,主要难点包括:1)缺少大量高质量的3D数据集。2)算力要求更高。每次优化所需迭代次数更多,耗时耗力,如22年11月英伟 达推出的Magic3D模型生成单个3D网格模型可能需长达40分钟,而midjourney一般10秒钟左右即可生成4张图片。3)技术难点更多。3D模型远 比2D图像复杂,且必须具备从不同角度看物体形状的一致性,更容易出现常识性问题,如AI生成的3D对象有多个头或者多个面。
受益于扩散模型等生成算法发展及文生图成功应用的出现,2022年以来的Magic3D、Point-E等3D生成模型技术上有所突破,但在生成效率及精 度上仍未找到平衡点,在视觉生成模型中属于相对早期的领域。如Magic3D分辨率比DreamFusion提升8倍,但完成一次渲染仍需40分钟;OPEN AI的Point-E通过使用点云模型极大提升生成效率,只需单个GPU用1~2分钟即可完成,但精度相对有所降低。
2.2 听觉模型:数据仍有缺口,23年以来技术有所突破
听觉模型可分为音频识别与音频生成两大方向,其中识别技术已相对先进,生成可分为语音生成、音色转换、音乐生成和音效生成等。
现有训练数据集范围较窄,规模有限。由于声音信号有自由度高、动态化特点,生成连贯、高质量音频需依靠大量文本-音频数据进行训练。
语音:主要来自开源数据集、企业自有数据等,但方言、小语种等低资源语音数据,用于语音翻译全流程对齐的标注数据仍然较少。
音乐:考虑到版权问题,大多与音乐版权公司合作获取,如Stable Audio与AudioSparx合作,MusicGen与ShutterStock及其子公司Pond5合 作。但也因此高质量数据较少,如23年推出的Stable Audio训练数据包括超过80万条音频文字对,谷歌的MusicLM为5500个音乐-文本对, 相比视觉数据集明显较少。
受大模型及扩散模型等工作的启发,音频生成算法2023年以来取得进一步突破,其中音乐生成技术相对更加复杂,开源模型的出现有望推动行业 前进。
2.2.1 语音合成:23年在泛化性、生成质量上取得突破
23年以来,语音生成TTS领域算法亦开始受益于GPT和扩散模型等技术,在泛化性、生成质量上取得突破。
TTS主流方法包括基于统计参数的语音合成、波形拼接语音合成、混合方法及端到端神经网络语音合成,其中基于参数的语音合成包含隐马尔可夫 模型(HMM)以及深度学习网络(DNN)。
过去TTS系统存在泛化能力差、生成音频机器感过重等问题,进入23年以来,行业开始出现类似自然语言领域的GPT和视觉领域的扩散模型等技术的 尝试,并取得了较好的表现。1) 1月微软发布的VALL-E是第一个基于语言模型的TTS框架,利用海量的、多样化的、多speaker的语音数据(训练 数据数百倍于以往TTS系统),实现zero-shot最优表现。只需提供三秒的音频样本即可模拟输入人声,并根据输入文本合成出对应的音频,而且还 可以保持说话者的情感基调;2)5月微软发布NaturalSpeech2,利用扩散模型实现了 zero-shot 的语音合成,并改善了VALL-E丢音多音等问题。
2.2.2 音乐生成:难度更大,期待开源模型推动行业前进
音乐生成模型比语音生成更复杂:需对长序列进行建模,捕捉音乐全频谱;需更高采样率(音乐44/48 kHz VS 语音16 kHz);包含来自不同乐 器和声和旋律,结构复杂;需避免旋律错误;对创作者而言需要音调、乐器、旋律、音乐风格可控。
行业最新模型亦受到Transformer和扩散算法技术影响,期待MusicGen、Stable Audio等开源模型带动行业技术前进。23年微软建立在 Transformer模型上的MusicGen实现较好的生成质量;Stability.ai的Stable Audio实现音质进一步突破、更高的音频采样率、在90秒长度上 保持连贯性(VS其他人工智能模型在几秒后演变成随机、不和谐噪音),推理时间也有所减少(可在Nvidia A100显卡上以不到一秒的运算时间 渲染生成音频),两个模型都是开源模型,有望推动行业开发者生态繁荣,推动技术进一步突破。
商业化:可为企业/内容制造商/娱乐应用提供高性价比的音乐作品,或基于娱乐属性向C端收费。如利用AI技术生成功能音乐的初创公司Endel ,截至2022年8月,已拥有超过8万每月听众,其音乐已经进入了Spotify的一些氛围音乐播放列表;澳大利亚AI音乐生成产品Splash中,用户可 通过点击代表节拍、循环和音效的网格来创作歌曲,其登陆游戏平台Roblox的半年后玩家数量便达到2100万人。
2.3 具身智能:相对远期,AI+机器人实现与现实世界交互
具身智能多指有类人身体并支持物理交互的智能体,如家用服务机器人、无人车等。具身智能是最为复杂的多模态能力, 不仅要具备理解和推理能力,还要能够接受视觉、触觉等多模态的信息,同时对物理机械技术和工程等也提出要求。目前 尽管已有多种机器人与软硬件设备出现,但还只是较为简单的机械控制系统与AI技术的结合。
随着多模态模型的视觉感知与推理能力不断增强,可集成至机器人硬件系统,具备与现实世界交互的功能。GPT4V目前已 支持泛化的空间感知与推理能力,如模拟家用机器人并完成居家任务等;PaLM-E能够支持机器人控制规划任务。未来随着 多种模态的进一步整合,机器人设备能够实现集视觉、触觉、听觉为一体的完整具身智能。
3.1 海外:OPENAI和谷歌领先,垂类独角兽加速行业发展
OPENAI和谷歌在多模态领域布局广度和技术先进程度上都处于领先地位,且都推出了表现较好的通用多模态大模型。在垂类领域 上,OPENAI在文生图等技术已接近拐点的方向表现较好,而谷歌在3D资产生成等技术还处于较早期的方向表现较好。
Stability.ai、 midjourney、runway等公司在部分生成领域保持领先,这些独角兽对行业技术突破和产品创新发挥了重要作用, 加速孵化爆款应用。
3.1.1 OpenAI:多模态能力不断增强,技术与应用正循环
OpenAI是多模态大模型领头军,在LLM能力基础之上持续增强多模态能力,并注重与chatgpt生态的融合,技术与应用双向驱动。
2023年10月,GPT-4 新增了视觉功能:1)实现准确且低门槛的识别、判断与推理,与外部工具与插件无缝集成,有望实现更多创新和协作应用。如根据医学图像生成诊断报告,引用先前医学扫描和诊断历史提升诊断效率。2)推出视觉参考提示功能,强化C端个人助理职能。如用户可在图像 中用箭头或圈进行标注,指示GPT4V进行聚焦性推理回答。3)具备情感理解与美学判断能力,展现情感意识人机交互的潜力。
文生图模型DALL·E不断迭代:23年9月迭代至第三代,简化用户提示词学习过程,在图像表现力方面有明显提升,与MIDJOURNEY差距明显缩小。
多模态功能集成于ChatGPT体系中,有望增强技术与应用的正循环:ChatGPT已基于Whisper、GPT4V、DALL-E·3推出语音和图像多模态功能,支持 用户直接与ChatGPT进行语音对话、图像问答和图像生成,在提升用户体验的同时也有望积累更多数据及反馈帮助模型能力提升。
3.1.2 Google:2023年底推出多个多模态模型,推动行业技术加速
3.1.3 Meta:擅长图像模型,建设开源生态◼
META在图像模型领域的技术积淀相对较多(数据优势+原有算法优势),推出的视觉大模型DINOv2、图像 分割SAM等均有较好表现。
META在大模型领域选择开源路线(如Opt是业内首次开源的大规模预训练模型),通过生态建设追赶头部 玩家。
3.2 国内:海外开源有利于国内追赶,技术与应用同步发展相比英文多模态数据集,中文多模态数据集仍有提升空间。以图文对数据集为例:
英文数据集难以很好满足中文需求,如在蒸馏多语言版本Multilingual-CLIP (mCLIP)中搜索“春节对联”,返回的是圣诞相关的内容。
2022年华为诺亚开源国内首个亿级中文多模态数据集悟空,随后阿里达摩院发布2亿规模的Chinese-CLIP,训练图文绝大部分来自公开数据 集,大大降低了复现难度,推动中文图像生成模型的发展。但相比英文数据集(CLIP和LAION-400M 4亿图文对、LAION-58B 23亿图文对), 中文数据集仍有提升空间。
国内算法相对落后,算力方面亦有劣势,但海外算法开源(如META等)有利于国内技术追赶;考虑到中国科技公司在产品运营和迭代方面实 力更强,技术与应用有望同步发展。
3.2 国内:海外开源有利于国内追赶,技术与应用同步发展
国内科技大厂(百度、阿里巴巴、字节跳动、腾讯等)及大模型公司(昆仑万维、科大讯飞、商汤等)均积极布局多模态,并有望结合自身应用生 态优势进行商业变现。如阿里巴巴应用在电商领域,腾讯应用在营销领域,昆仑万维应用在AI游戏、AI音乐等领域。
万兴科技、美图等AI视觉应用公司亦有望受益于底层技术进步,特别是其海外应用。以美图为例,12月发布自研大模型Miracle Vision 4.0版本, 拥有AI设计与AI视频两大新能力,并将于2024年1月陆续应用于美图旗下产品。目前Miracle Vision的视频生成能力已能融入行业工作流,尤其是电 商和广告,MV4.0的迭代加速将推动公司向生产力场景应用渗透,助力行业工作流提效。
总结:
多模态:AGI必经之路与商业宏图起点。
(1)多模态是实现通用人工智能的必经之路。模态数据输入可帮助模型能力和用户体验提高,允许多模 态数据输出也更符合真实世界需要。在数据、算法及算力上的要求都要高于单模态,这一波自然语言大模型发展为其他模态提供技术参考,行业 有望加速发展。
(2)多模态是AI商业宏图起点。多模态大模型有望真正为企业降本增效,且企业可将节省的成本用于提高产品/服务质量或者技 术创新,推动生产力进一步提升;C端技术平权下内容创作有望达到一个成本与质量更优的均衡点,或出现新的、空间更大的UGC平台。
多模态大模型的技术脉络与前进方向:
(1)视觉模型:数据与算法往往同步发展,大型高质量数据集是模型突破重要基础,而近年视觉算法在泛 化性、可提示性、生成质量和稳定性等方面突破将推动技术拐点到来以及爆款应用出现。其中2D图像生成引领视觉模型前进方向,由于2D图像生 成是视觉模型中要求相对较低的领域,因此更容易实现技术突破,也出现了midjourney这类爆款应用,其兼顾使用门槛及生成效果,数据飞轮效应 开始体现。文生图成本仍有优化空间,其中通用类应用由于需求相对刚性且有较强的付费意愿,盈利领先。3D资产生成、视频生成等领域受益于 扩散算法成熟,但数据与算法难点多于图像生成,其中视频生成当前可类比2D图像生成的2021年(已有上亿规模数据集、扩散模型取得突破), 且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业或取得更大的发展。3D资产生成则相对更加早期。
(2)听觉模型 :数据仍有缺口,23年以来技术有所突破。未来技术成熟后可为企业/内容制造商/娱乐应用提供高性价比的音乐作品,或基于娱乐属性向C端收费 。
(3)具身智能:相对远期,AI+机器人实现与现实世界交互。
海外技术领先,国内技术与应用同步发展。
(1)海外:OPENAI和谷歌在多模态领域布局的广度和技术先进程度上都处于领先地位,且都推出了 表现较好的通用多模态大模型。而Stability.ai、 midjourney、runway等垂类独角兽也对技术突破和产品创新发挥重要作用。
(2)国内:国内数据、 算法、算力均有劣势,但海外算法开源有利于国内技术追赶;考虑到中国科技公司在产品运营和迭代方面实力更强,技术与应用有望同步发展。 国内大厂及大模型公司均积极布局多模态,有望结合生态优势进行变现;万兴科技、美图等AI视觉应用公司亦有望受益于底层技术进步。
报告出品方:东吴证券,本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。