概念圈|多模态技术迭代提速，AI商业化进一步，多模态AI产业初探（附股）

前言：作为AI新规，多模态的火热程度无需多言，本篇就将系统梳理多模态的产业链

一，认识多模态

按照处理的数据类型数量划分，AI模型可以划分为两类：

1）单模态：只处理1种类型数据，如文本等；

2）多模态：处理2种及以上数据，可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态，多模态大模型在输入输出端的优势明显。

二，多模态产业链

多模态框架的上游是数据，中游是多模态算法，下游是各项应用。

数据：文本、视觉、声音、触觉、气味等。

算法：通过多模态统一建模，增强模型的跨模态语义对齐能力，打通各模态之间的关系，执行标准化的任务。

应用：办公、电商、娱乐、教育等领域。

1.数据：高质量多模态数据有限，合成数据发展或能改善。

根据Epochai，在当前大模型高速发展趋势下，高质量语言数据可能在2026 年之前耗尽，而低质量语言/视觉数据存量也可能将在2030~2050/2030~2060年耗尽。AI合成数据或有望改善数据枯竭问题。

2.算法：技术要求更高，LLM发展提供突破口

相比单模态，多模态大模型算法和工程难度更大，在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。这一波大语言模型发展给多模态带来新突破，大语言模型LLM可充当大脑，处理各种模态信息，大语言模型在训练方式上给多模态模型提供前进方向参考，如自监督、预训练、上下文学习、指令遵循等。

多模态大模型对算力的需求高于单模态。未来随着算力需求的进一步提升，芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。

三，产业现状

1.多模态是AI时代真正的商业宏图起点

2B：更符合真实世界生产需要，有望提高电商、营销、金融、教育等行业的生产力，真正为企业降本增效（我们在此前AI应用系列深度报告中已有较详细分析，此处不多赘述）；企业可将节省的成本用于提高产品/服务质量或者技术创新，推动生产力进一步提升。

2C：多模态大模型发展带来技术平权，C端内容创作达到一个成本与质量更优的均衡点，或出现新的空间更大的UGC平台。

2.海外：OPENAI和谷歌领先，垂类独角兽加速行业发展

OPENAI和谷歌在多模态领域布局广度和技术先进程度上都处于领先地位，且都推出了表现较好的通用多模态大模型。在垂类领域上，OPENAI在文生图等技术已接近拐点的方向表现较好，而谷歌在3D资产生成等技术还处于较早期的方向表现较好。

3.国内：海外开源有利于国内追赶，技术与应用同步发展

相比英文多模态数据集，中文多模态数据集仍有提升空间。国内算法相对落后，算力方面亦有劣势，但海外算法开源（如META等）有利于国内技术追赶；考虑到中国科技公司在产品运营和迭代方面实力更强，技术与应用有望同步发展。

4.海外开源有利于国内追赶，技术与应用同步发展

国内科技大厂（百度、阿里巴巴、字节跳动、腾讯等）及大模型公司（昆仑万维、科大讯飞、商汤等）均积极布局多模态，并有望结合自身应用生态优势进行商业变现。如阿里巴巴应用在电商领域，腾讯应用在营销领域，昆仑万维应用在AI游戏、AI音乐等领域。

万兴科技、美图等AI视觉应用公司亦有望受益于底层技术进步，特别是其海外应用。以美图为例，12月发布自研大模型Miracle Vision 4.0版本，拥有AI设计与AI视频两大新能力，并将于2024年1月陆续应用于美图旗下产品。目前Miracle Vision的视频生成能力已能融入行业工作流，尤其是电商和广告，MV4.0的迭代加速将推动公司向生产力场景应用渗透，助力行业工作流提效。

四，细分赛道

1.视觉模型

数据与算法往往同步发展，大型高质量数据集是模型突破重要基础，算法突破推动爆款应用出现。2D图像生成引领视觉模型前进方向。2D图像生成引领视觉模型前进方向。

图像模型领域已具备大规模高质量的公开数据集，驱动文生图技术加速发展，也为其他视觉模型提供帮助。视频领域已有上亿规模的高质量数据集，期待加速行业发展；3D领域则仍有待突破。

1）视觉理解：CLIP模型提供重要泛化能力

视觉理解模型可分为：双塔模型、单塔模型和混合模型。

重要模型1——CLIP（2021年发布），第一个可通过零样本和少样本学习推广到多个图像分类任务的模型。

重要模型2——Flamingo（2022年发布），在广泛的开放式多模态任务中建立了少样本学习新 SOTA。

重要模型3——SAM（2023年发布），第一个致力于图像分割的基础模型，零样本分割一切。

2）视觉生成：文生图技术开始收敛至扩散算法，应用有望加速

目前2D图像生成是相对成熟的应用方向，一方面受益于大规模公开数据集和表征模型等基础环节的进步，另一方面也受益于生成算法中扩散模型的突破。目前基本大部分文生图模型/应用的decoder环节都用Diffusion扩散算法，如DALLE 2 & 3（OPENAI）、Stable Diffusion（stability.ai）、Midjourney等。

3）视频生成：可类比图像生成的2021年，期待24年发展

视频生成包括文生视频、图生视频等。相比图像生成，视频生成模型训练面临更多难点，2023年以来技术加速突破，2024年或有望取得更大发展。视频生成的2022-2023年可类比2D图像生成的2021年（已有上亿规模的数据集、扩散模型取得突破），且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型，2024年行业或取得更大的发展。

4）3D资产生成：在视觉生成模型中相对早期

3D资产生成具有广阔的应用空间，如智能3D打印生成、虚拟现实设备、元宇宙生成等。目前3D生成技术包括NeRF（神经辐射场）、GAN、 DIFFUSION等，受益于扩散模型等生成算法发展及文生图成功应用的出现，2022年以来的Magic3D、Point-E等3D生成模型技术上有所突破，但在生成效率及精度上仍未找到平衡点，在视觉生成模型中属于相对早期的领域。

2.听觉模型：数据仍有缺口，23年以来技术有所突破

听觉模型可分为音频识别与音频生成两大方向，其中识别技术已相对先进，生成可分为语音生成、音色转换、音乐生成和音效生成等。现有训练数据集范围较窄，规模有限。受大模型及扩散模型等工作的启发，音频生成算法2023年以来取得进一步突破，其中音乐生成技术相对更加复杂，开源模型的出现有望推动行业前进。

1）语音合成：23年在泛化性、生成质量上取得突破

23年以来，语音生成TTS领域算法亦开始受益于GPT和扩散模型等技术，在泛化性、生成质量上取得突破。

2）音乐生成：难度更大，期待开源模型推动行业前进

音乐生成模型比语音生成更复杂，行业最新模型亦受到Transformer和扩散算法技术影响，期待MusicGen、Stable Audio等开源模型带动行业技术前进。商业化：可为企业/内容制造商/娱乐应用提供高性价比的音乐作品，或基于娱乐属性向C端收费。

3.具身智能：相对远期，AI+机器人实现与现实世界交互

具身智能多指有类人身体并支持物理交互的智能体，如家用服务机器人、无人车等。具身智能是最为复杂的多模态能力，不仅要具备理解和推理能力，还要能够接受视觉、触觉等多模态的信息，同时对物理机械技术和工程等也提出要求。目前尽管已有多种机器人与软硬件设备出现，但还只是较为简单的机械控制系统与AI技术的结合。

随着多模态模型的视觉感知与推理能力不断增强，可集成至机器人硬件系统，具备与现实世界交互的功能。GPT4V目前已支持泛化的空间感知与推理能力，如模拟家用机器人并完成居家任务等；PaLM-E能够支持机器人控制规划任务。未来随着多种模态的进一步整合，机器人设备能够实现集视觉、触觉、听觉为一体的完整具身智能。

五，相关上市公司

金山办公：直接对标微软 copilot，高价值 AI 应用入口

全面拥抱 AI 变革，WPS AI 成为国内率先落地的 AI 办公应用。在 9 月 20 日的 2023金山办公技术开放日，公司官方宣布，基于大语言模型的智能办公助手 WPS AI 已接入金山办公全线产品。公司定位为大语言模型应用方，锚定 AIGC（内容创作）、Copilot（智慧助手）、Insight（知识洞察）三个战略方向，WPS AI 已接入 WPS 文字、演示、表格、PDF、金山文档等产品线。

福昕软件：面向海外 B 端客户，率先落地 AIGC 能力

AIGC 提升产品价值，迭代节奏领先行业。4 月，福昕软件海外云产品 PDF Editor Cloud率先集成 AIGC 技术；5 月发布全新产品线 PDF Editor Suite 和 PDF Editor Suite Pro 并实现提价；8 月在 ChatGPT Plugin Store 发布了新插件 Foxit PDF Assistant ；9 月，接入百度文心千帆大模型，重磅发布福昕 PDF 中文 AI 助手。公司的 PDF Editor Cloud 现可实现文档总结、内容改写、实时问答、文本翻译、文档智能解析及增强问答、文本解释、语法&拼写纠错八大功能。更多 AIGC 相关功能将陆续丰富，并同步至 PC 端 PDF Editor 编辑器。公司主要针对高付费能力的海外 B 端客户，逐步实现 AIG C 在办公场景落地并提升用户粘性。

万兴科技：Open AI 图片能力升级重点受益！

核心产品均已接入 Cha tGPT。今年 4 月，万兴科技宣布与微软签订云服务框架协议。目前，万兴科技主流产品均已接入 ChatGPT

大华股份：多模态+视频分析，有望在能源等行业率先落地应用

多模态持续发展，公司大有可为。近年来随着 vit、swin transformer、mae 等论文推出，transf ormer 在 CV 和多模态等应用增加。基于 ViT 和 SwinTransf ormer 等方法，大模型在 ImageN et 数据集的分类准确率突破了 90%，超过传统 CNN，展现出较强的应用潜力。上述技术路线已经开源，考虑到公司对 AI 前瞻性技术投入、拥有大量高价值视频数据、具备丰富的落地场景，大模型技术路线的应用，有望助力公司高效满足海量的客户需求，并进一步压缩定制化开发成本。

以上是我自己收集的资料，也就是和大家一起分享下。

本人不推荐任何个股，不收会员，没有QQ群，也没有微信群，也从不与任何人发生利益关系，所有信息只为自己学习使用，不作为买卖依据，买者自负，卖者也自负。