同花顺-圈子

请广大用户注意风险,切勿加入站外群组或添加私人微信,如因此造成的任何损失,由您自己承担。
概念圈|多模态技术迭代提速,AI商业化进一步,多模态AI产业初探(附股)
0人浏览 2024-03-28 10:55

前言:作为AI新规,多模态的火热程度无需多言,本篇就将系统梳理多模态的产业链


一,认识多模态
按照处理的数据类型数量划分,AI模型可以划分为两类:
1)单模态:只处理1种类型数据,如文本等;
2)多模态:处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显。

Image.png

二,多模态产业链
多模态框架的上游是数据,中游是多模态算法,下游是各项应用。
数据:文本、视觉、声音、触觉、气味等。
算法:通过多模态统一建模,增强模型的跨模态语义对齐能力,打通各模态之间的关系,执行标准化的任务。 
应用:办公、电商、娱乐、教育等领域。

Image.png

1.数据:高质量多模态数据有限,合成数据发展或能改善。
根据Epochai,在当前大模型高速发展趋势下,高质量语言数据可能在2026 年之前耗尽,而低质量语言/视觉数据存量也可能将在2030~2050/2030~2060年耗尽。AI合成数据或有望改善数据枯竭问题。
2.算法:技术要求更高,LLM发展提供突破口
相比单模态,多模态大模型算法和工程难度更大,在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。这一波大语言模型发展给多模态带来新突破,大语言模型LLM可充当大脑,处理各种模态信息,大语言模型在训练方式上给多模态模型提供前进方向参考,如自监督、预训练、上下文学习、指令遵循等。

多模态大模型对算力的需求高于单模态。未来随着算力需求的进一步提升,芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。


三,产业现状
1.多模态是AI时代真正的商业宏图起点
2B:更符合真实世界生产需要,有望提高电商、营销、金融、教育等行业的生产力,真正为企业降本增效(我们在此前AI应用系列深度报告中已有较详细分析,此处不多赘述);企业可将节省的成本用于提高产品/服务质量或者技术创新,推动生产力进一步提升。
2C:多模态大模型发展带来技术平权,C端内容创作达到一个成本与质量更优的均衡点,或出现新的空间更大的UGC平台。
2.海外:OPENAI和谷歌领先,垂类独角兽加速行业发展
OPENAI和谷歌在多模态领域布局广度和技术先进程度上都处于领先地位,且都推出了表现较好的通用多模态大模型。在垂类领域上,OPENAI在文生图等技术已接近拐点的方向表现较好,而谷歌在3D资产生成等技术还处于较早期的方向表现较好。
3.国内:海外开源有利于国内追赶,技术与应用同步发展

相比英文多模态数据集,中文多模态数据集仍有提升空间。国内算法相对落后,算力方面亦有劣势,但海外算法开源(如META等)有利于国内技术追赶;考虑到中国科技公司在产品运营和迭代方面实力更强,技术与应用有望同步发展。

Image.png

4.海外开源有利于国内追赶,技术与应用同步发展
国内科技大厂(百度、阿里巴巴、字节跳动、腾讯等)及大模型公司(昆仑万维、科大讯飞、商汤等)均积极布局多模态,并有望结合自身应用生态优势进行商业变现。如阿里巴巴应用在电商领域,腾讯应用在营销领域,昆仑万维应用在AI游戏、AI音乐等领域。
万兴科技、美图等AI视觉应用公司亦有望受益于底层技术进步,特别是其海外应用。以美图为例,12月发布自研大模型Miracle Vision 4.0版本,拥有AI设计与AI视频两大新能力,并将于2024年1月陆续应用于美图旗下产品。目前Miracle Vision的视频生成能力已能融入行业工作流,尤其是电商和广告,MV4.0的迭代加速将推动公司向生产力场景应用渗透,助力行业工作流提效。

Image.png

四,细分赛道
1.视觉模型
数据与算法往往同步发展,大型高质量数据集是模型突破重要基础,算法突破推动爆款应用出现。2D图像生成引领视觉模型前进方向。2D图像生成引领视觉模型前进方向。
图像模型领域已具备大规模高质量的公开数据集,驱动文生图技术加速发展,也为其他视觉模型提供帮助。视频领域已有上亿规模的高质量数据集,期待加速行业发展;3D领域则仍有待突破。
1)视觉理解:CLIP模型提供重要泛化能力
视觉理解模型可分为:双塔模型、单塔模型和混合模型。
重要模型1——CLIP(2021年发布),第一个可通过零样本和少样本学习推广到多个图像分类任务的模型。
重要模型2——Flamingo(2022年发布),在广泛的开放式多模态任务中建立了少样本学习新 SOTA。
重要模型3——SAM(2023年发布),第一个致力于图像分割的基础模型,零样本分割一切。
2)视觉生成:文生图技术开始收敛至扩散算法,应用有望加速
目前2D图像生成是相对成熟的应用方向,一方面受益于大规模公开数据集和表征模型等基础环节的进步,另一方面也受益于生成算法中扩散模型的突破。目前基本大部分文生图模型/应用的decoder环节都用Diffusion扩散算法,如DALLE 2 & 3(OPENAI)、Stable Diffusion(stability.ai)、Midjourney等。
3)视频生成:可类比图像生成的2021年,期待24年发展
视频生成包括文生视频、图生视频等。相比图像生成,视频生成模型训练面临更多难点,2023年以来技术加速突破,2024年或有望取得更大发展。视频生成的2022-2023年可类比2D图像生成的2021年(已有上亿规模的数据集、扩散模型取得突破),且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业或取得更大的发展。

Image.png

4)3D资产生成:在视觉生成模型中相对早期
3D资产生成具有广阔的应用空间,如智能3D打印生成、虚拟现实设备、元宇宙生成等。目前3D生成技术包括NeRF(神经辐射场) 、GAN、 DIFFUSION等,受益于扩散模型等生成算法发展及文生图成功应用的出现,2022年以来的Magic3D、Point-E等3D生成模型技术上有所突破,但在生成效率及精度上仍未找到平衡点,在视觉生成模型中属于相对早期的领域。
2.听觉模型:数据仍有缺口,23年以来技术有所突破
听觉模型可分为音频识别与音频生成两大方向,其中识别技术已相对先进,生成可分为语音生成、音色转换、音乐生成和音效生成等。现有训练数据集范围较窄,规模有限。受大模型及扩散模型等工作的启发,音频生成算法2023年以来取得进一步突破,其中音乐生成技术相对更加复杂,开源模型的出现有望推动行业前进。
1)语音合成:23年在泛化性、生成质量上取得突破
23年以来,语音生成TTS领域算法亦开始受益于GPT和扩散模型等技术,在泛化性、生成质量上取得突破。
2)音乐生成:难度更大,期待开源模型推动行业前进
音乐生成模型比语音生成更复杂,行业最新模型亦受到Transformer和扩散算法技术影响,期待MusicGen、Stable Audio等开源模型带动行业技术前进。商业化:可为企业/内容制造商/娱乐应用提供高性价比的音乐作品,或基于娱乐属性向C端收费。
3.具身智能:相对远期,AI+机器人实现与现实世界交互
具身智能多指有类人身体并支持物理交互的智能体,如家用服务机器人、无人车等。具身智能是最为复杂的多模态能力,不仅要具备理解和推理能力,还要能够接受视觉、触觉等多模态的信息,同时对物理机械技术和工程等也提出要求。目前尽管已有多种机器人与软硬件设备出现,但还只是较为简单的机械控制系统与AI技术的结合。

随着多模态模型的视觉感知与推理能力不断增强,可集成至机器人硬件系统,具备与现实世界交互的功能。GPT4V目前已支持泛化的空间感知与推理能力,如模拟家用机器人并完成居家任务等;PaLM-E能够支持机器人控制规划任务。未来随着多种模态的进一步整合,机器人设备能够实现集视觉、触觉、听觉为一体的完整具身智能。


五,相关上市公司

金山办公:直接对标微软 copilot,高价值 AI 应用入口

全面拥抱 AI 变革,WPS AI 成为国内率先落地的 AI 办公应用。在 9 月 20 日的 2023金山办公技术开放日,公司官方宣布,基于大语言模型的智能办公助手 WPS AI 已接入金山办公全线产品。公司定位为大语言模型应用方,锚定 AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三个战略方向,WPS AI 已接入 WPS 文字、演示、表格、PDF、金山文档等产品线。


福昕软件:面向海外 B 端客户,率先落地 AIGC 能力

AIGC 提升产品价值,迭代节奏领先行业。4 月,福昕软件海外云产品 PDF Editor Cloud率先集成 AIGC 技术;5 月发布全新产品线 PDF Editor Suite 和 PDF Editor Suite Pro 并实现提价;8 月在 ChatGPT Plugin Store 发布了新插件 Foxit PDF Assistant ;9 月,接入百度文心千帆大模型,重磅发布福昕 PDF 中文 AI 助手。公司的 PDF Editor Cloud 现可实现文档总结、内容改写、实时问答、文本翻译、文档智能解析及增强问答、文本解释、语法&拼写纠错八大功能。更多 AIGC 相关功能将陆续丰富,并同步至 PC 端 PDF Editor 编辑器。公司主要针对高付费能力的海外 B 端客户,逐步实现 AIG C 在办公场景落地并提升用户粘性。


万兴科技:Open AI 图片能力升级重点受益!

核心产品均已接入 Cha tGPT。今年 4 月,万兴科技宣布与微软签订云服务框架协议。目前,万兴科技主流产品均已接入 ChatGPT


大华股份:多模态+视频分析,有望在能源等行业率先落地应用
多模态持续发展,公司大有可为。近年来随着 vit、swin transformer、mae 等论文推出,transf ormer 在 CV 和多模态等应用增加。基于 ViT 和 SwinTransf ormer 等方法,大模型在 ImageN et 数据集的分类准确率突破了 90%,超过传统 CNN,展现出较强的应用潜力。上述技术路线已经开源,考虑到公司对 AI 前瞻性技术投入、拥有大量高价值视频数据、具备丰富的落地场景,大模型技术路线的应用,有望助力公司高效满足海量的客户需求,并进一步压缩定制化开发成本。


以上是我自己收集的资料,也就是和大家一起分享下。

本人不推荐任何个股,不收会员,没有QQ群,也没有微信群,也从不与任何人发生利益关系,所有信息只为自己学习使用,不作为买卖依据,买者自负,卖者也自负。

更多
· 推荐阅读
0
1
扫码下载股市教练,随时随地查看更多精彩文章
发 布
所有评论(9
  • 9
  • TOP
本文纯属作者个人观点,仅供您参考、交流,不构成投资建议!
请勿相信任何个人或机构的推广信息,否则风险自负