谷歌Gemini开启原生多模态大模型新时代（附股）

12月6日，谷歌发布大模型Gemini 1.0，并在技术报告中声称其Ultra版在绝大部分测试中优于GPT-4。

（1）Gemini Ultra，对标GPT-4，主要用于数据中心，在32项基准测试中30项优于GPT-4，绝大部分文本和推理测试中略胜于GPT-4，在几乎所有多模态（图像、视频、音频）任务中

略胜于GPT-4V。预计2024年初可以通过Bard的高级版访问。

（2）Gemini Pro，对标GPT3.5，在8项基准测试中6项优于GPT3.5，适用于广泛的任务，目前已部署在Bard（仅支持文本），开发者和企业客户12月13日可以通过Google AI Studio或Google Cloud Vertex AI访问Gemini Pro。

（3）Gemini Nano，支持在安卓设备上本地离线访问，目前已在Pixel 8 Pro上部署，可以实现文本摘要、上下文智能回复、语法纠正等功能，在Gemini Nano支持下，Pixel 8 Pro可以在没有网络连接的情况下总结录音内容。

目前创建多模态模型时，往往分别训练不同模态的模型并加以拼接。OpenAI就是单独训练了支持图像和语言的模型DALL-E和Whisper。而Gemini为原生多模态大模型，由多模态数据集训练而来，一开始就在不同模态上进行预训练，可以处理跨文本、图像、音频、视频和代码的复杂任务，因此能够对输入的各模态内容顺畅地理解和推理，效果较优。

多模态能力将是未来大模型厂商技术发展重点，谷歌、OpenAI、Adobe等巨头纷纷发力多模态，人工智能有望加速迈进“通感”时代，应用场景和生态也将进一步丰富。

A股多模态相关概念股有约40只，受Gemini发布的影响，近期表现抢眼。

网达软件(603189.SH)拿下6天4板，公司称促进AI技术在视频图像领域的应用，可对媒资内容进行视频结构化分析，实现自动打点、自动标注、自动快剪、自动人物集锦等功能，以减少了人工标注的工作量。此外，参股公司上海蛙色产品可以实现AI抠图生成嵌入视频/图文，位置匹配系统可实现多模态动态交互，打造科技创意效果。

因赛集团(300781.SZ)近6天内收获3次20%涨停，公司基于各类第三方大型模型和自研营销领域专用的AIGC多模态模型，实现文本、图片、视频等多种形式的智能化内容生成，并应用于智能策划、文案撰写、平面设计、视频制作等具体的业务场景。

苏州科达(603660.SH)两连板，公司是网络视频会议和网络安防领域龙头，推出了着眼于安防行业实际应用场景的大模型KD-GPT，包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形，并开始在实际项目中投入应用

声讯股份(003004.SZ)：公司在多源多模态算法和模型上有长期的积累，在沉淀多年的行业大数据基础上，经过长期训练形成了安防、检领域的行业化智能应用。公司在安防、安检类的数据，如视频数据、音频数据、报警图像数据、X光成像数据等方面，有着丰富的大数据基础，形成了安防与安检千万级的可见光视频图像数据、光图像数据以及其他结构光的图像数据。

投资是一项系统性工程，此处分享的仅仅是其中的冰山一角，没有人能够仅凭这一点就能取得投资成功。眼光比能力更重要，选择比努力更重要，让专业的人做专业的事。（xusong888888）

同花顺-圈子