科德教育—谷歌多模态推理采用TPU芯片如何全面超越GPT-4

催化剂主要是昨晚谷歌的发布：30项评分超越GPT-4V，谷歌推出多模态大模型“Gemini”：Gemini也不负众望，一亮相就拿出了许多亮眼的成绩：首次在MMLU（大规模多任务语言理解）测评上超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果），几乎全方位超越GPT-4。

科德教育，翻倍潜力，老师们注意下谷歌多模态采用TPU推理芯片（相对光模CPO，HBM存储，TPU目前资本还没有炒作过的，这个老师们都懂的谁不喜新厌旧），最大的痛点是将大模型的成本降低到英伟达的1/4不到（TPU的单颗cost是5000美金v4来自博通财务模型估算，TPU v5会更贵，相比于OpenAI+微软以大客户折扣最终2.6万美金买到的H100，就是个零头），这还了得现在大模型堆料芯片堆料那么多的问题不就是成本，这TPU解决了，还有什么预期比这个超预期，国内做TPU推理芯片，可查阅的是中昊芯英(上市公司科德教育持有8%的股权)，并且已经获得数亿订单应运用于算力。

1 - 12月5日，中昊芯英获“浙江最具投资价值创新企业TOP50”

2 - 9月份中昊芯英完成数千万Pre-B+轮融资

3 - 8月份青海丝路云谷算力产业园首批订单就9个亿，“丝绸云谷”低碳算力产业园项目以打造西北数据云谷为终极目标，总投资约230亿元，该项目计划分批采购中昊芯英自研AI训练服务器及计算集群产品以搭建AI计算底座

GPT-4.5可能要被迫提前出战了

Anthropic第一个多模态版本的Claude估计也快了（是不是像Gemini一样的端到端多模态？可能算力不支持）

开源模型们什么时候出多模态？（这个可能更难...）

谷歌Gemini对AI应用的意义，要超过OpenAI，对应用的诞生可以更乐观一点。

谷歌物美价廉的TPU、以及遥遥领先的光互联网络（可与Nvlink IB一战），相关投资会加强。

首先，你不能否认Gemini的强大，虽然已经有人开始质疑视频的剪辑夸大了延迟速度，但只看结果有些推理能力的确强到吓人。但全面超越GPT4？不妨先等等。有人将Gemini昨晚paper中的测试问题prompt，同样去问了GPT-4v，直接提交了paper截图而没有转文字，GPT-4v答对了14题中的12个，也是相当牛逼了，而且是用GPT-4v实测数据和Gemini ultra的理论数据比较。是不是“全面反超”，真的要看ultra版本明年初上线后的实测数据。

但有一些可以先下的结论。首先，Gemini会加速super app的诞生。谷歌相比OpenAI最大优势就是天然的互联网场景，每一个技术突破，可以瞬间辐射全球网民。这一点远远强于to B的微软，如果说office / windows copilot还不足以撬动应用，那youtube、安卓、google search、地图、语音助手Now、日历、浏览器、workspace等等谷歌应用套装，可以一夜之间被Gemini接入，根本没有微软copilot面临的什么“adoption”“渗透率”问题，直接APP版本迭代上线了。这是OpenAI+微软联盟做不到的，因为缺了一个苹果的角色。且模型训练和应用之间，在一个公司体系内，可以建立如APP一样良好的迭代反馈机制，实现真正的在线训练。这一点相比OpenAI也有优势。此外，收入和Capex投资之间，建立更好的传导机制。之前SGE也就是谷歌生成式搜索产品，被证明的确提升了用户体验，且对收入没有影响（更准确的结果，更高的点击率），甚至可以在问答页面做一些额外广告。虽然这部分收入在谷歌2000多亿美金的广告revenue面前微乎其微，但可以完全用来cover新的capex投入，这至少是良性的ROI循环投资。

其次，Gemini是第一个真正的端到端多模态。GPT-4v训练阶段是将文字、语音、图片等不同模态先做向量化，然后不同类型向量的embedding做对齐（最典型是CLIP），而非真正的端到端。一个真正的多模态，应该支持输入和输出的任意格式组合，输入文字或视频并输出视频，输入图片输出图片或视频，输入3D输出3D或视频或图片。因为Gemini采用了encoder-decoder的架构，而不是ChatGPT最开始的decoder架构，且Gemini的decoder是一个多层的decoder，可以直接输出一些在文本空间能够对齐的token。目前不知道GPT4.5或GPT5的模型架构是否有大的变化，但行业对transformer的微调和架构创新不断涌现，预示着技术有可能出现非线性变化。

其次，谷歌的训练和推理成本会非常低。TPU的单颗cost是5000美金(v4，来自博通财务模型估算，TPU v5会更贵），相比于OpenAI+微软以大客户折扣最终2.6万美金买到的H100，就是个零头。绕过了英伟达这个中间商赚差价！TPU通用性不行？的确，GCP上客户还是选拥有CUDA开发更灵活的H100。但Gemini从训练到推理到应用部署假如都是google自己的，还要什么自行车？当然成本里面又涉及到多卡互联带来的利用率问题，但在1/4价格面前也不算什么

同花顺-圈子