| 0人浏览 | 2026-01-10 07:05 |
谷歌发布的一项研究显示,具备动态记忆功能的AI系统在长文本任务中的准确率远超传统模型,标志着一个从被动执行到主动学习的AI新纪元正在开启。
谷歌在NeurIPS 2025大会上发布了具有“动态记忆”能力的Titans架构,这项技术不仅解决了困扰行业八年之久的“长上下文困境”,更首次赋予AI真正意义上的“长期记忆”能力。
基于“动态记忆”技术,谷歌的Titans模型在200万Token的超长文档处理中实现了稳定的高性能输出,部分任务准确率甚至超越规模更大的GPT-4。
智源研究院院长王仲远指出:基础模型的竞争焦点已从“参数有多大”转变为“能否理解世界如何运转”。
PART 01
范式变革:模型长记忆从“金鱼脑”到“进化脑”
谷歌近期发布的Titans架构与MIRAS理论框架正引发行业范式革命。这一组合不仅解决了Transformer架构长期存在的“算力墙”和“健忘症”问题,更首次使AI具备了真正的长期记忆能力。
长记忆技术从“上下文扩展”向“持续学习与进化”转变。传统AI模型在推理时无法记住超出上下文窗口的信息,被戏称为“金鱼记忆”。而现在,基于MIRAS框架的Titans引入了三大革命性机制。
Titans引入了三大机制:一是“惊喜指标”,模拟人类大脑优先编码突发事件的能力,只写入重要信息;二是“测试时记忆”,使AI在提供服务过程中实时学习进化;三是“保留门控+注意力偏置”机制,动态决定记忆去留并引导关注重要历史信息。
这一突破带来的影响远超出技术层面,它预示着从静态模型向具有记忆与进化能力的智能伙伴转变,从“工具”到“伙伴”的转变,将是AI发展史上的重要里程碑。
长记忆技术不仅提升了用户体验,还对底层硬件存储产生了巨大需求,包括HBM/DRAM以及SSD的需求同步提升。
PART 02
强化学习:后训练算力占比飙升推动产业升级
强化学习已成为激活大模型推理思考能力的关键。目前在海外,强化学习算力消耗占比已接近50%,如Grok4等先进模型就大量采用强化学习技术。
国内以DeepSeek-V3.2为例,后训练算力占比已突破10%,这一比例仍在持续增长。华为团队在这一领域推出了创新的“RL Fusion训推共卡”和“StaleSync准异步并行”技术。
这些技术将训练与推理任务在同一张卡上并行执行,使资源利用率显著提升,单超节点吞吐提升了78.5%。
在传统强化学习后训练中,训练和推理需排队工作,大量算力处于闲置状态。训推共卡技术让一张卡同时兼顾训练和推理,资源利用率翻倍;准异步并行技术允许不同RL阶段任务在可控范围内并行执行,使大规模集群扩展效率超过90%。
RL Fusion与StaleSync协同优化,形成了“资源复用+任务并行”的双重保障体系。在盘古长序列训练集的实测中,这些优化可降低80%以上的通信量,有效支撑大规模集群训练扩展。
PART 03
在线学习:下一代AI范式的探索与雏形
在线学习赋予模型自识错、自采集、自更新的能力,构建“在失败中学习”的闭环。根据行业观察,DeepSeek可能在线学习方向取得突破。
OpenAI联合创始人伊利亚指出,相比“预训练”,人类智能真正依赖的是“持续学习”。这一观点为在线学习成为大模型下一范式提供了理论基础。
在线学习的核心在于解决大模型一个根本缺陷:无法在部署后持续从新交互中学习,知识在训练完成后就会被冻结。这一问题限制了AI系统的长期适应性和个性化能力。
如果DeepSeek能让模型在推理过程中也能学习和记忆,这将从根本上改变AI产品形态,从工具进化为真正能成长的伙伴,再次推动底层模型技术变革。
在线学习有望解决模型知识更新滞后的问题,实现AI系统在真实环境中持续优化,推动AI从被动响应的工具转变为主动适应环境的学习体。
PART 04
世界模型:从数字认知走向物理世界理解
智源研究院发布的《2026十大AI技术趋势》报告将世界模型列为趋势之首,指出行业共识正从语言模型转向能理解物理规律的多模态世界模型。
从“预测下一个词”跨越到“预测世界下一个状态”。NSP新范式标志着AI开始掌握时空连续性与因果关系,以智源悟界多模态世界模型为代表验证了这一路径,推动AI从感知走向真正的认知与规划。
世界模型主要应用于三个方面:一是Genie3能够生成具有一致物理法则的视频环境;二是Marble解决了生成变形与不一致问题;三是JEPA以潜在变量呈现世界状态,成为机器人训练的完美平台。
智源研究院认为2026年将是AI从数字世界迈入物理世界、从技术演示走向规模价值的关键分水岭。这一转变的核心驱动力包括认知范式的“升维”、智能形态的“实体化”与“社会化”,以及价值兑现的“双轨应用”。
世界模型为自动驾驶仿真、机器人训练等复杂任务提供了全新的“认知”基础,成为国内外领先模型厂商竞相布局的战略高地。
PART 05
原生多模态:理解与生成一体化的新突破
原生多模态理解能力正在从追赶到并行的转变。海外由Gemini和OpenAI引领原生多模态路线,国内厂商如Seed正在快速追赶。
技术突破体现在理解与生成的一体化。nano-banana模型将理解与生成能力结合,阿里Qwen-Image等模型通过MMDIT架构,大幅提升了一致性与可编辑性。
多模态模型的进步正推动其从“抽卡”式的随机生成进入确定性创作阶段。当多模态输入与输出能力彻底打通,软件界面将从静态组件转为动态生成式,基于编码能力根据用户当下的语音、视觉意图进行实时渲染。
2026年,Chatbot可能会逐步演变为实时渲染的页面加上智能体,AI从被动的聊天工具转变为能主动观察、决策和执行的“代理”。
字节跳动等厂商在闭源多模态领域的突破值得关注。行业观察指出,2026年字节跳动在模型研发上的各种积累将迎来“证明时刻”。Seed项目有望在闭源多模态领域交出重要答卷。
PART 06
产业变革:从“幻灭低谷”到“V型反转”
智源研究院的报告揭示了AI应用市场正在经历“幻灭低谷期”到“V型反转”的转变。据MIT对300个AI项目的调研,95%的生成式AI试点项目未带来任何可衡量的影响。
企业级AI应用因数据、成本等问题正步入“幻灭低谷期”,但随着数据治理与工具链成熟,预计2026年下半年将迎来转折,一批真正可衡量价值的MVP产品将在垂直行业规模落地。
这一趋势同样影响了具身智能领域。目前全国有230家具身智能企业,其中人形机器人企业超过100家,资本环境无法容纳如此多初创公司,行业“出清”在所难免。
但具身智能正脱离实验室演示,进入产业筛选与落地阶段。随着大模型与运动控制、合成数据结合,人形机器人将于2026年突破演示,转向真实的工业与服务场景。
随着多智能体通信协议(如MCP、A2A)趋于标准化,智能体间拥有了通用“语言”。多智能体系统将突破单体智能天花板,在科研、工业等复杂工作流中成为关键基础设施。
当AI不再只是屏幕上的文字输出,当它开始记住我们的每一次对话偏好,当它能够理解并预测物理世界的运动规律,整个科技产业的地基已经松动。
智能体通信协议正在成为AI时代的TCP/IP协议,为多智能体协同工作奠定基础。而合成数据占比的不断攀升,将可能破除“2026年数据枯竭魔咒”。
据预测,到2030年前,人类拥有的合成数据将超过真实数据,成为第一大AI数据源。
当机器能够“预测世界的下一个状态”时,工业制造、自动驾驶、医疗诊断甚至科学研究的基础都将被重新定义。
- 暂时还没有人评论
-
0
-
0
-
TOP
