同花顺-圈子

请广大用户注意风险,切勿加入站外群组或添加私人微信,如因此造成的任何损失,由您自己承担。
升级不加价!腾讯云存储面向AIGC全线升级,已服务80%头部大模型企业
0人浏览 2024-04-08 22:31

  智东西(公众号:zhidxcom) 作者|香草 编辑|李水青

  智东西4月8日报道,今日,腾讯云宣布云存储解决方案面向AIGC(生成式AI)场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程,提供全面高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

  ▲腾讯云存储AIGC解决方案升级

  据腾讯云存储总经理马文霜介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱AI、元象等。

  此前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。马文霜强调,本次存储方案“升级不加价”,价格方面没有任何变化。

  一、实现秒级Checkpoint写入,端到端一条龙服务

  大模型的研发生产流程,分为数据采集与清洗、模型训练、推理三大环节,其中每个环节都涉及海量的数据处理。尤其是目前大模型的参数量越“卷”越大,从十亿、百亿一直到万亿级,这对云基础设施提出了新要求。

  ▲大模型对云基础设施提出新要求

  对此,腾讯云从每个环节分别入手,面向AIGC场景推出覆盖全链路的端到端解决方案升级,实现了低延时、高OPS(每秒操作数)。

  在数据采集环节,腾讯云COS(对象存储)支持单集群管理百EB级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。

  ▲腾讯云全自研对象存储引擎

  同时,随着训练数据和推理数据的增长,需要低成本的存储能力以减少存储开销。对象存储服务提供了12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。

  在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,单次清洗任务耗时减少一半,单个文件读取速度提升10倍。

  ▲腾讯云自研数据加速服务

  在模型训练环节,由于大模型训练时间一般长达数周甚至数月,在这期间,任何GPU出现故障都会导致训练终止,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。因此,快速读写Checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。

  腾讯云自主研发并行文件存储CFS Turbo,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。面向3TB规模的Checkpoint,写入时间从10分钟缩短至10秒内,样本读取效率也提升50%。

  ▲腾讯云自研并行文件存储CFS Turbo

  这一能力的背后,是腾讯云自研的文件存储引擎Histor,这也是业内唯一云原生自研并行文件存储引擎,其单客户端能力达10GiB/s,支持百万计OPS、千亿级文件扩展。

  ▲腾讯云自研文件存储引擎Histor

  在数据审核阶段,大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云一站式内容智理平台数据万象CI推出图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等功能,为数据生产业务全流程提供有力支撑。

  其中,明暗水印为每个AI作品生成专属ID,MetaInsight支持跨模态检索,可文搜图、文搜视频、图搜视频等,内容审核延时降低50%,支持全媒体类型。

  ▲腾讯云一站式内容智理平台数据万象

  马文霜透露,目前国内80%的头部大模型企业都在用腾讯云存储服务,包括百川智能、智谱AI、元象、右脑科技等。

  腾讯云智能存储产品总监叶嘉梁为我们演示了MetaInsight的智能检索功能,如输入一张红裙舞者照片,右边可以在对象存储直接找到对应的图片。

  ▲MetaInsight智能检索

  通过自然语言输入,MetaInsight同样能在对象存储空间中输出符合描述的图片。

  ▲MetaInsight智能检索

  二、存储引擎全面自研,四大核心技术实现高性能文件读写

  腾讯云文件存储总监陆志刚解读了并行文件存储CFS Turbo的技术升级。据称,这是国内目前唯一实现存储引擎全面自研的云存储解决方案。

  CFS Turbo拥有四大核心技术,分别是并行客户端、智能缓存技术、自适应条带化以及分布式元数据。

  ▲AIGC时代下的文件存储技术要素

  并行客户端支持一个客户端同时和多个服务端通过多条链路传输,提升访问速率。

  ▲CFS Turbo总体架构

  智能缓存技术在客户端和服务端两级采用分布式缓存,元数据和数据之间采用独立缓存机制,读写操作可分别配置,读缓存加速重复数据的读取,写缓存提升Checkpoint的保存速度。

  ▲分布式缓存

  自适应条带化通过智能分片,把大文件切割成小文件同时并发写入,提升吞吐,单文件读写吞吐可达5GB/s,集群读写吞吐线性增长,1PB容量规模可达1TB/s读写吞吐,单客户端文件读写性能达10GB/s。

  ▲文件动态条带化

  分布式元数据对上亿级别文件目录分散处理,提升并发性能。传统元数据服务器是树型,受单点制约,而业内普遍的解决方式是采用联邦式,但仍需要提前规划文件和目录分配。CFS Turbo采取的分布式,能使元数据性能线性扩展至十多倍,文件和目录自动均衡分配。

  ▲分布式元数据

  在这些技术的支撑下,腾讯云CFS Turbo能提供业界第一的TiB/s级别总读写吞吐和百万OPS的每秒元数据性能,解决训练文件读写瓶颈。以3TB大小的Checkpoint为例,写入能从10分钟瞬间缩短至10秒内。在GPU发生故障时,能大幅降低对训练时长的影响。

  ▲Checkpoint写入效果

  此外在数据推理阶段,CFS Turbo可实现字节粒度强一致,在模型发布或修改时,多客户端可同时读写同意模型文件,保证数据一致性。

  ▲字节粒度强一致

  基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。

  除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等厂商的仿真场景,墨镜天合、追光等企业的影视特效场景。

  结语:大模型倒逼云存储升级,腾讯云树立新标杆

  今年1月,在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。随着大模型时代来临,AIGC场景对数据存储和处理的需求日益增长,腾讯云凭借其在云计算领域的深厚积累,推出了全面升级的AIGC云存储解决方案,为AI大模型提供更加高效、全面的云存储支持。

  在数据采集、清洗、训练、推理、数据治理等全流程中,腾讯云的AIGC云存储解决方案展现出了卓越的性能。通过自研的核心技术和产品,腾讯云不仅在性能上实现了质的飞跃,更在价格上保持了亲民,成为众多头部大模型企业的首选。

更多
· 推荐阅读
0
1
扫码下载股市教练,随时随地查看更多精彩文章
发 布
所有评论(0
  • 暂时还没有人评论
  • 0
  • TOP
本文纯属作者个人观点,仅供您参考、交流,不构成投资建议!
请勿相信任何个人或机构的推广信息,否则风险自负