业界首例!中国联通AI大模型存算分离技术实现突破
2024-12-09 10:04:43
近日,在集团公司指导下,中国联通研究院与中国联通浙江分公司、联通服装制造军团协同攻关,针对AI敏感数据的本地存储异地训练需求提出了创新的业务模式,并成功在杭州与金华两地间实施了业界首次30TB样本数据的跨200公里存算分离拉远训练,经过实际测算,训练效率高达97%。通过本次测试充分验证了存算分离技术的安全性、可行性和高效性,为未来AI技术的发展提供了新的思路和方向。存算分离技术是指将存储数据的仓库和对数据进行计算的加工厂独立开来,在训练时直接将数据从远端存储设备中拉过来进行计算,而不需要先存储到本地的磁盘再进行处理,可以有效保证用户数据的安全性和一致性。当前,AI智算需求旺盛,海量样本数据处理过程中存在两大挑战:一是数据多存储于企业端,部分安全性要求较高的数据不便外迁;二是样本数据量激增,AI智算中心在具备强大算力的同时,还需额外配备存储资源,显著提升了建设成本。在此背景下,业内对实现“存算分离拉远、样本随训随拉”需求迫切。作为“数字信息运营服务国家队,数字技术融合创新排头兵”,中国联通针对该需求积极开展算力智联网体系架构、关键技术和相关场景研究,提出了存算分离的创新服务模式,目前已经在ITU推进智算领域相关标准布局工作,在IETF推进广域无损需求和技术框架研究,同时在CCSA制定了面向智算承载的广域网能力增强系列标准,联合产业合作伙伴共同推进智算互联、广域无损等核心技术攻关。在长距RDMA广域无损技术攻关方面,实现百公里到千公里覆盖范围的RDMA远距离、高吞吐无损传输;在精准流控技术攻关方面,实现租户级流控,保证租户间业务隔离,计算效率不损失;在存储读写性能优化方面,通过采用多线程处理、增强并发能力以及系统级的优化等措施,将分布式存储文件系统在拉远场景中的文件读/写性能提升超过5倍,从而满足了NLP模型和CV模型在拉远训练中的需求。在联通服装制造军团“衣瞳行业模型”训练场景中,原始数据主要基于服装多模态数据,服装生产厂家使用“衣瞳行业模型”可实现实时检测,但是很多服装厂家的服装数据需要产权保护不愿公开,而基于存算分离的创新训练模式,刚好完美契合了用户需求。本次存算拉远测试验证的主要特色包括:
第一,以跨地市AI大模型训练能力创新重构智算训练模式。传统的智算集中训练模式,需要用户将样本上传到智算中心进行落盘训练,但是部分用户对隐私样本落盘存在安全顾虑。浙江联通通过IP广域无损方案,实现了杭州存、金华训的“数据不落盘”拉远训练,以算网协同的能力,为企业用户隐私样本训练探索出了一条新路。第二,样本数据总量达30TB,传输距离超200公里,计算拉远效率大于97%。通过联通服装制造军团“衣瞳行业模型”的AI训练存算分离现网测试。充分验证了针对AI训练业务存算拉远的技术可行性,未来有相关数据敏感业务需求的用户可通过运营商算力服务,完成隐私样本不出园区的拉远训练,实现成本与安全的最佳平衡。
中国联通研究院副院长、首席科学家唐雄燕介绍,存算分离能适应未来智算高效化与专业化需求,增强安全性与数据保护,为技术创新与产业升级提供有力支持。不仅能够优化资源利用、提高系统性能,还能促进技术创新与可持续发展,是智算产业未来发展的重要趋势。浙江联通网络部(科技创新部)总经理汤滢琪表示,浙江联通将加速推进数字融合,持续助力传统产业转型升级,特别是打造“高通量、高性能、高智能”的算力智联网AINet,积极探索弹性带宽、任务式服务、数据快递、无损传输等创新服务模式。面向未来,中国联通将持续深耕算网技术创新,通过算力智联网研发建设,推进网络向新、技术向新、服务向新,持续提供领先的联网通信和算网数智产品,加速推动以算力和数据为核心的新质生产力发展,赋能千行百业的数字化转型升级。
上一篇 :中国电信发布全国单台比特数最多的
下一篇 : 联通研究院荣获2024年度通信发展领域奖项