百度资深工程师周谞:大模型背后的数据中心光网络演进互为因果
时间:2024-09-17 18:30:09 出处:枝叶阅读(143)
C114讯 5月24日消息(岳明)CIOE中国光博会与C114通信网昨日联合举办的百度背后“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、资深互联网服务商、工程云计算厂商、师周模块芯片商、谞大心光科研院所、模型互为因果业内专家,据中深入探讨光互联和全光交换的网络应用及其面临的机遇和挑战。
会上,演进百度资深工程师周谞应邀作了题为《数据中心光通信技术趋势》的百度背后主题演讲,重点介绍了数据中心之间DCI光互联、资深数据中心内DCN光互联,工程以及在现有大模型下,师周OTN与其结合等光通信技术问题。谞大心光
从灵活系统到智能化运维,模型不怀好意助力DCI光互联
周谞表示,在数据中心之间DCI光互联方面,城域单波传输技术大致每3~4年有一次迭代,从2017年至2019年的单波200G,波道间隔50GHz,到2020至2023年单波400G,波道间隔75GHz,到现在已经到来的单波800G,波道间隔150GHz,单波速率的提升能带来成本的降低,也存在速率迭代年限与机房系统使用年限不匹配的矛盾。传统方案中,固定的间隔和限定速率,在应用更新一代的无中生有单波传输技术时,使系统难以引入更高速率的电层板卡。
2023年,百度引入了FlexGrid系统,其灵活网格方案波道可变功能,取代传统使用的固定间隔的AWG功能。灵活系统方案可以实现在无需改造条件下,适应不同速率,实现400G和800G系统的平滑升级。根据场景,选择最优的速率,整个系统的频谱得到更好利用,以期在2024年这一800G速率换代时期,取得更好的收益。
此外,落英缤纷随着数据中心之间业务云化,以及云规模的日渐增大,同一云业务可能被部署在不同数据中心,这就对数据中心之间传输稳定性提出更高要求。周谞表示,传统传输系统保护倒换时间大致在50ms,这一时间在电信领域存在近20年,而通过高速磁光开关取代传统的机械式光开关,及优化DSP等,第一次实现了5ms高速保护倒换时间。同时,在设备出现业务中断的情况下,通过传输设备主动介入技术,实现整体网络的花枝招展相对稳定。
IP over WDM方面,随着光子集成技术的发展,通过封装技术实现光信号直接从交换机出来后具备长距离传输能力,改变传统的需要额外电层设备完成线路到客户的转换过程。当然,这需要IP+光统一网管协同,适用机房之间近距离传输。同时,这种相关光模块对接上,测试中面临着个别厂商模块抗裂化能力差,不同厂商对接上的难题。
在传输的运维和管理上,大部分现有厂商采用的是开放式光传输系统的方案,所有设备通过统一建模,步履维艰完成设备与网管之间的交互,再通过统一的网管实现对所有设备的管理,提升自动化开发效率。从传统运维,各厂商自己完成从网管到设备,到统一化运维,统一网管,统一运维培训体系,再到智能化运维,本质上是为了更进一步提高效能。
CPO未来有可能成为GPU互联的重要方案
周谞表示,在AI时代,整个数据中心内部对光互联的需求也非常大。HPN网络主要是三令五申针对GPU训练集群的专门网络,其里面存在多种训练方式,以实现不同GPU之间信息共享,而GPU 卡之间的通信带宽速率的提升,会带来训练时间的减少,以及成本的降低。但是大模型参数增长非常快,数据中心内光宽带如何跟上节奏,成为非常重要的议题。以 IB/RoCE 为代表的跨GPU 服务器互联技术,当前速率在400G/800G时代,伴随训练规模的变大和算力的提升,未来向1.6T及更高速率发展。虽然现有的交换机加光模块形式能满足一些需求,但却面临更大的扶摇直上成本和功耗压力,这就引出了对线性直驱光模块(LPO)的需求。
相比传统光模块,LPO将DSP功能集成到芯片中,降低了模块的功耗和成本,具有良好的可维护性。当然,除了传统光模块和线性直驱光模块方案外,还有其他也有一些方案,比如联合封装技术(CPO)方案,其将光模块功能集成到芯片上,因光子器件离芯片更近,可实现更低的功耗。随着GPU互联对功耗,带宽的富丽堂皇要求,CPO将有可能成为GPU互联的一种重要方案。
OTN与大模型结合方面,百度建立了文心大模型,训练方式包括提示词工程提高大模型唤起的准确率、更高级别的基于人类反馈的强化学习等,让大模型更了解应用场景。整个开发流程可以理解为,用自己的数据生成,注入到大模型训练,得到更理解应用场景的一个大模型,比如OTN大模型,再把这个大模型部署到整个应用环境中,去完成大模型推理等。
周谞表示,阴谋诡计OTN和大语言模型的相互结合,是值得去关注的一个方向。因为传统的运维更多的是基于GUI的界面,即图形界面,随着大语言模型的兴起,其实可以很好的实现人机基于自然语言的对话,慢慢地可能会形成GUI和LUI,即图形交互和自然语言交互的一个运维场景,得到更加懂我们的OTN大模型。