全国服务热线
AIGC的爆炸性增长对传输交换带宽以及功耗提出了前所未有的要求,智算中心作为信息处理的核心,其中光互联网络技术,尤其是全光交换技术,因其高带宽、低功耗、低时延的特性,成为海量数据603138)互联的关键支撑技术。在近期举办的2024中国光网络研讨会(OptiNet China)上,凌云光光纤器件与仪器事业部解决方案总监张华博士与行业同仁分享了在AIGC时代智算中心光互联网络技术最新进展,以及智算中心全光交换可能的应用场景。
在AIGC时代,数据中心光互联面临“两高两低”的挑战:高带宽和高可靠性,以及低功耗和低时延。
随着AI模型的不断增大和复杂化,对数据传输速率的需求大幅度的增加。传统的网络架构难以满足这种高速传输的要求,光互联网络则可提供所需的高带宽,确保数据传输的高效性。在AI训练过程中,任何网络延迟或数据包丢失都会对训练效果产生重大影响。光互联网络需要具备高度的可靠性,以确保数据传输的稳定性和准确性。
当前AI集群对能源的需求极其庞大,尤其是在大规模训练任务中,网络设备(如光模块和交换机)的功耗明显地增加。因此,一定要通过新的技术和架构来降低光互联网络的能耗。而低时延是AI集群高效运行的关键,特别是在大规模并行计算任务中,任何额外的延迟都可能会导致整体性能下降。
总的来说,AI集群在规模和灵活性上提出了新的要求。传统的L1层(物理层)固定连接方式已不足以满足这种需求,而可重构的光互联网络能够最终靠引入光开关,实现AI集群的动态调整和灵活扩展。例如,谷歌的 PaLM 模型,在训练时被拆分到了两个拥有 4000 块 TPU 芯片的超级计算机上,用时50多天,任何设备故障都可能会引起长时间的排查和修复,而可重构的光互联网络能轻松实现毫秒级的故障切换,大幅度的提升系统的稳定性和可靠性。
OCS(光路交换)技术近年来因谷歌的推动而非常关注,在数据中心中的应用逐渐增多。相较于传统的电交换,OCS在数据传输时具有低时延、低功耗和全光透明的优势,能适应未来速率升级需求,实现多次速率升级的平滑过渡,降低经营成本。此外,OCS可在物理层实现可重构,适配不同训练任务的需求,提高网络可靠性。
例如,NV公司在其AI服务器和Leaf之间引入OCS,实现故障保护和恢复,快速缩短故障恢复时间。谷歌在其TPU v4和TPU v5网络中也采用了OCS技术,通过拓扑结构的重构提高性能和可用性。谷歌的研究表明,OCS在大规模集群中的引入,不仅能提升系统的可用性,还能优化训练任务的性能。
Nvidia L1层动态可重构大幅度的提高故障收敛时间:小时级-秒级
当前OCS的商用技术方案主要有DirectLight DBS技术和MEMS技术方案,基于MEMS技术的中小矩阵OCS已在数据中心光交换网络中应用,但随着AI集群规模从千卡向万卡乃至更大规模扩展,需要更大矩阵规模的OCS方案,对OCS的良率和可靠性提出了更加高的要求。而DirectLight DBS技术基于光束偏转控制原理,通过动态光路调整实现光信号的交换,在大规模端口扩展中表现出优异的可靠性和稳定能力,在大规模AI集群智算中心已开始应用,未来前景广阔。
最后,张华博士总结到,随着HPC和数据中心规模日渐增长,对功耗、时延、可靠性等要求慢慢的升高,OCS全光交换方案可以很好适配这些需求,并且在以Google为代表的智算和数据中心已成功应用。未来,随着集群规模扩展,将需要更大端口OCS,配合OEO交换实现混合交换架构!随着数据中心OCS应用将进一步下沉(Spine-Leaf),将需要更快切换速度、小端口低成本OCS的解决方案,以逐步提升数据中心的效率和性能。
智能网联汽车“车路云一体化”应用试点城市出炉:北上广深等20城在列,预期达成促进多场景无人驾驶规模化应用等成果
7月3日晚间公告集锦:数字认证称税务信息化领域的业务在公司主要经营业务中占比不到3%
已有75家主力机构披露2023-12-31报告期持股数据,持仓量总计6880.33万股,占流通A股29.03%
近期的平均成本为16.23元。该股资金方面呈流出状态,投资者请谨慎投资。该公司运营状况不佳,但多数机构觉得该股有长期投资价值。
限售解禁:解禁2.238亿股(预计值),占总股本比例48.28%,股份类型:首发原股东限售股份。(本次数据根据公告推理而来,真实的情况以上市公司公告为准)
限售解禁:解禁273.6万股(实际值),占总股本比例0.59%,股份类型:首发战略配售股份
股东人数变化:2024-06-28显示,公司股东人数比上期(2024-06-20)减少347户,幅度-2.04%
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才使用者真实的体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237