光互连最火概念!中国原生CPO标准草案来了决胜数据中心未来
时间: 2023-09-07 06:23:56 | 作者: 半岛体育
随着人工智能(AI)、大数据、云计算等新兴应用风起云涌,这个源起高性能计算的互连技术,正发展成AI集群和大型数据中心计算集群提高传输速率、降低整体功耗的热门技术革新方向。
当前,亚马逊AWS、微软、Meta、谷歌等云计算巨头,思科、博通、Marvell、IBM、英特尔、英伟达、AMD、台积电、格芯、Ranovus等网络设备龙头及芯片龙头,均在前瞻性地布局CPO有关技术及产品,并推进CPO标准化工作。
不出意外,接下来两到三年,北美大型数据中心将出现大量可产品化的CPO技术。
在今年的国际光通信顶会OFC上,CPO也毫无争议地继续成为焦点话题,多家厂商展示其概念产品:如博通和英特尔围绕OIF CPO标准做了联合静态展示,加拿大公司Ranovus和AMD展示了基于量子点光频梳光源和微环技术的低功耗模拟驱动800G CPO传输原型,多家硅光芯片商演示了800G/1.6T单芯片高度集成的可行性……
在可预见的将来,CPO走向成熟和商用后,不仅将改变光模块产业的竞争格局,还有望在数据中心和高性能计算领域掀起新的技术飓风。
就在前不久,国内唯一原生的CPO标准草案已制订完毕,进入各厂商联合技术验证阶段。
该标准将如何与产业链相关企业形成协力?它和国外CPO标准相比有哪些差异性特点,又与此前非常关注的原生chiplet标准存在怎样的关联?这一技术能否为我国东数西算工程提供助力?
围绕诸多问题,近日,芯东西与中国计算机互连技术联盟秘书长郝沁汾及立讯技术光电产品线总经理高旻圣博士(Dr. Mike.Kao)进行深入交流,了解我国CPO标准的最新进展,并详细地理解阅读这一新兴互连技术的发展脉络与关键挑战。
▲无锡芯光互连技术研究院院长、无锡芯光集成电路互连技术产业服务中心主任、中国计算机互连技术联盟秘书长、中科院计算所研究员郝沁汾(图左),立讯技术光电产品线总经理高旻圣博士(图右)
随着摩尔定律趋缓,芯片制程工艺演进逼近物理瓶颈,提高数据中心网络速度,正成为优化整体系统计算能力的一条关键之径。
共封装光学(CPO,Co-Packaged Optics)又名光电共封装技术、芯片级光互连技术,是一种可代替传统前面板可插拔光模块的新型超小型高密度光模块技术。它将硅光模块和电芯片封装集成在一起,能以更低成本和功耗,将从电芯片出来的高速电信号转换成光信号,并传输到远处。
该技术主要使用在于数据中心内部,在交换机/路由器、服务器、存储等数据中心产品中作为组件技术,以解决高速高密度互连传输场景下,电互连受能耗限制难以大幅度的提高数据传输能力的问题。
如今,大数据、云计算、AI等应用需求的发展,正不断拉高数据中心的数据传输速率,而功耗日渐成为传统前面板可插拔光模块所面临的最大挑战。
数据中心中的传输技术一般会用电信号,而当单通道电信号数据率达到100Gbps以上,其功耗极速升高。电芯片中的电传输链路驱动部分总功耗已占整个电芯片功耗的1/3以上,致使芯片设计散热困难,因此数据传输速率的继续提升难以为继。
这为CPO的加速发展提供了良机。当数据中心的数据传输在带宽密度要求大幅度的提高且单通道速率超过100Gbps,传统可插拔光模块和板载光学器件在成本效益方面,将很难与CPO技术相媲美。
相较传统以III-V材料为基础的光技术,硅光技术具备的成本、尺寸等优点,为CPO在数据中心的成功应用提供了技术保障。全球现有的CPO标准和概念演示,绝大部分是基于硅光技术实现的。
根据知名光通信市场调查与研究机构LightCounting在6月发布的最新调研报告,近年硅光光模块市场规模的发展速度超预期,未来5年出货的大部分CPO端口将部署在HPC和AI集群中。
第一个阶段是前期技术探索。如IBM项目大多采用了VCSEL光技术,DARPA的POEM项目等也在用光互连代替在电芯片间的传统电互连技术。
但当时光器件等一些基础技术尚不成熟,大多时候,有关技术探索停留在技术原型阶段。以色列科技公司Compass曾做过一些商业化努力,开发过一台使用CPO技术的核心路由器,将核心路由器芯片和外部的数据交换用基于VCSEL的光互连实现,不过最终并未取得商业成功。
第二个阶段,高性能计算等应用场景中对光互连技术的需求,推动了COBO等板载光模块技术的发展,但因板载光模块技术的技术局限(如依然离电芯片有一定的距离,解决的问题有限),COBO等技术的发展并未达到预期。
第三个阶段是在硅基光电子(Silicon Photonics)出现并获得一定成功后,硅基光电子技术带来的良率、小尺寸化等优势,进一步助攻CPO首先在数据中心交换机落地应用。
▲按技术划分的光模块市场规模预测(来源:LightCounting,国联证券研究所)
未来,CPO还可能进入服务器、存储等产品中,用于CPU或AI芯片之间的互连,提升带宽、降低能耗、解决封装挑战,成为杀手锏应用。
而要迈向更广阔的市场,取得更多数据中心客户的信任,当务之急是将CPO标准制订提上日程。
国外COBO和OIF等行业组织成立了工作组,国内中科院计算所牵头成立CCITA联盟(中国计算机互连技术联盟),为制订前沿互连技术标准筹备相关工作。
高旻圣谈道,在推动高速通信微型化、高密度集成与高通信容量技术往下一代演进的道路上,传统架构逐渐乏力,而制订CPO标准能够在一定程度上促进整体产业的升级及生态供应链的重组。
制订标准,是在共同约定规格的基础上形成广泛的社会分工。在郝沁汾看来,由于CPO光模块技术涉及互连互通,只有形成标准,各类组件技术厂商才能安心按照约定的标准规格设计开发各种组件,用户才敢采购CPO技术,这也是发挥各家专长、促进技术创新的必要条件。
CCITA联盟于2021年5月启动在中国电子标准化协会的国内CPO标准立项工作,联合了超过40家会员厂商,规划交换机及网卡CPO应用场景的规格标准。
在CCITA的诸多会员单位中,立讯技术是唯一一家同时涉及连接器和光电模块的业务单位,因此担任标准工作组的组长单位。
目前立讯技术已在国内及北美地区展开光模块业务,其100G/200G/400G硅光模块均已小批量生产,800G/1.6T硅光模块正在开发中。针对CPO专用芯片,立讯技术与国内外硅光芯片厂商进行联合开发,同时与自有连接器业务协同,在CPO中搭配应用其自研CPC(co-packaged copper)及PAM4 224G高速LGA/BGA连接器的产品。
与CPO标准同期启动的,还有我国的chiplet标准。此前芯东西曾在《绕开先进制程封锁!中国小芯片标准草案即将公示,独家对话郝沁汾》一文中进行详细解读。
这两个技术标准均是在芯片之间基于基板进行连接。不同之处在于,chiplet标准是电芯片间的连接,大多数都用在微电子芯片的新型架构设计,CPO标准是电芯片和光芯片的连接与混合集成,用于实现微电子芯片的高速光I/O。
值得注意的是,CCITA牵头的CPO标准,是当前中国唯一原生的CPO技术标准。
其目的是结合目前国内外在光互连技术发展及应用场景的差异,联合国内光模块、光收发芯片、电驱动放大芯片、光源、连接器等厂商,联合打造更为适合我国的CPO标准,借助标准形成广泛的光技术产业链条分工,以推动我们国家在光电子技术和产业方面的可持续发展。
据郝沁汾介绍,从应用场景来看,此前由国外厂商发起的OIF标准,仅关注了交换机侧的CPO模块厂商,其模块的带宽规格为3.2Tbps,具体实现为8x400G芯片。
而CCITA的CPO标准通过对现有AOC等前面板可插拔光模块标准做分析,同时考虑了交换机与服务器一侧网卡的CPO模块规格制定,交换机一侧的模块带宽规格为1.6Tbps,具体实现为2x800G芯片(单通道112G),因此交换机一侧的MAC层实现约定为800G,在服务器网卡一侧的CPO模块其带宽为400Gbps,为400G单芯片实现。
目前,包括1.6Tbps(2x800G)交换机侧技术规格和400G服务器侧CPO技术规格的标准草案已完成,接下来将收集各会员单位针对标准草案的建议来陆续完善工作,并安排多厂商互操作性联合技术验证。
CPO技术生态链中,最接近成熟的是各种光电芯片,如调制器、探测器、复用器件等及驱动放大电路等,其在连接器、3D集成、内置光源技术上还需进一步开发和形成成熟的生态链条。
传统的前面板可插拔光模块中,电芯片与光芯片通过PCB电路板连接;而在CPO光模块中,电芯片和光芯片之间通过封装基板连接。由于连接方法不一样,两者的设计也相异,如CPO光模块中的光电芯片常被设计的很小,甚至采用单片集成的设计方式,且CPO光模块对连接器和封装技术依赖程度较强。
郝沁汾告诉我们,我国在连接器技术方面的基础较好,国内外CPO技术在封装技术方面差距不大,主要差异体现于各种光电芯片的设计方面,与国外技术大约有一代差异。
第一类是高密度的光电(驱动)芯片设计技术。由于CPO的场景要求,用于收发的光电器件必须占据较小的空间甚至需采用3D封装方式来进行设计,因此对各种光电芯片的设计的基本要求较高。
第二类是高密度及高带宽的连接器技术。相较传统的前面板插拔光模块技术,CPO中的连接器种类多且要求高。如为了应对CPO模块也许会出现的可靠性问题,CPO模块需设计成在基板上可插拔的方式,因此要设计相应的连接器,这种基板上的连接器的技术门槛会比前面板可插拔模块中的连接器更高;再如由于光器件位于基板上,因此光纤和光器件之间的耦合技术变得颇具挑战。
第三类是封装和散热技术。CPO模块中的光电芯片可能采用3D集成,需用TSV等方法,另外由于CPO模块中放置光和电器件的空间十分狭小,散热成为一个巨大的挑战。
CCITA CPO标准工作组所做的模拟仿线米的极端条件下,当采用1.6Tbps的CPO模块设计时,交换机芯片的温度非常高,几乎没办法正常的工作,因此就需要特殊的散热方案。
除了要攻克这些技术难关外,下一步较重要的,是与交换机主芯片厂商、服务器厂商深度合作,开发完整集成的CPO交换机、网卡,以推动CPO技术落地。
最终CPO能不能成功,还将取决于其技术的实现成本。场景足够多、模块量够大,才能将CPO的成本降下来,实现盈利。
相比前面板可插拔光模块,目前CPO更换会相对麻烦和昂贵。在郝沁汾看来,将CPO光模块的成本降至和前面板可插拔光模块的成本差不多甚至更低,才有机会完全替代掉前面板可插拔光模块技术。
据LightCounting最新预测,可插拔光模块将在未来5年内继续主导市场,但是CPO器件使用率会稳定增长,到2027年,CPO端口预计将占800G和1.6T端口总数的近30%。
▲800G-1.6T以太网光模块、AOC、CPO出货量预测(来源:LightCounting,国联证券研究所)
当前CPO技术主要使用在于数据中心的交换机与服务器侧的光模块,在数据中心对更高速度和更低功耗需求的拉动下,CPO的前景十分可观。
郝沁汾预测,随着基础200G/400G以太网的成熟稳定商用部署,CPO技术预计在2025年后逐渐在交换机侧成熟商用,之后扩展至服务器侧,并可能有AOC和CPO技术混合存在的时间段。
另一方面,围绕服务器中的新型应用,如CPU或AI芯片间的互连,CPO技术或将扮演重要角色。
此外,随着CPO技术被应用到更多大型数据中心中,用于解决短距离数据传输技术瓶颈,该技术也有望间接地为我国正大力推进的东数西算工程建设做贡献。
我们认为CPO在计算领域的大量普及和应用,是CPO技术发展的有生力量,我们也希望中国企业能更多的投入到这样的领域,一起推动CPO技术的发展和应用,并享受CPO技术带来的发展红利。郝沁汾说。